HSE Thai Corpus

提供者:朱述承

简介

HSE泰语语料库——现代泰语文本语料库包含5000万表征的文本,从各种泰国网站(主要是新闻网站)收集的。每个表征都被标注了它的英文翻译和词性标签。还有一些其他的语法标签也被标注到了合适的地方。 HSE泰语语料库可以由泰语和任何讲英语的用户使用,因为每个被标注的词都被赋予了英语翻译。对于语言学家和基本上任何对泰语感兴趣的人来说,这是一个有用的工具。该语料库适用于词汇,句法和其他的时间性研究,并且由于其数量庞大,可以为研究人员提供大量的数据。该语料库采用了EANC的搜索引擎。用户友好和灵活的搜索系统允许用户通过语法和POS标签以及翻译,当然还有实际的字形来收集材料。为了让非泰语的人更容易理解和使用语料库中的文本,我们决定在每个句子中用空格分隔单词。

访问地址

http://web-corpora.net/ThaiCorpus/search/