问题描述
|
我正在使用《中央研究院》的中文Wordnet。它是Wordnet 1.6的翻译。不幸的是,它不是免费提供的,必须购买,并且该手册基本上说请参阅Wordnet的手册。我要弄清楚的是如何比较两个词之间的相似性。我想这是通过WordNetSynsetOffset完成的,但是我在Wordnet网站或文档中找不到任何有关如何使用它比较两个单词的信息。至于实际的算法,我认为这是一个不错的开始http://marimba.d.umn.edu/similarity/measures.html
<Record Conut=\"65\">
<EnglishLemma>exercise</EnglishLemma>
<POS>Noun</POS>
<WordNetSynsetOffset Version=\"1.6\">00469856</WordNetSynsetOffset>
<EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank>
<ChineseTransList>
<ChineseTrans>
<ChineseLemma>例題</ChineseLemma>
<ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank>
</ChineseTrans>
</ChineseTransList>
</Record>
解决方法
因此,我认为您正在寻找的(基于评论)是WordNet API。
如果中文格式相同,则可以使用安装附带的WordNet API。它是一个C库,您可以在这里找到文档:
http://wordnet.princeton.edu/wordnet/documentation/
基本上-这是它的工作方式。同义词集是所识别的同义词集的一组同义词,由同义词集ID(00469856)唯一标识。同义词集通过各种形式的语义关系连接到其他同义词集。大多数相似性指标的工作方式是:搜索一个Synset(通过您在下面引用的编号,API应该支持该编号),然后通过使用各种指标来查看另一个Synset有多远。
同义词集还包含该同义词集的语义含义的文本描述-我们习惯的标准字典定义。在某些情况下,某些相似性度量标准(例如,Lesk算法)使用文本描述来比较两个同义集之间的“相似性”。
还有其他可用的API,可让您通过各种语言的API搜索和访问WordNet。
http://wordnet.princeton.edu/wordnet/related-projects/
例如,这是WordNet 3.0词典文件中的示例Synset定义:
00020671 29 v 04催眠0催眠0催眠0催眠0(...更多遗漏)...
唯一标识符00020671标识此同义词集。这里有四个同义词用于催眠。
,一个单词可能有许多可能的意义(同义词)。如果要比较两种感觉之间的相似性,则首先必须消除每个单词的歧义。一旦知道要比较的两种感觉,就可以使用@bwalenz的建议。