Wordnet同义词偏移?如何比较单词

问题描述

| 我正在使用《中央研究院》的中文Wordnet。它是Wordnet 1.6的翻译。不幸的是,它不是免费提供的,必须购买,并且该手册基本上说请参阅Wordnet的手册。我要弄清楚的是如何比较两个词之间的相似性。我想这是通过WordNetSynsetOffset完成的,但是我在Wordnet网站或文档中找不到任何有关如何使用它比较两个单词的信息。至于实际的算法,我认为这是一个不错的开始http://marimba.d.umn.edu/similarity/measures.html
<Record Conut=\"65\">  
    <EnglishLemma>exercise</EnglishLemma>  
    <POS>Noun</POS>  
    <WordNetSynsetOffset Version=\"1.6\">00469856</WordNetSynsetOffset>  
    <EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank>  
    <ChineseTransList>  
        <ChineseTrans>  
            <ChineseLemma>例題</ChineseLemma>  
            <ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank>  
        </ChineseTrans>  
    </ChineseTransList>  
</Record>  
    

解决方法

因此,我认为您正在寻找的(基于评论)是WordNet API。 如果中文格式相同,则可以使用安装附带的WordNet API。它是一个C库,您可以在这里找到文档: http://wordnet.princeton.edu/wordnet/documentation/ 基本上-这是它的工作方式。同义词集是所识别的同义词集的一组同义词,由同义词集ID(00469856)唯一标识。同义词集通过各种形式的语义关系连接到其他同义词集。大多数相似性指标的工作方式是:搜索一个Synset(通过您在下面引用的编号,API应该支持该编号),然后通过使用各种指标来查看另一个Synset有多远。 同义词集还包含该同义词集的语义含义的文本描述-我们习惯的标准字典定义。在某些情况下,某些相似性度量标准(例如,Lesk算法)使用文本描述来比较两个同义集之间的“相似性”。 还有其他可用的API,可让您通过各种语言的API搜索和访问WordNet。 http://wordnet.princeton.edu/wordnet/related-projects/ 例如,这是WordNet 3.0词典文件中的示例Synset定义: 00020671 29 v 04催眠0催眠0催眠0催眠0(...更多遗漏)... 唯一标识符00020671标识此同义词集。这里有四个同义词用于催眠。     ,一个单词可能有许多可能的意义(同义词)。如果要比较两种感觉之间的相似性,则首先必须消除每个单词的歧义。一旦知道要比较的两种感觉,就可以使用@bwalenz的建议。     

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...