问题描述
|
我的问题是,给定“ 0”,我如何分辨d1和d2在语义上相关。是否有一些API可以执行一定数量的自然语言处理,可能会提示我d1可能与d2有关。
我迫切需要它。请帮助!!
解决方法
您可以使用特殊的微格式。参见http://microformats.org/
简单的例子:
<a href=\"http://creativecommons.org/licenses/by/2.0/\" rel=\"license\">cc by 2.0</a>
Rel-License是几种微格式之一。通过将rel = \“ license \”添加到超链接,页面指示该超链接的目的地是当前页面的许可证。
,对于语义相关的文档,您可以使用特殊词汇(例如SKOS)并将它们关联到本体中。或者,您可以直接在文档中使用微格式(如silex所述)。
对于自然语言处理,存在可以提取信息的不同工具,例如GATE。但这不是一项琐碎的任务。
也许您可以完善您想做的事情?您想定义哪些文档相关?还是您想要一个软件找出可能相关的文档?
,您需要研究“命名实体提取”,即自然语言处理,以提取两个文档共有的可能实体。这些通常是人,地点,事件,时间,组织。
看看OpenCalais http://www.opencalais.com/,了解这种技术的一些实际应用。