Google 让机器更懂语言的博大精深,发布最大消除歧义数据库

《Google 让机器更懂语言的博大精深,发布最大消除歧义数据库》要点:
本文介绍了Google 让机器更懂语言的博大精深,发布最大消除歧义数据库,希望对您有用。如果有疑问,可以联系我们。

理解语言的核心自然是了解词语在文本中的分歧含义.先来说个中文笑话:

上司:“你这是什么意思?”

下属:“没什么意思,意思意思.”

上司:“你这就不够意思了.”

下属:“小意思,小意思.”

上司:“你这人真有意思.”

下属:“其实也没有其余意思.”

上司:“那我就欠好意思了.”

下属:“是我欠好意思.”

如果让机器来理解这到底是什么意思,想必它会很头痛的吧.

那么用相对简单的英文?也没有那么简单.毕竟一个单词可能包含数十个意思.

举个例子:“He will receive stock in the reorganized company.”这个句子中,我们结合上下词就能知道,“stock”是股票的意思,我们可以从牛津字典中找到更专业的解释.

但同样在牛津字典中,stock 这个词还有超过 10 个不同的含义,好比“(商店里的)库存”或是“(鞭子、钓竿等的)柄”.对于电脑演算法而言,如何从博大精深的含义中找寻某个句子中对应的词义?这的确是一个词义消歧难题,也就是 AI-Complete 问题.

19 日 Google 研究院又发出了重量级新闻,他们发布了利用 MASC&SemCor 资料集的大规模有监督词义消歧语词.这些语词会与牛津字典上的例句互相映照,广泛适用于各个社交.与此同时,本次发布也是最大的全句释义语词程序库之一.

有监督词义消歧

人们透过对句子中词语的内容进行理解,因为我们能透过常识判断内文的含义.比如同一个例子,“‘stock’ in a business.”代表的自然是股票的意思,而“‘stock’ in a bodega.”更有可能是库存的意思,即使这里的 bodega 也可能指酒窖生意.我们希望为机器提供足够的配景资讯,并应用于理解字句中词语的含义.

有监督词义消歧(WSD)尝试解决这一问题,也就是让机器学习使用人工暗号的资料,并与字典中的词语所代表的典型含义符合.我们希望构建这样的监督模型,能够不考虑复杂语境,并符合句中单词在词典中最可能表达的含义.虽然这一点富有挑战性,但监督模型在大量训练资料支持下表现良好.

透过发布资料集,我们希望社交能够提出更好的算法,让机器对自然语言产生更深刻的理解,支持以下的应用:

  • 从文本中自动搭建数据库存,这样一来,机器可以回答问题,并将档案中的知识串联起来.举个例子,机器在经过学习后,明白“hemi engine”指的是一种自动化机械,而“locomotive engine”则与火车有关;也能理解“Kanye West is a star”指的是名人的意思,而“Sirius is a star”则是天文学概念.
  • 消除歧义.我们希望让文本在查询中能够呈现分歧的含义,避免张冠李戴,与此同时还能返回有相关语义的档案.

人工注释

在人工暗号的资料集中,每一个词义注释都由 5 个评估者进行审核.为了确保品质,这些评估者会进行训练(gold annotation),即让语言学家对一些研究样本进行标记.以下是我们的标记页面.

Google 让机器更懂语言的博大精深,发布最大消除歧义数据库

在页面左边呈现的是 general 的常用词义及例句,在右侧的文本中,general 一词会标亮显示.除了符合词义,评估者还能对词语进行判断,可以指出包括“拼字错误”、“上述情况都不符合”、“不确定”等 3 种情况.此外,评估者可以对一些含有隐喻的词语进行暗号并评论.

这些人工的词义标注采用 Krippendorff’s alpha(α >= 0.67 则具有必定可信度,α >= 0.80 则表示具有很高的可信度)进行判断,结果显示得分为 0.869.这是一个非常不错的成绩了.

Wordnet Mappings

与此同时,Google 也发布了两个从牛津词典到 Wordnet 的对映.小的资料集中含有 2,200 个单词,而大的资料集则是演算法构建的.这两个对映内容能更将 Wordnet 的内容应用于牛津词典的语料库中,也能在使用过程中实行系统的构建.

研究成果已经收录在“Semi-supervised Word Sense Disambiguation with Neural Models”中,主要采用的是 LSTM 语言处理模型及半监督学习演算法.

  • Semi-supervised Word Sense Disambiguation with Neural Models

(本文由 雷锋网授权转载,首图来源:Flickr/Valery KenskiCC BY 2.0)

延伸阅读:

  • 美国掀机器学习投资热!Uber 宣布成立 AI 实验室
  • Google 在 Montreal 设立人工智能实验室,专注深度学习技术
  • 苹果雇用 AI 研究者领导 AI 部分,赶上机器学习落后的局面
  • iOS 10 版的 Siri 将因为新的机器学习运算而更像真人

如需获取更多资讯,请关注微信公众账号:Technews科技新报

《Google 让机器更懂语言的博大精深,发布最大消除歧义数据库》是否对您有启发,欢迎查看更多与《Google 让机器更懂语言的博大精深,发布最大消除歧义数据库》相关教程,学精学透。编程之家PHP学院为您提供精彩教程。

相关文章

文章浏览阅读1.3k次。在 Redis 中,键(Keys)是非常重要的概...
文章浏览阅读3.3k次,点赞44次,收藏88次。本篇是对单节点的...
文章浏览阅读8.4k次,点赞8次,收藏18次。Spring Boot 整合R...
文章浏览阅读978次,点赞25次,收藏21次。在Centos上安装Red...
文章浏览阅读1.2k次,点赞21次,收藏22次。Docker-Compose部...
文章浏览阅读2.2k次,点赞59次,收藏38次。合理的JedisPool资...