问题描述
我正在尝试在 Luis 中为我的大学项目制作一个聊天机器人。我做了很多,但我坚持下来了。
首先,我需要提供一些有关土耳其语介词的预先信息。在土耳其语中,介词在单词之后。示例:
“西雅图” 是一个城市名称。如果我们想用土耳其语说 "in Seattle",我们会说 "Seattle'da"。 “da” 的意思是 “in”。
现在我的问题是:当聊天机器人用户说“22.12.2020 Seattle'da bla bla。” Luis 可以理解 “西雅图” 是一个城市名称。但是大多数土耳其人不使用 " 'da "。他们写得像“22.12.2020 Seattleda bla bla。”我的意思是没有“'”。
我可以训练 Luis 使用 "da" 介词,但 Luis 没有给我确切的城市名称。路易斯给“西雅图”而不是“西雅图”。我需要不带介词的城市名称。
解决方法
就 LUIS 而言,您所描述的行为是设计使每个令牌都按原样提取并且无法分离。为了克服这个问题,您必须自己对提取的实体进行后期处理。您需要检查实体是否以“da”结尾,然后在进一步在您的应用程序中使用该实体之前将其删除。
,我在德语中所做的是使用列表实体的规范化功能。您将获得规范化的形式,然后很容易进一步处理它。但这仅适用于一组封闭的可能词。否则,您必须按照 Maged 的描述使用预处理。