问题描述
假设我有一个固定的多词名称列表,例如:
Water
Tocopherol (Vitamin E)
Vitamin D
PEG-60 Hydrogenated Castor Oil
我想要以下输入/输出结果:
-
Water,PEG-60 Hydrogenated Castor Oil
->Water
,PEG-60 Hydrogenated Castor Oil
-
PEG-60 Hydrnated Castor Oil
->PEG-60 Hydrogenated Castor Oil
-
wter PEG-60 Hydrnated Castor Oil
->Water
,PEG-60 Hydrogenated Castor Oil
-
Vitamin E
->Tocopherol (Vitamin E)
我需要它是高性能的,并且能够识别出有太多接近匹配和没有接近匹配。使用 1 相对容易,因为我可以用逗号分隔。大多数情况下,输入列表由逗号分隔,因此这在 80% 的情况下都有效,但即使这样也有小问题。以 4 为例。一旦分离,大多数拼写检查库都不会返回 4 的理想匹配(我尝试了一个数字),因为到 Vitamin D
的编辑距离要小得多。有一些网站在这方面做得很好,但我不知道如何去做。
这个问题的第二部分是,我如何在上面做分词。假设给定的列表没有逗号,我需要能够识别它。最简单的例子是 Water Vtamin D
应该变成 Water
,Vitamin D
。我可以举出很多例子,但我认为这可以很好地说明问题。
Here's 可以使用的名称列表。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)