带有拼写检查的查询分段

问题描述

假设我有一个固定的多词名称列表,例如: Water Tocopherol (Vitamin E) Vitamin D PEG-60 Hydrogenated Castor Oil

我想要以下输入/输出结果:

  1. Water,PEG-60 Hydrogenated Castor Oil -> Water,PEG-60 Hydrogenated Castor Oil
  2. PEG-60 Hydrnated Castor Oil -> PEG-60 Hydrogenated Castor Oil
  3. wter PEG-60 Hydrnated Castor Oil -> Water,PEG-60 Hydrogenated Castor Oil
  4. Vitamin E -> Tocopherol (Vitamin E)

我需要它是高性能的,并且能够识别出有太多接近匹配和没有接近匹配。使用 1 相对容易,因为我可以用逗号分隔。大多数情况下,输入列表由逗号分隔,因此这在 80% 的情况下都有效,但即使这样也有小问题。以 4 为例。一旦分离,大多数拼写检查库都不会返回 4 的理想匹配(我尝试了一个数字),因为到 Vitamin D 的编辑距离要小得多。有一些网站在这方面做得很好,但我不知道如何去做。

这个问题的第二部分是,我如何在上面做分词。假设给定的列表没有逗号,我需要能够识别它。最简单的例子是 Water Vtamin D 应该变成 Water,Vitamin D。我可以举出很多例子,但我认为这可以很好地说明问题。

Here's 可以使用的名称列表。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)