无空格字符串中的关键字使用 NLP?

问题描述

我正在尝试在无空格字符串中查找相关的关键字集。一个例子是:

freelancemarketingconsultant

通过阅读,您可以区分以下关键词:

freelance marketing consultant

您可以看到这项任务并不简单,因为区分“自由”和“长枪”是一个常见的混淆。

是否有已知的(可能是 NLP)技术来从此类字符串中提取关键字?

解决方法

您可以使用 Viterbi 算法找到最可能(最佳)的字符串分割方式。有一个名为 wordsegment 的库可以在 Python 中执行此操作,您可以在 Peter Norvig's page 上阅读有关该技术的更多信息。

最近还有一个名为 Hashtag Master 的研究项目,该项目使用神经方法对主题标签进行标记。

这在英语中不是常见问题,但在语言中这是标准的,因为空格不会分割单词,如日语。有多种方法,而且研究还在继续,但基于维特比的方法通常在速度和准确性之间取得了最佳平衡。