如何从单词目录创建语料库?

问题描述

我想对公司名称进行细分。输入不是句子的形式。

这是输入和输出的说明

appleinc -> ["apple","inc"]
googlellc -> ["google","llc"]
slacktechnologiesinc -> ["slack","technologies","inc"]
llcllc -> ["llc","llc"]
incllc -> ["inc","llc"]

我发现 Grant Jenk 的 Word Segment library 适合这项任务。

他发布了关于如何在他的图书馆中使用不同语料库的article。但是,他正在使用电子书来构建语料库。

我研究了现有的语料库教程,但每个教程都使用维基百科或电子书来构建基于句子的语料库。

我有两个目录。一个目录包含全球公司名称,而另一个目录包含公司法定缩写,例如 ("llc","inc")

如何从这两个目录创建 copus 并构建 UNIGRAMS 和 BIGRAMS?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)