问题描述
我正在使用{text2vec}词嵌入来构建与某个语义类别有关的相似术语的字典。
可以在语料库中复合一些标记,但不是全部标记吗?例如,我想计算类似于“未来一代”或“上升一代”的术语,但是这些搭配当然是在原始语料库中作为单独的术语出现的。我想知道gsub“ rising generation”->“ rising_generation”是不好的做法,而不必将其他经常出现的其他术语(例如“气候变化”)混合在一起。
谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)