问题描述
虽然我知道对此存在一些疑问,但是我想知道我在用python重新声明语句时的所有选择。我尝试制作同义词提取程序,但是却得到类似这样的短语:
敏捷的棕色长统靴跳过了那些对工作不利的猎犬
还有其他人没有真正说过的话。是否有任何特定的nltk / api / lib建议,以提供解决此问题的最佳方法?谢谢
解决方法
结果没有意义,因为您没有想到单词歧义,每个单词可能具有很多含义,例如(bank)可以是金融机构,也可以是河边 >
所以您必须解决-您可以通过很多算法(例如 Lesk Algorithms )来解决问题
您还可以将译文翻译为中心语言,然后再次将其重新翻译为英文,这也会有所不同
,您可以使用以下库或方法来执行数据扩充或释义。
- NLPAug-(https://github.com/makcedward/nlpaug)
- 后退翻译方法-(https://github.com/google-research/uda)
- T5模型和Google UDA实施(https://github.com/dheerajiiitv/T5-paraphrase-generation)