用印度尼西亚语替换缩写或俚语

问题描述

我在excel文件中有很多这样的文本数据 raw data

以及来自 txt 文件的印度尼西亚俚语或缩写词的字典列表 slang/abbreviation word

如何根据我之前制作的字典替换文本中的单词?

解决方法

你可以这样做(这是一个字符串的例子):

string = 'asd des sdss d'
replacements = {"asd": "replaced"}
new_string = " ".join(replacements.get(word,word) for word in string.split(' '))
print(new_string)

result: 'replaced des sdss d'

这不会处理文本中的特殊字符,例如 ',''.'。也许你需要添加逻辑来处理这些事情。