问题描述
我试图在英文和俄文的所有标点符号处拆分文本。这工作除了有空格。出于某种原因,\s 不起作用。 allRussianWords 最终包含空格,但我不希望它包含空格。
allRussianWords = re.split("[—…();«»!?.:,%\s\n]",words)
这是我试图拆分的字符串
words = "привет,моё имя Мэтт. Как ты?"
标点符号是俄语
解决方法
似乎您需要在右方括号后加一个 + 来匹配连续的字符。其他答案之一也指出了这一点。
\n 也是多余的,因为 \s 包含行返回字符。