问题描述
我有一个名为 messages.txt
的文件,它由许多由行分隔的句子组成。我试图排除包含非字母字符的行(我只想要那些包含 A-Z 字符的行。
import re
import string
lines = [line.rstrip() for line in open('messages.txt',encoding='utf-8')]
cleaned_lines = [s.replace("!","").replace(".","").replace("?","").replace(",","") for s in lines]
output_lines = []
for line in cleaned_lines:
if line.replace(' ','').isalpha() == True:
output_lines.append(re.sub(r'\W+','',line.lower()))
chars = sorted(set(('').join(output_lines)))
print(chars)
输出:
['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z','ª','â','ã','å','ð','ÿ','œ','š','ž','ƒ','ˆ']
可以看出,似乎 isalpha() 方法没有排除奇怪的
'â','ÿ'
字符。我有一种感觉,这可能是由于正在读取文件的编码,但是,我认为 isalpha 方法与模式 RegEx 结合应该能够过滤掉这些字符。
这是故意的吗?如果可以,有什么方法可以去除这些奇怪的字符?
解决方法
根据我使用 UTF-8 编码 Python 脚本的本地测试,isalpha()
对于包含带重音字符的输入返回 false:
# -*- coding: utf-8 -*-
inp1 = "Hello"
inp2 = "Hållo"
print(inp1.isalpha()) # True
print(inp2.isalpha()) # False
无论如何,如果您想过滤掉任何包含非 ASCII 字母数字字符的行,那么只需在初始列表解析中使用 re.search
:
lines = [line.rstrip() for line in open('messages.txt',encoding='utf-8') if not re.search(r'[^A-Za-z0-9]',line)]
,
当您读取编码为 UTF-8 的文件时:
lines = [line.rstrip() for line in open('messages.txt',encoding='utf-8')]
lines
中的数据是 Unicode 字符串。根据所使用的操作系统/编辑器,重音字符可以“组合”(对某些重音字母使用单个代码点)或“分解”(使用两个代码点、一个字母和一个组合重音符号)。
您可以强制使用适合您的表单:
import unicodedata as ud
inp = "Hello",ud.normalize('NFC',"Hållo"),ud.normalize('NFD',"Hållo")
for i in inp:
print(i,ascii(i),i.isalpha(),i.isascii())
输出。请注意,ascii()
函数将附加的 a
显示为单个代码点 \xe5
或对 a\u030a
:
Hello 'Hello' True True
Hållo 'H\xe5llo' True False
Hållo 'Ha\u030allo' False False
要仅查找 ASCII 字母,请同时使用 isalpha()
和 isascii()
进行测试。