问题描述
我正在尝试处理一个非常庞大的 xml 文件。在某些时候,它似乎包含一些引起处理脚本失败的奇怪字符。
我想看看给定的行中有什么,但 Python (Python 3.6.9) 说该行是否定的:
xml.parsers.expat.ExpatError: not well-formed (invalid token): line -1503625011,column 60
我假设行号是负数,因为它高于最大整数值。
如何将该负数“转换”为正数,以便将其提供给 head file -n (number) | tail -n1
以隔离该故障线路?
解决方法
看起来它错误地使用了有符号的 32 位整数。
将 -1503625011
转换为无符号 int 给出 2791342285
要像这样“取消符号”整数,请参阅 How to convert signed to unsigned integer in python
注意:这只会影响行号 >= 231 (2,147,483,647
)