问题描述
我正在尝试使用 pd.read_csv() 读取数据集时出现错误。
import pandas as pd
df2 = pd.read_csv("/content/data.txt",sep=" ",header=0,names=['word','label1','label2'],engine="python")
我收到错误
Error: unexpected end of data
During handling of the above exception,another exception occurred:
ParserError Traceback (most recent call last)
我的 Data.txt
文件看起来像
n en en
wish en en
very en en
happy en en
b en en
" univ univ
day en en
to en en
u en en
........... univ univ
当我用其他一些标点符号替换这个 "
时,它工作正常。
我该怎么做才能解决这个问题?为什么这个 "
标记会发生这种情况?
解决方法
设置参数引用为3。
引用: int 或 csv.QUOTE_* 实例,默认 0
控制每个 csv.QUOTE_* 常量的字段引用行为。使用其中之一 QUOTE_MINIMAL (0)、QUOTE_ALL (1)、QUOTE_NONNUMERIC (2) 或 QUOTE_NONE (3).
示例:
df = pd.read_csv("t.txt",sep=" ",header=0,names=['word','label1','label2'],engine="python",quoting=3)
输出:
word label1 label2
0 wish en en
1 very en en
2 happy en en
3 b en en
4 " univ univ
5 day en en
6 to en en
7 u en en
8 ........... univ univ
参考:https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html