问题描述
我目前在我的机器学习模型中使用Arrow来读取Parquet中的数据。目前,我正在尝试弄清楚如何从Arrow表中获取某些记录。我看到箭头表具有“ Take” api,但是我不确定如何使用它。我尝试传递int索引,但是当我尝试Im时收到以下异常:
{
"compilerOptions": {
"baseUrl": "src"
},"include": ["src"]
}
有人知道我如何从箭头表中读取记录吗?
解决方法
金字塔表的take()
方法需要类似数组的索引(而不是单个整数索引):
>>> import pyarrow as pa
>>> table = pa.table({'a': range(5)})
>>> table.to_pandas()
a
0 0
1 1
2 2
3 3
4 4
>>> table.take([0,2]).to_pandas()
a
0 0
1 2