如何使用dask libray将实木复合地板表金字塔附加到现有的实木复合地板文件中?

问题描述

我正在尝试实现将数据存储到拼花结构的功能,将其输出到拼花文件,如果输出拼花文件存在,请使用dask追加拼花结构

self.flag = True
    self.columns = ['original_ids','masked_ids','masked_labels','masked_positions']
    fields = [
          pa.field('original_ids',pa.list_(pa.int32())),pa.field('masked_ids',pa.field('masked_labels',pa.field('masked_positions',]
    
    self.myschema = pa.schema(fields)
    
    
    
    df_input = pd.DataFrame({'original_ids' : [original_ids],'masked_ids' : [masked_ids],'masked_labels' : [masked_lm_ids],'masked_positions': [masked_lm_positions]})
    df_input = dd.from_pandas(df_input,npartitions=1)
    if self.flag:
       dd.to_parquet(df_input,self.output_f,engine='pyarrow',compression='gzip',write_index=False,compute=True,append=False,ignore_divisions=True,schema=self.myschema)
       self.flag = False
    else:
       dd.to_parquet(df_input,append=True,schema=self.myschema)

但是我遇到下一个错误:

  File "/usr/local/lib/python3.7/site-packages/dask/dataframe/io/parquet/core.py",line 424,in to_parquet
    **kwargs_pass
  File "/usr/local/lib/python3.7/site-packages/dask/dataframe/io/parquet/arrow.py",line 583,in initialize_write
    "Previous: {} | New: {}".format(names,list(df.columns))
ValueError: Appended columns not the same.
Previous: ['item','item','item'] | New: ['original_ids','masked_positions']

如何更改现有代码以解决此错误?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...