如何使用Dask对字符串使用函数？

问题描述

我有一个大数据集，最近被介绍给dask。我正在尝试标记每一行中的文本。如下所示，这在熊猫中很容易做到，但是我说错了

AttributeError：当我尝试使用dask时，“ DataFrame”对象没有属性“ lower”（请参见下面的第二组代码）

import pandas as pd
import dask 
import dask.dataframe as dd

 def to_lower(text):
        return text.lower()

df_2016 = pd.read_csv("2016_Cleaned_DroppedDup.csv")
df_2016['token2'] = df_2016['token2'].apply(lambda x: pr.to_lower(x))

使用dask：

df_2016 = dd.from_pandas(df_2016,npartitions = 4 * multiprocessing.cpu_count())
df_2016 = df.2016.map_partitions.(lambda df: df.apply(lambda x: pr.to_lower(x))).compute(scheduler = 'processes')

解决方法

我将来会建议您提供创建数据框的代码，这样就无需再猜测您的数据实际上是什么样了。但是我认为这种情况很简单。另外，我认为您提供的代码中存在语法错误，例如df.2016.map_partitions应该为df_2016.map_partitions。另外，不清楚代码中的pr对象是什么。

鉴于这些错误，我只是重写了使用.str方法在dask和pandas中的字符串上进行操作的方式，在与您的设置类似的最小工作示例中。为此，pandas和dask的语法几乎没有区别。

编辑：添加了用户提供的函数（to_lower），以示例方式使用.apply。

import pandas as pd
import dask.dataframe as dd

def to_lower(text):
    return text.lower()

# using pandas
df_2016 = pd.DataFrame({'token2':['HI']*100 + ['YOU']*100})
df_2016['token2_low'] = df_2016['token2'].str.lower()
df_2016['token2_low_apply'] = df_2016['token2'].apply(to_lower)
df_2016

    token2 token2_low token2_low_apply
0       HI         hi               hi
1       HI         hi               hi
2       HI         hi               hi
3       HI         hi               hi
4       HI         hi               hi
..     ...        ...              ...
195    YOU        you              you
196    YOU        you              you
197    YOU        you              you
198    YOU        you              you
199    YOU        you              you

[200 rows x 3 columns]

# using dask
ddf_2016 = dd.from_pandas(df_2016[['token2']],npartitions=10)
ddf_2016['token2_low'] = ddf_2016['token2'].str.lower()
ddf_2016['token2_low_apply'] = ddf_2016['token2'].apply(to_lower,meta=('token2','object'))

ddf_2016.compute()

    token2 token2_low token2_low_apply
0       HI         hi               hi
1       HI         hi               hi
2       HI         hi               hi
3       HI         hi               hi
4       HI         hi               hi
..     ...        ...              ...
195    YOU        you              you
196    YOU        you              you
197    YOU        you              you
198    YOU        you              you
199    YOU        you              you

[200 rows x 3 columns]

dask dask-dataframe nltk pandas pandas

如何使用Dask对字符串使用函数？

问题描述

解决方法

相关问答