从 Pandas 数据框列中获取单词的频率

问题描述

我有一个数据框,其中包含一部电影中的多个演员的列演员表。我如何计算每个演员出现在数据集中的次数 这是该列外观的片段

df['cast'][:3]
0    João Miguel,Bianca Comparato,Michel Gomes,R...
1    Demián Bichir,Héctor Bonilla,Oscar Serrano,...
2    Tedd Chan,Stella Chung,Henley Hii,LaWrence ...
Name: cast,dtype: object

有人可以帮忙吗?

解决方法

例如,使用以下代码片段查找“Stella Chung”的计数:

" ".join(df['cast'].values).count('Stella Chung')

更新:

以下是对正在执行的操作的解释:

  • df['cast'].values 返回一个数组,其中包含名为 cast 的列中的所有单个列值。
  • " ".join(array) 将数组中的所有字符串连接成一个大字符串
  • string.count(substring) 返回子字符串在主字符串中出现的次数。