问题描述
我正在努力解决这个问题。基本上,我的专栏 'review'
有一堆由汤返回的垃圾 HTML 内容。我不确定如何删除它并尝试以各种方式进行迭代。
您将如何遍历 df 并替换这些值?我希望它们是空白的,但我正在使用 HELLO 进行测试。
for index,row in enumerate(df['review']):
row = df.replace('<div class="text show-more__control">','HELLO',inplace=False)
df['review'] = row
解决方法
您可以使用常规字符串函数,例如 replace()
和 DataFrame["columname"].str.replace()
。如果您想用空替换列中的所有值,您可以使用 DataFrame["columname"] = ''
。
您的方法是矫枉过正,因为使用 iterrows
迭代数据帧很慢,因为它遍历所有行(每一行都包含所有列),而您实际上只想将替换应用于一列。
我的建议是使用仅应用于要替换的列的 lambda 函数:
df['column'] = df['column'].apply(lambda x: x.replace('replacethis','withthis'))