问题描述
我想知道当我们有一个缺失值的数据集时,处理它们的最佳方法是什么?直接去掉还是用零替换?
假设我有这些日期:
id | 名称 | 价格 | product_group |
---|---|---|---|
1 | nd | 14.35 | 关心 |
2 | nd | 10.02 | 妆容 |
3 | nd | 5.40 | nd |
4 | nd | 7.68 | nd |
我需要分析“产品组”列中的日期并尝试使用此代码删除值“nd”,但它不起作用。
order['product_group'] = order['product_group'].replace('nd',np.nan)
order['product_group'] = order['product_group'].dropna(how='any')
解决方法
可以索引 'nd'
列内的 product_group
行,然后将它们从原始数据框中删除:
import pandas as pd
i= order[(order.product_group=='nd')].index
order.drop(i)
,
您应该在整个数据框上dropna()
,而在 subset
列上只product_group
:
order['product_group'] = order['product_group'].replace('nd',np.nan)
order = order.dropna(subset=['product_group'])
# id name price product_group
# 0 1 nd 14.35 care
# 1 2 nd 10.02 makeup
至于为什么您的版本不起作用,请注意,当您单独在列上 dropna()
时(没有重新分配),效果很好:
order['product_group'].dropna()
# 0 care
# 1 makeup
# Name: product_group,dtype: object
但是如果您将这个简短的系列分配回完整的数据帧,pandas 不知道如何处理额外的行,只会将 nan
值放回去。