如何处理 Pandas 中的缺失值

问题描述

我想知道当我们有一个缺失值的数据集时，处理它们的最佳方法是什么？直接去掉还是用零替换？

假设我有这些日期：

id	名称	价格	product_group
1	nd	14.35	关心
2	nd	10.02	妆容
3	nd	5.40	nd
4	nd	7.68	nd

我需要分析“产品组”列中的日期并尝试使用此代码删除值“nd”，但它不起作用。

    order['product_group'] = order['product_group'].replace('nd',np.nan)
    order['product_group'] = order['product_group'].dropna(how='any')

解决方法

可以索引 'nd' 列内的 product_group 行，然后将它们从原始数据框中删除：

import pandas as pd

i= order[(order.product_group=='nd')].index

order.drop(i)

您应该在整个数据框上dropna()，而在 subset 列上只product_group：

order['product_group'] = order['product_group'].replace('nd',np.nan)
order = order.dropna(subset=['product_group'])

#    id name  price product_group
# 0   1   nd  14.35          care
# 1   2   nd  10.02        makeup

至于为什么您的版本不起作用，请注意，当您单独在列上 dropna() 时（没有重新分配），效果很好：

order['product_group'].dropna()

# 0      care
# 1    makeup
# Name: product_group,dtype: object

但是如果您将这个简短的系列分配回完整的数据帧，pandas 不知道如何处理额外的行，只会将 nan 值放回去。

missing-data nan pandas pandas product python