问题描述
例如,
我有一个具有许多属性的大型数据集。假设该列之一是带有20个标签的职业列。让我们拿一个标签,第一副工程师。
由于数据集是结构化的,并且由于收集数据的方式的不同,对于职业一线工程师将以多种形式出现,例如“第一办公室工程师”,“第一级工程师”。
我的问题是,用Python将所有1st Officer Engineer(包括其他版本)重命名为一个通用版本的最佳方法是什么?谢谢!
解决方法
首先,您可以创建如下字典:
di = {"First Office Engineer": "1st Officer Engineer","1st Off. Engineer": "1st Officer Engineer","1st Officer Engineer":"1st Officer Engineer"}
并简单地映射熊猫中的值:
df.test.map(di)
其中
测试
是列的名称。