如何使用Pandas替换含义相同的数据字符串但键入方式不同并将未成年人的数字转换为主要字符串

问题描述

例如,

我有一个具有许多属性的大型数据集。假设该列之一是带有20个标签的职业列。让我们拿一个标签,第一副工程师。

由于数据集是结构化的,并且由于收集数据的方式的不同,对于职业一线工程师将以多种形式出现,例如“第一办公室工程师”,“第一级工程师”。

我的问题是,用Python将所有1st Officer Engineer(包括其他版本)重命名一个通用版本的最佳方法是什么?谢谢!

解决方法

首先,您可以创建如下字典:

di = {"First Office Engineer": "1st Officer Engineer","1st Off. Engineer": "1st Officer Engineer","1st Officer Engineer":"1st Officer Engineer"}

并简单地映射熊猫中的值:

df.test.map(di)

其中

测试

是列的名称。