问题描述
我有一个查询的数据框,我只想从特定列中获取唯一值。
我尝试执行以下代码:
module2
python -m unittest discover module1
python -m unittest discover module2
只是一个包含我查询的两列的列表。
其中一些值为 database = pd.read_csv(db_file,sep='\t')
query = database.loc[database[db_specifications[0]].isin(elements)].drop_duplicates(subset=db_specification[1])
,我不想将它们视为彼此重复,该如何实现?
解决方法
您可以先选择所有NaN
,然后在其余数据框中放置重复项。
mask = data.isna().any()
data = pd.concat([data[mask],data[~mask]])