pandas索引的数据查找、排序和去重小结

由于Pandas的索引比较复杂，常常在使用过程中容易搞混，所以整理一份关于索引的查找、排序、去重的总结文档。

import pandas as pd
import numpy as np

#定义DataFrame
dict={'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]}
df=pd.DataFrame(dict,index=['one','two','three'])
df

可用Index ,也可用数字下标

s1=df['b']
s1['two']
s1[['two','one']]  # 用数组列出离散的标签，要用[ ]括起来
s1['two':'three']  # 标签切片
s1[0:2]            # 标号切片的右区间是开的

(1) 直接通过列索引取列

df['b']
df[['b','c']]  # 用数组列出离散的标签，要用[ ]括起来

(2) .loc 通过标签索引数据

df.loc[['two','one']]   #索引多行，行名用数组
df.loc['two':'three']   #索引多行，行名用切片
df.loc[:,['b','a']] #索引某行多列，列名用数组
df.loc[:,'b':'a']   #索引某行多列，列名用切片

(3) .iloc 通过通过标号获取数据

df.iloc[1:3,1:3]

df.set_index('a', inplace=True)  # inplace=True 会在原变量直接改，没有返回值
df

df1=df.set_index('a', inplace=False)  # inplace=False则有返回值(默认),原变量不变
df1

df.reset_index(inplace=True) 
df

df.sort_index(ascending=True, inplace=False, na_position='first')

df=df[~df.index.duplicated(keep='first')]

相关文章