建立pandas
import pandas as pd import numpy as np boolean=[True,False] gender=["男","女"] color=["white","black","yellow"] data=pd.DataFrame({ "height":np.random.randint(150,190,100), "weight":np.random.randint(40,90,100), "smoker":[boolean[x] for x in np.random.randint(0,2,100)], "gender":[gender[x] for x in np.random.randint(0,2,100)], "age":np.random.randint(15,90,100), "color":[color[x] for x in np.random.randint(0,len(color),100) ] } )
#属性 data.columns data.index data.values data.shape ################################################### #统计某列数据分布(数值和对应的数量) data[‘color‘].value_counts() #枚举某一列 data[‘gender‘].unique() #返回前N条,后M条 data.head(n=N) data.tail(n=M) ##选择数据, #第一种是根据位置,第二种是根据index和columns的名字选择 data.iloc[0,0] data.loc[2:4,[‘height‘,‘weight‘]] #根据布尔值筛选数据 data[data[‘gender‘]==‘男‘]
该函数对pandas的某一列执行操作。
#①使用字典进行映射 data["gender"] = data["gender"].map({"男":1, "女":0}) #②使用函数 def age_map(x): gender = x if x >50 else 50 return gender #注意这里传入的是函数名,不带括号 data["age"] = data["age"].map(age_map)
原文:https://www.cnblogs.com/yukizzc/p/12444004.html