使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True
- keep参数:指定保留哪一重复的行数据


map()中可以使用方法,可以是自定义的方法
eg:map({to_replace:value})

使用df.std()函数可以求得DataFrame对象每一列的标准差

数据清洗
当DataFrame规模足够大时,直接使用np.random.permutation(x)函数,就配合take()函数实现随机抽样
数据聚合是数据处理的最后一步,通常是要使每一个数组生成一个单一的数值。
数据分类处理:
数据分类处理的核心:
- groupby()函数
- groups属性查看分组情况
- eg: df.groupby(by=‘item‘).groups


原文:https://www.cnblogs.com/XLHIT/p/11347436.html