首页 > 其他 > 详细

pandas常用操作详解——pandas的去重操作df.duplicated()与df.drop_duplicates()

时间:2021-04-20 21:30:29      阅读:114      评论:0      收藏:0      [点我收藏+]

df.duplicated()

参数详解:

subset:检测重复的数据范围。默认为数据集的所有列,可指定特定数据列;

keep: 标记哪个重复数据,默认为‘first’。1.‘first’:标记重复数据第一次出现为True;‘last’:标记重复数据最后一次出现为True;False:标记所有重复数据为True。

import pandas as pd

#构造数据(数据集来自pandas官网
df = pd.DataFrame({
    brand: [Yum Yum, Yum Yum, Indomie, Indomie, Indomie],
    style: [cup, cup, cup, pack, pack],
    rating: [4, 4, 3.5, 15, 5]
})

技术分享图片

 

 

#1
df.duplicated(keep=‘first‘)
#2
df.duplicated(keep=last)
#3
df.duplicated(keep=False)

技术分享图片技术分享图片技术分享图片

 

 

#检测brand列的重复情况
df.duplicated(subset=[brand])

技术分享图片

 

 

df.drop_duplicates()

 参数详解:

subset:见上;

keep:见上;

inplace:默认为False,是否返回一个copy;

ignore_index:默认为False,是否重新构建索引。

 

 

df.drop_duplicates()

技术分享图片

 

 

df.drop_duplicates(subset=[brand, style], keep=last)

技术分享图片

 

pandas常用操作详解——pandas的去重操作df.duplicated()与df.drop_duplicates()

原文:https://www.cnblogs.com/mmmmiles/p/14681914.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!