pandas常用操作详解——pandas的去重操作df.duplicated()与df.drop_duplicates()

时间：2021-04-20 21:30:29 阅读：129 评论：0 收藏：0 [点我收藏+]

df.duplicated()

参数详解：

subset：检测重复的数据范围。默认为数据集的所有列，可指定特定数据列；

keep: 标记哪个重复数据，默认为‘first’。1.‘first’：标记重复数据第一次出现为True;‘last’：标记重复数据最后一次出现为True；False:标记所有重复数据为True。

import pandas as pd

#构造数据(数据集来自pandas官网

df = pd.DataFrame({
    ‘brand‘: [‘Yum Yum‘, ‘Yum Yum‘, ‘Indomie‘, ‘Indomie‘, ‘Indomie‘],
    ‘style‘: [‘cup‘, ‘cup‘, ‘cup‘, ‘pack‘, ‘pack‘],
    ‘rating‘: [4, 4, 3.5, 15, 5]
})

技术分享图片

#1
df.duplicated(keep=‘first‘)
#2
df.duplicated(keep=‘last‘)
#3
df.duplicated(keep=False)

技术分享图片

#检测brand列的重复情况
df.duplicated(subset=[‘brand‘])

技术分享图片

df.drop_duplicates()

参数详解：

subset:见上；

keep:见上；

inplace:默认为False,是否返回一个copy；

ignore_index:默认为False,是否重新构建索引。

df.drop_duplicates()

技术分享图片

df.drop_duplicates(subset=[‘brand‘, ‘style‘], keep=‘last‘)

技术分享图片

pandas常用操作详解——pandas的去重操作df.duplicated()与df.drop_duplicates()

原文：https://www.cnblogs.com/mmmmiles/p/14681914.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)