import pandas as pd import numpy as np import matplotlib.pyplot as plt from pandas import Series, DataFrame %matplotlib inline 魔法指令 # 导入数据 buy = pd.read_csv(‘./淘宝婴儿用品案例数据/(sample)sam_tianchi_mum_baby_trade_history.csv‘, engine=‘python‘)
buy.drop(labels=‘property‘, axis=1, inplace=True)
# 这里需要给时间指定格式 buy[‘day‘] = pd.to_datetime(buy[‘day‘], format=‘%Y%m%d‘)
buy[‘day‘].min(), buy[‘day‘].max() (Timestamp(‘2012-07-02 00:00:00‘), Timestamp(‘2015-02-05 00:00:00‘))
购买数量小于等于零为异常数据
# 通过条件查询购买数量小于等于0的数据,返回布尔值 # 如果小于等于就返回True为1,否则布尔值False为0,求和结果大于0说明有异常值 (buy[‘buy_mount‘] <= 0).sum() 0
此时返回0,说明没有异常值
# nunique 可以返回去重后的个数,相当于unique加count # 这里通过这个操作得到总user_id数 buy[‘user_id‘].nunique() 29944 # shape[0] 获取总体数据有多少行,得到总交易数 buy.shape[0] 29971
29971笔交易是29944个用户产生的,所以一次购买的多
原文:https://www.cnblogs.com/wgwg/p/13324134.html