首页 > 编程语言 > 详细

4-python数据分析-淘宝婴儿用品分析项目

时间:2020-07-16 19:36:30      阅读:80      评论:0      收藏:0      [点我收藏+]

加载购买商品表的数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas import Series, DataFrame
%matplotlib inline 魔法指令

# 导入数据
buy = pd.read_csv(./淘宝婴儿用品案例数据/(sample)sam_tianchi_mum_baby_trade_history.csv, engine=python) 
 技术分享图片

考虑到属性字段,都是一些编号,没办法具体分析,因此去除该字段

buy.drop(labels=property, axis=1, inplace=True)
 技术分享图片

将day列的数据转换成时间序列

# 这里需要给时间指定格式
buy[day] = pd.to_datetime(buy[day], format=%Y%m%d)
 技术分享图片

查看数据的时间范围

  • 显示出数据集的最早购买时间和最后购买时间
buy[day].min(), buy[day].max()
(Timestamp(2012-07-02 00:00:00), Timestamp(2015-02-05 00:00:00))

查看buy_mount是否存有异常值

  购买数量小于等于零为异常数据

# 通过条件查询购买数量小于等于0的数据,返回布尔值
# 如果小于等于就返回True为1,否则布尔值False为0,求和结果大于0说明有异常值
(buy[buy_mount] <= 0).sum()
0

此时返回0,说明没有异常值

查看数据集用户购买商品的情况

  • 需要获知,大部分用户是多次购买商品还是只是购买了一次商品
# nunique 可以返回去重后的个数,相当于unique加count
# 这里通过这个操作得到总user_id数
buy[user_id].nunique()
29944

# shape[0] 获取总体数据有多少行,得到总交易数
buy.shape[0]
29971

29971笔交易是29944个用户产生的,所以一次购买的多

 

4-python数据分析-淘宝婴儿用品分析项目

原文:https://www.cnblogs.com/wgwg/p/13324134.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!