首页 > 其他 > 详细

动手数据分析-第一章

时间:2021-06-14 23:31:54      阅读:27      评论:0      收藏:0      [点我收藏+]

本项目课程的主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。

首先第一章主要是了解数据和数据基本分析,

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 任务一:导入numpy和pandas

#写入代码
import numpy as np
import pandas as pd

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity=‘all‘

1.1.2 任务二:载入数据

import os
path1 = os.getcwd() #查看当前文件目录
print(path1)
df1 = pd.read_csv(‘train.csv‘)
df1.head()
print(type(df1))

#写入代码
df2 = pd.read_csv(‘F:/BaiduNetdiskDownload/Hands_on_data_analysis/hands-on-data-analysis-master/第一单元项目集合/train.csv‘)
df2.head()

‘‘‘
1、pd.read_csv()和pd.read_table()的区别:read_csv()从文件、url、文件型对象中加载带分隔符的数据,默认分隔符为逗号;read_table()从文件、url、文件型对象中加载带分隔符的数据,默认分隔符为制表符;
2、‘.tsv‘和‘.csv‘的不同:TSV 是Tab-separated values的缩写,即制表符分隔值。 相对来说CSV,Comma-separated values(逗号分隔值)更常见一些。
TSV与CSV的区别: 1)从名称上即可知道,TSV是用制表符(Tab,‘\t‘)作为字段值的分隔符;CSV是用半角逗号(‘,‘)作为字段值的分隔符; 2)IANA规定的标准TSV格式,字段值之中是不允许出现制表符的。
‘‘‘

1.1.3 任务三:每1000行为一个数据模块,逐块读取

#写入代码
path = ‘F:/BaiduNetdiskDownload/Hands_on_data_analysis/hands-on-data-analysis-master/第一单元项目集合/train.csv‘
chunker = pd.read_csv(path,chunksize=500) #返回一个TextParser对象,该对象总共有10个元素,遍历过程中打印chunkercount验证得到。
print(type(chunker))

for chunk in chunker:
print (chunk)

# 什么是逐块读取?为什么要逐块读取呢?
‘‘‘
逐块读取就是将文本分成若干块;
对于几百MB的CSV文件,可以直接使用pd.read_csv()进行读取。然而如果csv文件太大,达到几个Gb,这种方法就不可取。这时应使用chunk,进行分块读取;
通过设置chunksize的参数,控制每次迭代的大小;如上面的数据只有891行,参数设置1000后只迭代了一次;改成500试一下,循环打印了两次;

‘‘‘

1.1.4 任务四:将表头改成中文,索引改为乘客ID

#写入代码
#修改全部列名 df.columns

df1.columns = [u‘乘客ID‘,u‘是否幸存‘,u‘乘客等级(1/2/3等舱位)‘,u‘乘客姓名‘,u‘性别‘,u‘年龄‘,u‘堂兄弟/妹个数‘,u‘父母与小孩个数‘,u‘船票信息‘,u‘票价‘,u‘客舱‘,u‘登船港口‘]
df1.head()

# 字符串前面加u 作用:后面字符串以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码。一般英文字符在使用各种编码下,,基本都可以正常解析, 所以一般不带u。

 

1.2 初步观察

1.2.1 任务一:查看数据的基本信息

#写入代码
df1.info()

1.2.2 任务二:观察表格前10行的数据和后15行的数据

#写入代码
df1.head(10)

1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False

#写入代码
df1.isnull().head()

1.3 保存数据

1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv

#写入代码
# 注意:不同的操作系统保存下来可能会有乱码。大家可以加入`encoding=‘GBK‘ 或者 ’encoding = ’uft-8‘‘`
df1.to_csv(‘train_chinese1.csv‘,encoding=‘GBK‘)

【总结】数据的加载以及入门,接下来就要接触数据本身的运算,我们将主要掌握numpy和pandas在工作和项目场景的运用。

 

动手数据分析-第一章

原文:https://www.cnblogs.com/herj-0925/p/14883542.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!