动手数据分析-第一章

时间：2021-06-14 23:31:54 阅读：35 评论：0 收藏：0 [点我收藏+]

本项目课程的主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。

首先第一章主要是了解数据和数据基本分析，

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 任务一：导入numpy和pandas

#写入代码
import numpy as np
import pandas as pd

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity=‘all‘

1.1.2 任务二：载入数据

import os
path1 = os.getcwd() #查看当前文件目录
print(path1)
df1 = pd.read_csv(‘train.csv‘)
df1.head()
print(type(df1))

#写入代码
df2 = pd.read_csv(‘F:/BaiduNetdiskDownload/Hands_on_data_analysis/hands-on-data-analysis-master/第一单元项目集合/train.csv‘)
df2.head()

‘‘‘
1、pd.read_csv()和pd.read_table()的区别：read_csv()从文件、url、文件型对象中加载带分隔符的数据，默认分隔符为逗号；read_table()从文件、url、文件型对象中加载带分隔符的数据，默认分隔符为制表符；
2、‘.tsv‘和‘.csv‘的不同：TSV 是Tab-separated values的缩写，即制表符分隔值。相对来说CSV，Comma-separated values（逗号分隔值）更常见一些。
TSV与CSV的区别： 1）从名称上即可知道，TSV是用制表符（Tab,‘\t‘）作为字段值的分隔符；CSV是用半角逗号（‘,‘）作为字段值的分隔符； 2）IANA规定的标准TSV格式，字段值之中是不允许出现制表符的。
‘‘‘

1.1.3 任务三：每1000行为一个数据模块，逐块读取

#写入代码
path = ‘F:/BaiduNetdiskDownload/Hands_on_data_analysis/hands-on-data-analysis-master/第一单元项目集合/train.csv‘
chunker = pd.read_csv(path,chunksize=500) #返回一个TextParser对象，该对象总共有10个元素，遍历过程中打印chunkercount验证得到。
print(type(chunker))

for chunk in chunker:
print (chunk)

# 什么是逐块读取？为什么要逐块读取呢？
‘‘‘
逐块读取就是将文本分成若干块；
对于几百MB的CSV文件，可以直接使用pd.read_csv（）进行读取。然而如果csv文件太大，达到几个Gb，这种方法就不可取。这时应使用chunk，进行分块读取;
通过设置chunksize的参数，控制每次迭代的大小；如上面的数据只有891行，参数设置1000后只迭代了一次；改成500试一下，循环打印了两次；

‘‘‘

1.1.4 任务四：将表头改成中文，索引改为乘客ID

#写入代码
#修改全部列名 df.columns

df1.columns = [u‘乘客ID‘,u‘是否幸存‘,u‘乘客等级(1/2/3等舱位)‘,u‘乘客姓名‘,u‘性别‘,u‘年龄‘,u‘堂兄弟/妹个数‘,u‘父母与小孩个数‘,u‘船票信息‘,u‘票价‘,u‘客舱‘,u‘登船港口‘]
df1.head()

# 字符串前面加u 作用：后面字符串以 Unicode 格式进行编码，一般用在中文字符串前面，防止因为源码储存格式问题，导致再次使用时出现乱码。一般英文字符在使用各种编码下,，基本都可以正常解析, 所以一般不带u。

1.2 初步观察

1.2.1 任务一：查看数据的基本信息

#写入代码
df1.info()

1.2.2 任务二：观察表格前10行的数据和后15行的数据

#写入代码
df1.head(10)

1.2.4 任务三：判断数据是否为空，为空的地方返回True，其余地方返回False

#写入代码
df1.isnull().head()

1.3 保存数据

1.3.1 任务一：将你加载并做出改变的数据，在工作目录下保存为一个新文件train_chinese.csv

#写入代码
# 注意：不同的操作系统保存下来可能会有乱码。大家可以加入`encoding=‘GBK‘ 或者 ’encoding = ’uft-8‘‘`
df1.to_csv(‘train_chinese1.csv‘,encoding=‘GBK‘)

【总结】数据的加载以及入门，接下来就要接触数据本身的运算，我们将主要掌握numpy和pandas在工作和项目场景的运用。

动手数据分析-第一章

原文：https://www.cnblogs.com/herj-0925/p/14883542.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)