摘自《利用Python进行数据分析2版》
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。
面对不同的参数,感到头痛很正常(read_csv有超过50 个参数)。pandas文档有这些参数的例子,如果你感到阅读某个文件很难,可以通 过相似的足够多的例子找到正确的参数。
插入知识:
%的使用。
??的使用,和%类似,运行各种命令。
使用Unix cell命令, 运行一个csv文件:
In [8]: !cat examples/ex1.csv a,b,c,d,message 1,2,3,4,hello 5,6,7,8,world 9,10,11,12,foo
df = pd.read_csv(‘ex1.csv‘) # a b c d message #0 1 2 3 4 hello #1 5 6 7 8 world #2 9 10 11 12 foo
默认第一行为header,参数是header=‘infer‘,但如果文件没有header:
参数index_col: 把列设置为index。
pd.read_csv(‘ex1.csv‘, index_col=‘message‘)
参数index_col:还可以设置MultiIndex。多重索引, index_col : array_like
参数sep: 设置分隔符号,可以使用正则表达式。
\t\n\r\f\v。
参数skiprows : list-like, int, callable
参数nrows : int
??参数na_values: scalar, str, list, dict,用于处理缺失值。
#values中的1,2,3被转换为NaN pd.read_csv(‘ex5.csv‘, na_values=[1,2,3])
#设置jupyter中每个cell执行后显示的行数
pd.options.display.max_rows = 60
使用参数:chunksize : int
方法:to_csv
后面的章节未阅读。
原文:https://www.cnblogs.com/chentianwei/p/12321131.html