首页 > 其他 > 详细

《面向数据科学家的实用统计学》 读书笔记

时间:2019-10-05 11:56:57      阅读:124      评论:0      收藏:0      [点我收藏+]

【【一、探索性数据分析】】

【1.3 位置估计】

平均值:所有数的总和除以个数

加权平均值:所有数的加权和除以权值和

中位数:使得数据集有一半的数位于该值之上和之下

加权中位数:使得数据集有一半的权重之和位于该值 之上和之下

切尾均值:去除最大和最小的若干值后的平均值

离群值:与大部分数差异较大的值

【1.4 变异性估计】

偏差:位置的观测值和估计值的差距

方差:n个数据距离均值的偏差的平方和,再除以n-1

标准差:方差的平方根

平均绝对偏差:数据距离均值的绝对值的平均数

中位数绝对偏差:数据距离均值的绝对值的中位数

极差:最大数和最小数的差距

百分位数:P%的数小于该数,100-P%的数大于该数

【1.5 探索数据分布】

箱线图:箱顶为75百分位数,箱底25百分位数,箱中线为50百分位数

直方图:将极差等分,根据间隔内出现频次绘图

密度图:基于直方图的平滑表示,基于某种核密度估计

【1.6 探索分类数据和二元数据】

众数:数据中出现次数最多的数或类别

期望值:如果类别与一个数据关联,可以根据类别出现的概率计算一个平均值

条形图:表示各个类别出现的频数

饼状图:条形图的另一种表示

【1.7 相关性】

相关系数:衡量两个变量的相关性,介于-1到1之间

皮尔逊相关系数:两个变量的对应值的偏差乘积和除以两变量的方差,再除以n-1

相关矩阵:多个变量两两相关系数构成的矩阵

散点图:用x轴表示一个变量的值,用y轴表示另一个变量的值

【1.8 探索两个及以上的变量】

列联表:对两个或两个以上变量进行联结计数的表格

六边形图、等势图、热力图:密度图的多维扩展

小提琴图:箱线图的扩展

 

《面向数据科学家的实用统计学》 读书笔记

原文:https://www.cnblogs.com/jhc888007/p/11624220.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!