【【一、探索性数据分析】】
【1.3 位置估计】
平均值:所有数的总和除以个数
加权平均值:所有数的加权和除以权值和
中位数:使得数据集有一半的数位于该值之上和之下
加权中位数:使得数据集有一半的权重之和位于该值 之上和之下
切尾均值:去除最大和最小的若干值后的平均值
离群值:与大部分数差异较大的值
【1.4 变异性估计】
偏差:位置的观测值和估计值的差距
方差:n个数据距离均值的偏差的平方和,再除以n-1
标准差:方差的平方根
平均绝对偏差:数据距离均值的绝对值的平均数
中位数绝对偏差:数据距离均值的绝对值的中位数
极差:最大数和最小数的差距
百分位数:P%的数小于该数,100-P%的数大于该数
【1.5 探索数据分布】
箱线图:箱顶为75百分位数,箱底25百分位数,箱中线为50百分位数
直方图:将极差等分,根据间隔内出现频次绘图
密度图:基于直方图的平滑表示,基于某种核密度估计
【1.6 探索分类数据和二元数据】
众数:数据中出现次数最多的数或类别
期望值:如果类别与一个数据关联,可以根据类别出现的概率计算一个平均值
条形图:表示各个类别出现的频数
饼状图:条形图的另一种表示
【1.7 相关性】
相关系数:衡量两个变量的相关性,介于-1到1之间
皮尔逊相关系数:两个变量的对应值的偏差乘积和除以两变量的方差,再除以n-1
相关矩阵:多个变量两两相关系数构成的矩阵
散点图:用x轴表示一个变量的值,用y轴表示另一个变量的值
【1.8 探索两个及以上的变量】
列联表:对两个或两个以上变量进行联结计数的表格
六边形图、等势图、热力图:密度图的多维扩展
小提琴图:箱线图的扩展
原文:https://www.cnblogs.com/jhc888007/p/11624220.html