随机变量的期望的概念类似于加权平均,其所有的可能取值由他们的概率加权。
离散型随机变量的期望:如果\(X\)是频率函数为\(p(x)\)的离散型随机变量,且满足\(\sum \limits_{i}|x_I|p(x_i) < \infty\),则\(X\)的期望,记为\(E(X)\),是:
\[
E(X) = \sum \limits_ix_ip(x_i)
\]
如果和式发散,则期望无定义。\(E(X)\)也称为\(X\)的均值,通常记作\(\mu\)或\(\mu_X\),将其视作频率函数的质量中心有助于我们理解\(X\)的期望。
几何随机变量的期望:\(E(X) = \frac{1}{p}\)
推导:\(X\)是服从几何分布的随机变量,所以\(P(X=k) = (1-p)^{k-1}p\),则泊松随机变量的期望:\(E(X) = \lambda\)
推导:
\[
E(X) = \sum \limits_{k=0}^{\infty}\frac{k\lambda^k}{k!}e^{-\lambda}=\lambda e^{-\lambda}\sum \limits_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}=\lambda e^{\lambda}\sum \limits_{j=0}^{\infty}\frac{\lambda^j}{j!}
\]
因为\(\sum \limits_{j=0}^{\infty} (\lambda^j/j!)=e^\lambda\),所以得\(E(X) = \lambda\)。因此,泊松分布的参数\(\lambda\)可以解释为平均数。
连续型随机变量的期望:(连续型随机变量期望的定义是离散情形的直接推广:离散和被连续积分替代) 如果\(X\)是密度函数为\(f(x)\)的连续型随机变量,且满足\(\int |x|f(x)dx < \infty\),那么:
\[
E(X) = \int _{-\infty}^{\infty}xf(x)dx
\]
如果积分发散,那么期望无定义。\(E(X)\)同样视为密度质量的中心。
伽马随机变量的期望:\(E(X)= \frac{\alpha}{\lambda}\)
推导:如果\(X\)服从参数为\(\alpha\)和\(\lambda\)的伽马密度,那么
\[
E(X)=\int_{0}^{\infty}\frac{\lambda^\alpha}{\Gamma(\alpha)}x^\alpha e^{-\lambda x}dx
\]
一旦我们意识到\(\lambda^{\alpha+1}x^{\alpha}e^{-\lambda x}/\Gamma(\alpha+1)\)是伽马密度,且全积分等于\(1\)。因此我们有:
\[
\int_{0}^{\infty}x^\alpha e^{-\lambda x}dx = \frac{\Gamma(\alpha + 1)}{\lambda ^{\alpha + 1}}
\]
由此可得
\[
E(X)= \frac{\lambda ^ \alpha}{\Gamma(\alpha)} \left[ \frac{\Gamma(\alpha + 1)}{\lambda ^ {\alpha + 1}}\right]
\]
最后利用\(\Gamma(\alpha + 1) = \alpha \Gamma(\alpha)\),得到\(E(X)=\frac{\alpha}{\lambda}\)
对于指数密度,\(\alpha=1\),因此\(E(X)=1/\lambda\)。它的中位数是\(log2/\lambda\),均值和中位数都可以视作\(X\)的“代表值”,但它们所度量的分布性质是不同的。
正态随机变量的期望:\(E(X) = \mu\)
推导:
\[
E(X) = \frac{1}{\sigma \sqrt{2\pi}}\int_{-\infty}^{\infty}xe^{-\frac{1}{2}\frac{(x-\mu)^2}{\sigma^2}}dx
\]
利用变量变换\(z=x-\mu\),则\(dz = d(x-\mu)\)。方程变为:
\[
E(X) = \frac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^{\infty}ze^{-z^2/2\sigma^2}dz+\frac{\mu}{\sigma\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-z^2/2\sigma^2}dz
\]
上式第一个积分为奇函数,积分值为\(0\);第二个积分中,由于正态密度积分等于\(1\),所以积分值为\(\mu\)。
期望值可以解释为长期平均。后续将证明当\(n \to \infty\)时,\(\bar X = \sum\limits_{i=1}^{n}X_i / n \to E(X)\)
马尔科夫不等式:如果随机变量\(X\)满足\(P(X \geq 0) = 1\),且\(E(X)\)存在,那么\(P(X \geq t) \leq E(X)/t\)
推导:(只证明离散情形,连续情形完全类似):
\[
E(X) = \sum \limits_xxp(x)=\sum \limits_{x<t}xp(x) + \sum \limits_{x \geq t}xp(x)
\]
因为\(X\)只取非负值,所以上式的每一项都是非负的。因此
\[
E(X) \geq \sum \limits_{x\geq t}xp(x) \geq \sum \limits_{x\geq t}tp(x) =tP(X \geq t)
\]
得证!
这个不等式告诉我们,\(X\)大于\(E(X)\)的概率是较小的。假设在定理中,我们令\(t = kE(X)\),根据结论,有\(P(X \geq kE(x)) \leq 1/k\),无论何种概率分布,这个结论对任何非负随机变量都成立。
假设\(Y=g(X)\)。
如果\(X\)是具有频率函数\(p(x)\)的离散随机变量,且满足\(\sum|g(x)|p(x) < \infty\),那么
\[
E(Y) = \sum \limits_x g(x)p(x)
\]
如果\(X\)是密度函数为\(f(x)\)的连续随机变量,且满足\(\int_{-\infty}^{\infty}|g(x)|f(x)dx < \infty\),那么
\[
E(Y) = \int_{-\infty}^{\infty}g(x)f(x)dx
\]
证明略。
期望最有用的性质是它的线性运算。
如果\(Y=aX+b\),那么\(E(Y) = a E(X) + b\),更一般地,这个性质可以推广到随机变量的线性组合。
如果\(X_1,X_2,...,X_n\)是具有期望\(E(X_i)\)的联合分布随机变量,\(Y\)是\(X_i\)的线性函数,\(Y = a + \sum \limits_{i=1}^{n}b_iX_i\),那么有:
\[
E(Y) = a +\sum \limits_{i=1}^{n}b_iE(X_i)
\]
二项分布的期望:\(E(Y) = np\)
推导:\(E(Y) = \sum \limits_{i=1}^{n} \binom{n}{k}p^k(1-p)^{n-k}\)
和式的计算不是显而易见的。但我们可以将\(Y\)表示成伯努利随机变量\(X_i\)之和,其中根据第\(i\)次试验成功与否取值\(1\)或\(0\),\(Y = \sum \limits_{i=1}^{n}X_i\),因为\(E(X_i)=0\times(1-p) + 1 \times p = p\),得\(E(Y) = np\)。
随机变量的期望是它的平均值,可以视作密度或者频率函数的中心。因此,期望有时称为位置参数(location parameter)。分布的中位数也是位置参数,且不一定等于均值。另一个常用参数是随机变量的标准差(standard deviation),它描述概率分布关于中心的发散程度,度量随机变量偏离期望的平均幅度。
如果\(X\)是具有期望\(E(X)\)的随机变量,只要下述期望存在,\(X\)的方差就是:
\[
Var(X) = E\left\{ [X - E(X)]^2\right\}
\]
\(X\)的标准差就是方差的平方根。
如果\(X\)是频率函数为\(p(x)\)的离散随机变量,期望值\(\mu = E(X)\),根据定义有:
\[
Var(X) = \sum_i (x_i - \mu )^2p(x_i)
\]
如果\(X\)是密度函数为\(f(x)\)的连续随机变量,期望值\(\mu=E(X)\),那么:
\[
Var(X) = \int_{-\infty}^\infty(x-\mu)^2f(x)dx
\]
方差通常记为\(\sigma^2\),标准差为\(\sigma\)。根据上面的定义,\(X\)的方差就是平均偏离其均值的平均值。方差的单位为随机变量的平方,标准差的单位与随机变量一致。
随机变量的方差在线性变换的条件下的转换方式比较简单。
如果\(Var(X)\)存在,\(Y=aX+b\),那么\(Var(Y) = b^2 Var(X)\)
推导:因为\(E(Y)=a + b E(X)\),
\[
\begin{align*}
Var(Y) &= E[(Y-E(Y))^2] =E\left\{[a+bX - (a + b E(X))]^2 \right\} \&=E\left\{ b^2[X-E(X)]^2\right\}=b^2E\left\{ [X-E(X)]^2\right\} = b^2 Var(X)
\end{align*}
\]
伯努利分布的方差:\(Var(X) = (0-p)^2 \times (1-p) + (1-p) ^ 2 \times p = p(1-p)\),在\(p=1/2\)处取得最大值。
正态分布的方差:正态分布的期望为\(E(X) = \mu\)
\[
Var(X) = E[(X-\mu)^2] = \frac{1}{\sigma \sqrt{2\pi}}\int_{-\infty}^{\infty}(x-\mu)^2exp\left[-\frac{1}{2}\frac{(x-\mu)^2}{\sigma^2}\right]dx
\]
利用变量变换\(z = (x-\mu) / \sigma\),右边变为
\[
\frac{\sigma^2}{\sqrt{2\pi}}\int_{-\infty}^{\infty}z^2e^{-z^2/2}dz
\]
再利用变量变换,令\(u= z^2/2\),将积分化简为伽马函数,得到\(Var(X) = \sigma^2\)
方差的另一种计算方法:如果\(X\)的方差存在,它也也可以计算如下:
\[
Var(X) = E(X^2) - [E(X)]^2
\]
推导:记\(E(X) = \mu\)。
\[
Var(X) = E[(X- \mu)^2]= E(X^2 - 2\mu X + \mu^2)
\]
利用期望的线性性质,上式变为:
\[
Var(X)=E(X^2)-2\mu E(X) +\mu^2=E(X^2) - \mu ^ 2
\]
切比雪夫不等式:(Chebyshev‘s inequality),方差和标准差刻画了随机变量可能取值的发散程度,切比雪夫不等式给出了量化的表述。令\(X\)是均值为\(\mu\),方差为\(\sigma^2\)的随机变量。对任意的\(t>0\),有:
\[
P(|X-\mu|>t) \leq \frac{\sigma^2}{t^2}
\]
证明 令\(Y = (X - \mu)^2\),那么\(E(Y) = \sigma^2\),由马尔科夫不等式有\(P(Y \geq t^2) \leq \frac{E(Y)}{t^2}\),即得证。
上式表名,如果\(\sigma^2\)非常小,就会有较高的概率保证\(X\)不会偏离\(\mu\)太远;对于另一种解释,我们可以设定\(t=k\sigma\),不等式变为:
\[
P(|X-\mu| \geq k\sigma) \leq 1/k^2
\]
则有结论:
\(k=2\)时,在\((\mu - 2\sigma,\mu + 2 \sigma)\)范围内的概率为\(75\%\),范围外的概率不超过\(25\%\)
\(k=3\)时,在\((\mu - 3\sigma,\mu + 3 \sigma)\)范围内的概率为\(8/9\),范围外的概率不超过\(1/9\)
\(k=4\)时,在\((\mu - 4\sigma,\mu + 4\sigma)\)范围内的概率为\(15/16\),范围外的概率不超过\(1/16\)
\(k=10\)时,在\((\mu - 10\sigma,\mu + 10\sigma)\)范围内的概率为\(99/100\),范围外的概率不超过\(1/100\)
切比雪夫不等式有如下结论:如果\(Var(X)=0\),那么\(P(X=u)=1\)
证明:(反证法)。假设\(P(X=\mu)<1\)。那么对于某个\(\varepsilon > 0,P(|X-\mu| \geq \varepsilon) > 0\);然而,由切比雪夫不等式,对任意\(\varepsilon > 0\),
\[
P(|X-\mu| \geq \varepsilon) = 0
\]
用\(X\)度量某个测量,用\(x_0\)记为测量的真实值,\(\beta\)表示系统误差,是一个常数,\(\varepsilon\)表示随机误差,\(\varepsilon\)是一个随机变量,具有\(E(\varepsilon) = 0\),\(Var(\varepsilon)=\sigma^2\),那么度量\(X\)的模型如下:
\[
X = x_0 + \beta + \varepsilon
\]
且有\(E(X)=x_0+\beta\),\(Var(X) = \sigma^2\)。
\(\beta\)常称为测量过程中的偏倚(bias),影响误差大小的因素分别为偏倚bias和方差\(\sigma^2\)。完美的测量(基本不存在)具有\(\beta=0\)和\(\sigma^2=0\)
测量误差的全部度量通常用均方误差(mean squared error)来表示,定义为:
\[
MSE = E[(X - x_0)^2]
\]
均方误差是\(X\)偏离\(x_0\)平方的期望,按照贡献程度可以将其分解成偏差和方差。
\(MSE = \sigma^2 + \beta^2\)
证明:\(E[(X-x_0)^2] = Var(X-x_0) + [E(X-x_0)]^2 = Var(X-x_0) + \beta^2 = \sigma^2 + \beta ^2\)
随机变量的方差是其变异性的度量,两个随机变量的协方差(covariance)是它们联合变异性的度量,或是它们关联度的度量。
协方差:如果\(X\)和\(Y\)是分别具有期望\(\mu_X\)和\(\mu_Y\)的随机变量,只要下述期望存在,\(X\)和\(Y\)的协方差是:
\[
Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]
\]
协方差是\(X\)与其均值离差和\(Y\)与其均值离差的乘积平均值。如果两个随机变量的关联是正向的,也就是当\(X\)大于它的均值时,\(Y\)也倾向于大于它的均值,协方差是正的,当两个随机变量的关联是负向的,也就是\(X\)大于它的均值时,\(Y\)却小于它的均值,协方差是负的。
通过乘积展开和期望的线性性质,我们得到协方差的另一种表达形式:
\[
\begin{align}
Cov(X,Y) &= E(XY - X\mu_Y - Y\mu_X+\mu_X\mu_Y) \&=E(XY) - E(X) \mu_Y-E(Y) \mu X+ \mu X \mu Y \&=E(XY) - E(X)E(Y)
\end{align}
\]
特别地,如果\(X\)和\(Y\)独立,那么\(E(XY)=E(X)E(Y)\),\(Cov(X,Y)=0\)。
相关系数:correlation coefficient定义在协方差的基础上。如果\(X\)和\(Y\)的方差和协方差都存在,且方差非\(0\),那么\(X\)和\(Y\)的相关系数记为\(\rho\),定义如下:
\[
\rho = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}
\]
注意,因为定义为比值形式,相关系数无量纲。利用之前介绍的方差和协方差的性质,如果\(X\)和\(Y\)都进行线性变换,相关系数不会发生改变。因为相关系数不依赖于测量单位,因此在多数情况下,\(\rho\)要比协方差更易于度量相关联性。
经常使用如下的记号和关系式,\(X\)和\(Y\)的标准差分别记为\(\sigma_X\)和\(\sigma_Y\),它们的协方差记为\(\sigma_{XY}\),因此有
\[
\rho = \frac{\sigma_{XY}}{\sigma_X\sigma_Y}
\]
\[ \sigma_{XY} = \rho \sigma_X \sigma_Y \]
\(-1 \leq \rho \leq 1\),进一步,\(\rho=\pm 1\)当且仅当\(P(Y=a+bX)=1\),其中\(a\)和\(b\)为某个常数。
证明:因为随机变量的方差都是非负的,所以:
\[
\begin{align}
0 &\leq Var(\frac{X}{\sigma_X} + \frac{Y}{\sigma_Y}) \&= Var(\frac{X}{\sigma_X}) + Var(\frac{Y}{\sigma_Y}) + 2Cov(\frac{X}{\sigma_X},\frac{Y}{\sigma_Y}) \&= \frac{Var(X)}{\sigma_X^2} + \frac{Var(Y)}{\sigma_Y^2} + \frac{2Cov(X,Y)}{\sigma_X\sigma_Y} \&= 2(1+\rho)
\end{align}
\]
由上式,我们得到\(\rho \geq -1\),类似地,根据\(Var(\frac{X}{\sigma_X} - \frac{Y}{\sigma_Y}) \geq 0\)可得\(\rho \leq 1\)
原文:https://www.cnblogs.com/evian-jeff/p/11388710.html