协方差和相关系数是统计学中常见的两个概念,它们用于描述两个随机变量之间的关系。协方差和相关系数可以帮助我们了解两个变量之间的相关性,从而更好地分析数据和进行预测。下面我们来推导一下协方差和相关系数的公式。
协方差
协方差用于衡量两个随机变量之间的关系,它的公式如下:
cov(X,Y) = E[(X-E(X))(Y-E(Y))]cov(X,Y)=E[(X?E(X))(Y?E(Y))]
其中,XX和YY分别表示两个随机变量,E(X)E(X)和E(Y)E(Y)分别表示XX和YY的期望值。这个公式的含义是,计算XX和YY的每一对取值之间的偏离程度,然后求出它们的平均值。如果协方差为正,则表示XX和YY之间存在正相关关系;如果协方差为负,则表示XX和YY之间存在负相关关系;如果协方差为0,则表示XX和YY之间不存在线性关系。

相关系数
相关系数用于衡量两个随机变量之间的相关程度,它的公式如下:
\rho_{XY} = \frac{cov(X,Y)}{\sigma_X\sigma_Y}ρ
?XY
?? =
?σ
?X
?? σ
?Y
??
?
?cov(X,Y)
??
其中,cov(X,Y)cov(X,Y)表示XX和YY的协方差,\sigma_Xσ
?X
?? 和\sigma_Yσ
?Y
?? 分别表示XX和YY的标准差。这个公式的含义是,将XX和YY的协方差除以它们的标准差的乘积,得到的结果就是XX和YY的相关系数。相关系数的取值范围在[-1,1][?1,1]之间,如果相关系数为1,则表示XX和YY之间存在完全正相关关系;如果相关系数为-1,则表示XX和YY之间存在完全负相关关系;如果相关系数为0,则表示XX和YY之间不存在线性关系。
此外,相关系数还有另一种计算公式,称为皮尔逊积矩相关系数,它的公式如下:
r_{XY} = \frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i-\bar{X})^2}\sqrt{\sum_{i=1}^{n}(Y_i-\bar{Y})^2}}r
?XY
?? =
?√
?∑
?i=1
?n
?? (X
?i
?? ?
?X
?ˉ
?? )
?2
??
?
?? √
?∑
?i=1
?n
?? (Y
?i
?? ?
?Y
?ˉ
?? )
?2
??
?
??
?
?∑
?i=1
?n
?? (X
?i
?? ?
?X
?ˉ
?? )(Y
?i
?? ?
?Y
?ˉ
?? )
??
其中,X_iX
?i
?? 和Y_iY
?i
?? 分别表示第ii个样本点的取值,\bar{X}
?X
?ˉ
?? 和\bar{Y}
?Y
?ˉ
?? 分别表示XX和YY的样本均值。这个公式的含义是,将XX和YY的每一对样本值之间的偏离程度相乘,然后求和,再除以它们的标准差的乘积,得到的结果就是XX和YY的皮尔逊积矩相关系数。皮尔逊积矩相关系数与之前的相关系数公式是等价的,它们都可以用于衡量两个随机变量之间的相关程度。