【協方差矩陣如何計算】協方差矩陣是統計學中一個非常重要的概念,廣泛應用于數據分析、機器學習、金融建模等領域。它用于衡量多個變量之間的線性相關性。本文將簡要介紹協方差矩陣的定義,并通過一個實例說明其計算方法。
一、協方差矩陣的基本概念
協方差矩陣是一個對稱矩陣,其中每個元素表示兩個變量之間的協方差。對于一個包含 $ n $ 個變量的隨機向量 $ \mathbf{X} = [X_1, X_2, ..., X_n]^T $,協方差矩陣 $ \Sigma $ 的第 $ i $ 行第 $ j $ 列的元素為:
$$
\Sigma_{ij} = \text{Cov}(X_i, X_j) = E[(X_i - \mu_i)(X_j - \mu_j)
$$
其中,$ \mu_i = E[X_i] $ 是變量 $ X_i $ 的期望值。
當 $ i = j $ 時,協方差即為方差,即:
$$
\Sigma_{ii} = \text{Var}(X_i)
$$
二、協方差矩陣的計算步驟
1. 收集數據:獲取一組樣本數據,通常以矩陣形式表示,每行代表一個樣本,每列代表一個變量。
2. 計算均值:對每個變量計算其均值(平均值)。
3. 中心化數據:從每個樣本中減去對應變量的均值。
4. 計算協方差:使用公式計算每對變量之間的協方差。
5. 構建矩陣:將所有協方差值填入矩陣中,形成協方差矩陣。
三、協方差矩陣的示例計算
假設我們有如下數據矩陣(3個樣本,2個變量):
| 樣本 | 變量1 | 變量2 |
| 1 | 2 | 4 |
| 2 | 4 | 6 |
| 3 | 6 | 8 |
步驟1:計算均值
- 變量1的均值:$ \mu_1 = \frac{2 + 4 + 6}{3} = 4 $
- 變量2的均值:$ \mu_2 = \frac{4 + 6 + 8}{3} = 6 $
步驟2:中心化數據
| 樣本 | 變量1 - 均值 | 變量2 - 均值 |
| 1 | -2 | -2 |
| 2 | 0 | 0 |
| 3 | 2 | 2 |
步驟3:計算協方差
- 協方差公式(樣本協方差):
$$
\text{Cov}(X_1, X_2) = \frac{1}{n-1} \sum_{i=1}^{n} (X_{1i} - \mu_1)(X_{2i} - \mu_2)
$$
代入數值:
$$
\text{Cov}(X_1, X_2) = \frac{(-2)(-2) + (0)(0) + (2)(2)}{3-1} = \frac{4 + 0 + 4}{2} = 4
$$
- 方差計算:
$$
\text{Var}(X_1) = \frac{(-2)^2 + 0^2 + 2^2}{2} = \frac{4 + 0 + 4}{2} = 4
$$
$$
\text{Var}(X_2) = \frac{(-2)^2 + 0^2 + 2^2}{2} = 4
$$
步驟4:構建協方差矩陣
$$
\Sigma =
\begin{bmatrix}
4 & 4 \\
4 & 4
\end{bmatrix}
$$
四、協方差矩陣總結表
| 元素 | 計算結果 | 說明 |
| $ \Sigma_{11} $ | 4 | 變量1的方差 |
| $ \Sigma_{12} $ | 4 | 變量1與變量2的協方差 |
| $ \Sigma_{21} $ | 4 | 同 $ \Sigma_{12} $ |
| $ \Sigma_{22} $ | 4 | 變量2的方差 |
五、注意事項
- 協方差矩陣是對稱的,即 $ \Sigma_{ij} = \Sigma_{ji} $。
- 協方差值可以為正、負或零,分別表示正相關、負相關和不相關。
- 協方差的大小受變量單位影響,因此在實際應用中常使用相關系數矩陣來消除單位影響。
通過以上步驟,我們可以清晰地理解協方差矩陣的計算過程,并在實際數據處理中靈活運用。


