【四分位差怎么計算】四分位差(Interquartile Range,簡稱IQR)是統計學中用于衡量數據分布離散程度的一個重要指標。它表示中間50%的數據范圍,即第三四分位數(Q3)與第一四分位數(Q1)之間的差值。相比極差(最大值減最小值),四分位差更能反映數據的集中趨勢和異常值的識別能力。
一、四分位差的定義
四分位差 = Q3 - Q1
其中:
- Q1(第一四分位數):將數據從小到大排列后,位于25%位置的數值。
- Q3(第三四分位數):將數據從小到大排列后,位于75%位置的數值。
二、四分位差的計算步驟
1. 將數據從小到大排序
確保數據按升序排列,這是計算四分位數的基礎。
2. 確定數據個數(n)
計算數據點的數量,以便后續計算位置。
3. 計算Q1和Q3的位置
- Q1的位置:(n + 1) × 0.25
- Q3的位置:(n + 1) × 0.75
4. 根據位置查找對應的數值
如果位置為整數,則直接取該位置的數值;如果為小數,則使用插值法計算。
5. 計算四分位差
用Q3減去Q1即可得到四分位差。
三、示例說明
假設有一組數據如下(已排序):
```
12, 15, 18, 20, 22, 25, 28, 30, 32
```
共9個數據點(n=9)
1. 計算Q1位置:(9 + 1) × 0.25 = 2.5 → 第2.5個數據
- 第2個數據是15,第3個是18
- Q1 = 15 + (18 - 15) × 0.5 = 16.5
2. 計算Q3位置:(9 + 1) × 0.75 = 7.5 → 第7.5個數據
- 第7個數據是28,第8個是30
- Q3 = 28 + (30 - 28) × 0.5 = 29
3. 計算四分位差:29 - 16.5 = 12.5
四、四分位差的意義
- 衡量數據的離散程度:四分位差越小,說明數據越集中;越大則數據越分散。
- 識別異常值:在箱線圖中,四分位差用于判斷數據是否存在異常值。
- 適用于非對稱分布:相比于標準差,四分位差對極端值不敏感,更適合偏態分布數據。
五、四分位差與極差的區別
| 指標 | 定義 | 敏感性 | 適用場景 |
| 極差 | 最大值 - 最小值 | 敏感 | 數據分布較均勻時 |
| 四分位差 | Q3 - Q1 | 不敏感 | 存在異常值時 |
六、總結
四分位差是描述數據集中趨勢和離散程度的重要工具,尤其在處理存在異常值或非對稱分布的數據時更具優勢。通過計算Q1和Q3的差值,可以更準確地了解數據中間50%的分布情況,從而為數據分析提供有力支持。
表格總結
| 項目 | 內容 |
| 四分位差公式 | IQR = Q3 - Q1 |
| Q1定義 | 數據中25%位置的數值 |
| Q3定義 | 數據中75%位置的數值 |
| 計算步驟 | 排序 → 確定n → 計算位置 → 插值 → 相減 |
| 用途 | 衡量數據離散程度、識別異常值 |
| 優點 | 對異常值不敏感,適合偏態分布數據 |
| 缺點 | 僅反映中間50%數據,無法全面描述整體分布 |


