平均、中央値、最頻値:3 つの「代表値」をどう使い分けるか
「平均年収」「中央値家賃」「最も多い回答」など、データを 1 つの数値に要約する代表値には複数の選択肢があります。それぞれが何を表していて、どんな場面で使うべきかを整理します。
3 つの代表値の定義
平均(mean、算術平均)
すべての値を足して個数で割る:
mean = (x₁ + x₂ + ... + xₙ) / n 例:[2, 4, 6, 8, 10] → (2+4+6+8+10) / 5 = 6
中央値(median)
値を昇順に並べたときの真ん中の値(偶数個なら中央 2 つの平均):
[2, 4, 6, 8, 10] → 6
[2, 4, 6, 8] → (4 + 6) / 2 = 5 最頻値(mode)
最も頻繁に出現する値:
[1, 2, 2, 3, 4, 4, 4, 5] → 4 複数ある場合(同率多数)は「双峰性」と呼ばれます。
外れ値への耐性の違い
3 つの指標の最大の違いは 外れ値(outlier)の影響を受けるかです。
例:年収のサンプル [300, 400, 500, 600, 9999] 万円(最後の人だけ突出)
- 平均:
(300 + 400 + 500 + 600 + 9999) / 5 = 2,360 万円 - 中央値:
500 万円 - 最頻値:すべて 1 回ずつなので最頻値なし(または「全体」)
この場合、「平均年収 2,360 万円」と聞くと「お金持ち多そう」に聞こえますが、実態は 1 人を除いて 600 万円以下。中央値の 500 万円のほうが「典型的な人の年収」を表しているわけです。
いつ平均を使うか
- データが正規分布に近い(左右対称、釣鐘型)
- 外れ値がない、または少ない
- 全体の合計が意味を持つ場合(全員の総得点を均等割りしたら?)
- 例:テストの点数、身長、体重(健常者集団)
平均は数学的に扱いやすい(線形性)ので、統計分析の基礎として使われます。標準偏差・分散も平均からの距離で定義されます。
いつ中央値を使うか
- データが歪んでいる(収入、住宅価格など、上限が事実上ない分布)
- 外れ値の影響を排除したい
- 「典型的な値」を伝えたい
- 例:年収、家賃、不動産価格、レスポンスタイム
実務でよく見る「中央値が平均より小さい」は分布が右に裾を引いている(少数の高額値が平均を押し上げている)ことを示します。
いつ最頻値を使うか
- カテゴリデータ(数値でない):「最も多かった回答」
- 離散データで「典型的な値」を 1 つに絞りたい
- 例:アンケートの最多回答、靴のサイズの最多需要
連続データ(実数)で最頻値はあまり使われません。完全に同じ値が偶然出ることが少ないため。
レスポンスタイムには中央値とパーセンタイル
Web サービスのレスポンスタイムなど、性能指標で平均は適切ではないことが多いです。理由:
- 1 件の超遅いリクエスト(タイムアウト寸前など)が平均を大きく動かす
- ユーザー体験は「中央値」または「P95、P99」(95、99パーセンタイル)で語るべき
例:レスポンスタイム [100, 110, 120, 130, 5000] ms
- 平均:1,092 ms
- 中央値:120 ms
- P95(上位 5%):5000 ms
「平均 1 秒」は実態と合いません。SLO(サービスレベル目標)は「P95 が 500ms 以下」のように設定するのが標準的。
加重平均
すべての値を等しく扱わず、重みを付けた平均:
weighted_mean = Σ(wᵢ × xᵢ) / Σwᵢ 例:成績の総合点を計算するときに「期末試験は 60%、課題は 40%」のような重みを付ける。
「全国平均」を出すときも、各都道府県の人口で重み付けが必要なケースがあります。
幾何平均と調和平均
成長率や速度のような「掛け算で意味を持つ」データには、算術平均よりも別の平均が適切:
- 幾何平均:n 個の値の積の n 乗根。投資収益率の年率計算など
- 調和平均:逆数の平均の逆数。速度の平均(往復で異なる速度の場合)
例:行きが時速 60km、帰りが時速 40km。平均速度は?
- 算術平均:50km/h(誤)
- 調和平均:
2 / (1/60 + 1/40) = 48km/h(正)
分散・標準偏差
代表値だけでなく、データの「ばらつき」も重要です:
- 分散:平均からの距離の 2 乗の平均
- 標準偏差:分散の平方根。元の単位と一致するので解釈しやすい
[100, 100, 100] も [50, 100, 150] も平均は 100 ですが、後者のほうが標準偏差が大きく「ばらつきが大きい」と分かります。
まとめ
| 状況 | 適切な指標 |
|---|---|
| 正規分布、外れ値なし | 平均 |
| 歪んだ分布、外れ値あり | 中央値 |
| カテゴリデータ | 最頻値 |
| レスポンスタイム | 中央値 + P95、P99 |
| 成長率、利率 | 幾何平均 |
| 速度(往復) | 調和平均 |
データの性質を見て、複数の指標を併記するのが分析の基本です。
平均・中央値・最頻値・標準偏差をまとめて計算したい場合、本サイトの統計計算機が使えます。データを貼り付けると一通りの代表値とばらつきの指標を表示します。