平均、中央値、最頻値:3 つの「代表値」をどう使い分けるか

約5分

「平均年収」「中央値家賃」「最も多い回答」など、データを 1 つの数値に要約する代表値には複数の選択肢があります。それぞれが何を表していて、どんな場面で使うべきかを整理します。

3 つの代表値の定義

平均(mean、算術平均)

すべての値を足して個数で割る:

mean = (x₁ + x₂ + ... + xₙ) / n

例:[2, 4, 6, 8, 10](2+4+6+8+10) / 5 = 6

中央値(median)

値を昇順に並べたときの真ん中の値(偶数個なら中央 2 つの平均):

[2, 4, 6, 8, 10] → 6
[2, 4, 6, 8] → (4 + 6) / 2 = 5

最頻値(mode)

最も頻繁に出現する値:

[1, 2, 2, 3, 4, 4, 4, 5] → 4

複数ある場合(同率多数)は「双峰性」と呼ばれます。

外れ値への耐性の違い

3 つの指標の最大の違いは 外れ値(outlier)の影響を受けるかです。

例:年収のサンプル [300, 400, 500, 600, 9999] 万円(最後の人だけ突出)

  • 平均:(300 + 400 + 500 + 600 + 9999) / 5 = 2,360 万円
  • 中央値:500 万円
  • 最頻値:すべて 1 回ずつなので最頻値なし(または「全体」)

この場合、「平均年収 2,360 万円」と聞くと「お金持ち多そう」に聞こえますが、実態は 1 人を除いて 600 万円以下。中央値の 500 万円のほうが「典型的な人の年収」を表しているわけです。

いつ平均を使うか

  • データが正規分布に近い(左右対称、釣鐘型)
  • 外れ値がない、または少ない
  • 全体の合計が意味を持つ場合(全員の総得点を均等割りしたら?)
  • 例:テストの点数、身長、体重(健常者集団)

平均は数学的に扱いやすい(線形性)ので、統計分析の基礎として使われます。標準偏差・分散も平均からの距離で定義されます。

いつ中央値を使うか

  • データが歪んでいる(収入、住宅価格など、上限が事実上ない分布)
  • 外れ値の影響を排除したい
  • 「典型的な値」を伝えたい
  • 例:年収、家賃、不動産価格、レスポンスタイム

実務でよく見る「中央値が平均より小さい」は分布が右に裾を引いている(少数の高額値が平均を押し上げている)ことを示します。

いつ最頻値を使うか

  • カテゴリデータ(数値でない):「最も多かった回答」
  • 離散データで「典型的な値」を 1 つに絞りたい
  • 例:アンケートの最多回答、靴のサイズの最多需要

連続データ(実数)で最頻値はあまり使われません。完全に同じ値が偶然出ることが少ないため。

レスポンスタイムには中央値とパーセンタイル

Web サービスのレスポンスタイムなど、性能指標で平均は適切ではないことが多いです。理由:

  • 1 件の超遅いリクエスト(タイムアウト寸前など)が平均を大きく動かす
  • ユーザー体験は「中央値」または「P95、P99」(95、99パーセンタイル)で語るべき

例:レスポンスタイム [100, 110, 120, 130, 5000] ms

  • 平均:1,092 ms
  • 中央値:120 ms
  • P95(上位 5%):5000 ms

「平均 1 秒」は実態と合いません。SLO(サービスレベル目標)は「P95 が 500ms 以下」のように設定するのが標準的。

加重平均

すべての値を等しく扱わず、重みを付けた平均:

weighted_mean = Σ(wᵢ × xᵢ) / Σwᵢ

例:成績の総合点を計算するときに「期末試験は 60%、課題は 40%」のような重みを付ける。

「全国平均」を出すときも、各都道府県の人口で重み付けが必要なケースがあります。

幾何平均と調和平均

成長率や速度のような「掛け算で意味を持つ」データには、算術平均よりも別の平均が適切:

  • 幾何平均:n 個の値の積の n 乗根。投資収益率の年率計算など
  • 調和平均:逆数の平均の逆数。速度の平均(往復で異なる速度の場合)

例:行きが時速 60km、帰りが時速 40km。平均速度は?

  • 算術平均:50km/h(誤)
  • 調和平均:2 / (1/60 + 1/40) = 48km/h(正)

分散・標準偏差

代表値だけでなく、データの「ばらつき」も重要です:

  • 分散:平均からの距離の 2 乗の平均
  • 標準偏差:分散の平方根。元の単位と一致するので解釈しやすい

[100, 100, 100][50, 100, 150] も平均は 100 ですが、後者のほうが標準偏差が大きく「ばらつきが大きい」と分かります。

まとめ

状況適切な指標
正規分布、外れ値なし平均
歪んだ分布、外れ値あり中央値
カテゴリデータ最頻値
レスポンスタイム中央値 + P95、P99
成長率、利率幾何平均
速度(往復)調和平均

データの性質を見て、複数の指標を併記するのが分析の基本です。

平均・中央値・最頻値・標準偏差をまとめて計算したい場合、本サイトの統計計算機が使えます。データを貼り付けると一通りの代表値とばらつきの指標を表示します。