多重比較Dunnett検定とは？Tukey法との違いをわかりやすく解説

2025年7月3日 2025年7月3日

研究やデータ分析の過程で「多重比較」という壁に突き当たっていませんか。

特に、多重比較dunnett検定という手法について、多重比較とt検定の根本的な違いや、多重比較tukey法との関係が分からず、混乱している方もいるかもしれません。

また、ボンフェローニの多重比較とは何か、Tukey検定とDunnett検定はどう使い分けますか？という具体的な疑問から、ダネット検定をエクセルやRで実行してp値を得る方法、さらにはノンパラメトリックな手法の存在まで、知りたいことは多岐にわたるでしょう。

この記事では、多重比較をわかりやすく解説し、多重比較の結果の書き方を含め、あなたの疑問を一つひとつ解消していきます。

この記事を読むことで、以下の点が明確になります。

ポイント

多重比較の基本的な考え方と必要性
Dunnett検定とTukey法、t検定との明確な違い
目的に応じた多重比較手法の具体的な選択方法
ExcelやRを用いたDunnett検定の実践的な手順

本記事の内容

多重比較 dunnettの基礎知識と概要
多重比較 dunnettの実践的な使い方

多重比較 dunnettの基礎知識と概要

内容

そもそも多重比較をわかりやすく解説
多重比較とt検定の根本的な違い
ボンフェローニの多重比較とは？
多重比較におけるdunnett検定の位置づけ
全ペア比較なら多重比較tukey法

そもそも多重比較をわかりやすく解説

3つ以上のグループの平均値を比較する際、統計的な問題を避けるために「多重比較」という手法が用いられます。

例えば、3つのクラス（1組、2組、3組）のテストの平均点に差があるか調べたいとします。

このとき、「1組と2組」「2組と3組」「1組と3組」というように、2つのグループを選ぶ比較を何度も繰り返すと、ある問題が生じます。

それは、検定を繰り返せば繰り返すほど、「本当は差がないのに、偶然差があると判断してしまう」確率が高まるという問題です。

これを「多重性の問題」と呼びます。

有意水準（偶然を判断する基準、通常5%）を5%に設定した場合、1回の検定で間違える確率は20回に1回程度です。

しかし、これを20回繰り返すと、少なくとも1回は間違った判断をしてしまう可能性が非常に高くなります。

多重比較は、このような検定の繰り返しによる誤りを防ぐため、全体の誤りの確率が設定した有意水準（例えば5%）を超えないように調整してくれる統計手法の総称です。

まず分散分析（ANOVA）で全グループのどこかに差があるかを確認し、有意な差が見られた場合に、どのグループ間に差があるのかを詳しく調べるために多重比較法を用いるのが一般的な流れとなります。

多重比較とt検定の根本的な違い

多重比較とt検定の最も大きな違いは、「比較するグループの数」と「誤りの確率のコントロール方法」にあります。

t検定は、原則として2つのグループ間の平均値に差があるかどうかを調べるための手法です。

前述の通り、3つ以上のグループがある場合にt検定を何度も繰り返すことは推奨されません。

なぜなら、検定のたびに5%の確率で「本当は差がないのに、偶然差がある」という第一種の過誤を犯す可能性があり、比較を繰り返すと、全体のいずれかの比較で過誤を犯す確率（ファミリーワイズエラー率）が積み重なって大きくなってしまうからです。

一方、多重比較は3つ以上のグループを比較することを前提として設計されています。

この手法は、何度も比較を行うことによるファミリーワイズエラー率の増大を抑制する仕組みを持っています。

具体的には、個々の比較におけるp値や有意水準を厳しく調整することで、全体の誤りの確率が設定した水準（例：5%）に収まるようにコントロールします。

したがって、同じグループ間を比較した場合でも、t検定で得られるp値よりも多重比較で調整されたp値の方が大きくなる（有意差が出にくくなる）傾向にあります。

これが、3群以上の比較で安易にt検定を繰り返してはならず、多重比較を用いるべき理由です。

ボンフェローニの多重比較とは？

ボンフェローニ法は、数ある多重比較法の中で最もシンプルで理解しやすい手法の一つです。

この方法の基本的な考え方は、全体の有意水準を比較する回数で割り算し、その値を個々の検定の新しい有意水準として用いるというものです。

例えば、全体の有意水準をα=0.05（5%）に設定し、比較を4回行うケースを考えてみましょう。

ボンフェローニ法では、個々の比較で用いる有意水準を「0.05 ÷ 4 = 0.0125」とします。

つまり、それぞれの比較で算出されたp値が0.0125より小さい場合にのみ、「統計的に有意な差がある」と判断するわけです。

このように基準を厳しくすることで、4回の比較全体で少なくとも1回誤った判断をしてしまう確率を、当初設定した5%未満に抑えることができます。

この単純さがボンフェローニ法のメリットですが、一方でデメリットも存在します。

比較する回数が多くなると、個々の検定の有意水準が極端に厳しくなってしまう点です。

例えば、10個のグループで総当たりの比較（45回）を行う場合、基準が非常に厳しくなり、本来検出されるべき有意な差を見逃してしまう（第二種の過誤）可能性が高まります。

このように、ボンフェローニ法は適用が容易である反面、保守的（有意差が出にくい）な手法であるという特徴を理解しておくことが大切です。

多重比較におけるdunnett検定の位置づけ

Dunnett（ダネット）検定は、多重比較法の中でも特定の目的に特化した手法として位置づけられます。

その最大の特徴は、「一つの対照群（コントロール群）と、その他の複数の処理群を比較する」という「多対一」の比較に用いられる点です。

例えば、新薬の効果を検証する研究を考えてみましょう。

「偽薬（プラセボ）を投与したグループ（対照群）」と、「新薬Aを投与したグループ」「新薬Bを投与したグループ」の効果を比較したい場合、関心があるのは「新薬Aと偽薬の差」および「新薬Bと偽薬の差」です。

このとき、「新薬Aと新薬Bの差」を比較する必要はありません。

このような状況でDunnett検定は非常に有効です。

比較の対象を「対照群 vs 各処理群」に限定することで、不必要な比較を省き、その分、検出力（本当に差がある場合に、それを見つけ出す力）を高めることができます。

全てのグループの組み合わせを比較する手法（例えば後述するTukey法）に比べて、より少ない比較回数で済むため、p値の調整が緩やかになり、有意な差を検出しやすくなる傾向があります。

したがって、研究デザインの段階で「一つの基準となるグループと、他のグループを比較したい」という目的が明確である場合に、Dunnett検定は第一の選択肢となる手法です。

全ペア比較なら多重比較tukey法

Dunnett検定が「多対一」の比較に特化しているのに対し、Tukey（テューキー）法は「全てのグループ間のペアワイズ比較」、つまり「総当たり」の比較を行う際に用いられる代表的な多重比較法です。

例えば、4種類の異なる肥料（A, B, C, D）が作物の成長に与える影響を比較したいとします。

このとき、特定の肥料を基準とするのではなく、「AとB」「AとC」「AとD」「BとC」「BとD」「CとD」という全ての組み合わせについて、平均値に差があるかを知りたい場合にTukey法が適しています。

Tukey法は、このように多くの比較（k個の群があれば k(k-1)/2 回）を同時に行っても、全体の誤りの確率（ファミリーワイズエラー率）が設定した有意水準（例: 5%）を超えないようにp値を調整します。

この方法は、特に各グループのサンプルサイズが等しい場合に高い検出力を発揮することで知られています。

サンプルサイズが異なる場合には、Tukey-Kramer法という拡張された手法が用いられるのが一般的です。

注意点として、Tukey法は全ての組み合わせを比較するため、Dunnett法が適用できる場面（多対一比較）でTukey法を使うと、不要な比較が多くなる分、検出力が若干低下する可能性があります。

研究の目的が「全グループ間の差を網羅的に探りたい」のか、「特定の基準群との差だけを知りたい」のかを明確にし、適切な手法を選択することが求められます。

多重比較 dunnettの実践的な使い方

内容

Tukey検定とDunnett検定はどう使い分けますか？
ダネット検定のノンパラメトリック手法
ダネット検定をエクセルで実施する手順
Rでダネット検定のp値を算出する方法
多重比較の結果の書き方のポイント
まとめ：多重比較 dunnettを正しく理解する

Tukey検定とDunnett検定はどう使い分けますか？

Tukey検定とDunnett検定の使い分けは、研究や分析の「目的」によって明確に決まります。

最も重要な判断基準は、「比較したい対象が何か」という点です。

Dunnett検定を選択する場合

一つの「基準」となるグループ（対照群やコントロール群）が存在し、その基準グループと他の全てのグループ（処理群）を比較したい場合に選択します。

具体例:
偽薬グループと、3種類の新薬（A, B, C）グループの効果をそれぞれ比較したい。
比較の組み合わせ:
(偽薬 vs A), (偽薬 vs B), (偽薬 vs C) の3通り。
ポイント:
新薬Aと新薬Bの効果の違いなど、処理群同士の比較には関心がありません。
比較対象を絞ることで、検出力が高まります。

Tukey検定を選択する場合

特定の基準グループを設けず、調査対象となっている全てのグループ間の組み合わせ（総当たり）で比較を行いたい場合に選択します。

具体例:
4つの異なる教授法（A, B, C, D）が生徒の成績に与える影響を比較し、どの教授法間に差があるかを全て知りたい。
比較の組み合わせ:
(A vs B), (A vs C), (A vs D), (B vs C), (B vs D), (C vs D) の6通り。
ポイント:
どのグループが他と比べて優れているか、あるいは劣っているかを網羅的に探索したい場合に適しています。

以下の表に両者の違いをまとめます。

項目	Dunnett検定	Tukey検定
比較の種類	多対一（対照群 vs 各処理群）	総当たり（全ペアワイズ比較）
主な目的	基準に対する各群の効果を検証する	全ての群間の差を網羅的に探索する
検出力	比較対象が少ない分、比較的に高い	比較回数が多いため、やや低くなる傾向
選択基準	「対照群」が明確に存在する	全ての群を対等に比較したい

このように、分析を始める前に「何と何を比べたいのか」を自問自答することが、適切な検定手法を選ぶための鍵となります。

ダネット検定のノンパラメトリック手法

Dunnett検定は、多くの統計手法と同様に、データに関するいくつかの前提条件を満たしている必要があります。

その中でも特に重要なのが、「各グループのデータが正規分布に従う」という仮定です。

しかし、実際のデータ、特にサンプルサイズが小さい場合などでは、この正規性の仮定が満たされないことも少なくありません。

このような場合に、正規分布を前提としない検定手法を「ノンパラメトリック検定」と呼びます。

Dunnett検定に対応するノンパラメトリックな手法として最もよく知られているのが「Steel（スティール）法」です。

Steel法は、Dunnett検定と同様に「一つの対照群とその他の複数の処理群を比較する」という目的のために使われますが、計算には実際の測定値ではなく、全てのデータを混ぜ合わせて順位をつけた「順位（ランク）」を用います。

このため、データの分布形状に影響されにくく、外れ値（極端に大きい、または小さい値）の影響も受けにくいという利点があります。

Steel法の選択基準

分散分析（ANOVA）の前提条件である正規性が満たされない場合。
データのサンプルサイズが非常に小さい場合。
データに順序はあるが、間隔が等しいとは言えない順序尺度（例：満足度を5段階で評価）の場合。

ただし、デメリットも存在します。

もしデータが正規分布に従っているのであれば、通常のDunnett検定の方がSteel法よりも検出力は高くなります。

ノンパラメトリック検定は、分布の仮定を緩める代償として、パラメトリック検定に比べて情報の一部を失うためです。

したがって、まずはデータの分布を確認し、正規性の仮定が著しく崩れている場合に、代替案としてSteel法の使用を検討するのが適切な手順と考えられます。

ダネット検定をエクセルで実施する手順

Excelの標準機能だけを使って厳密なDunnett検定（特にp値の算出）を行うことは非常に困難ですが、近似的な検定を行い、統計量が棄却域に入るかどうかを判断することは可能です。

ただし、この方法は手順が煩雑であり、統計専用ソフトの使用を強く推奨します。

ここでは、どうしてもExcelで実施する必要がある方向けに、その手順の概要を解説します。

手順1: 基本統計量の算出

まず、対照群と各比較群について、以下の3つの値を計算します。

N数:
各グループのデータ数
平均:
AVERAGE関数を使用
分散:
VAR.S関数（またはVAR関数）を使用

手順2: 誤差自由度と誤差分散の算出

次に、検定で用いる共通の誤差を計算します。

誤差自由度 (fe):
「(全てのN数の合計) - (グループの数)」で計算します。
誤差分散 (Ve):
まず、各グループで「(N数 - 1) × (その群の分散)」を計算します。
その後、全てのグループで算出した値を合計し、それを誤差自由度(fe)で割ります。

手順3: 検定統計量の算出

対照群と、比較したい各処理群のペアごとに、検定統計量（t値のようなもの）を計算します。

数式は複雑ですが、概念的には「(対照群の平均 - 比較群の平均)の差」を、サンプルサイズと誤差分散で調整した値で割るというものです。

Excelの数式で示すと以下のようになります。

=((対照群の平均)-(比較群の平均))/SQRT((誤差分散)*(1/(対照群のN数)+1/(比較群のN数)))

手順4: 判定

算出した検定統計量の絶対値と、「Dunnettの数表」に記載されている臨界値を比較します。

Dunnettの数表は、統計学の専門書やオンラインで探す必要があります。

表を見る際には、「比較する群の数（対照群を含む）」「誤差自由度」「有意水準」「片側検定か両側検定か」の情報が必要です。

計算した統計量が表の臨界値より大きければ、「有意差あり」と判定できます。

前述の通り、この方法は非常に手間がかかり、p値を直接算出することはできません。

フリーの統計ソフトである「EZR (Easy R)」や「R」を使えば、はるかに簡単かつ正確に検定が実行できるため、特別な理由がない限りはそちらの利用を検討してください。

Rでダネット検定のp値を算出する方法

統計解析フリーソフトである「R」を使用すると、Dunnett検定を簡単かつ正確に実行し、p値を算出することができます。

ここでは、multcompというパッケージを使った一般的な方法を紹介します。

手順1: パッケージのインストールと読み込み

まず、Rにmultcompパッケージをインストールしていない場合は、以下のコマンドを実行します。

install.packages("multcomp")

次に、Rのセッションを開始するたびに、以下のコマンドでパッケージを読み込みます。

library(multcomp)

手順2: データの準備

データをRに読み込みます。

データは、値が入った列と、どのグループに属するかを示す列を持つ「データフレーム」形式で準備するのが一般的です。

例えば、valueという列に測定値、groupという列に"Control", "TreatA", "TreatB"といったグループ名が入っているとします。

group列は因子（factor）型に変換し、対照群（この例では"Control"）が基準（最初の水準）になるように設定しておくことが重要です。

# データフレーム'my_data'の'group'列を因子に変換
my_data$group <- factor(my_data$group, levels = c("Control", "TreatA", "TreatB"))

手順3: 分散分析モデルの作成

まず、aov()関数を使って分散分析（ANOVA）のモデルを作成します。

# 'value'を'group'で説明する分散分析モデルを作成
aov_model <- aov(value ~ group, data = my_data)

手順4: Dunnett検定の実行と結果の確認

multcompパッケージのglht()関数（General Linear Hypothesesの略）とmcp()関数（Multiple Comparisonsの略）を使ってDunnett検定を実行します。

# Dunnett検定を実行
dunnett_test <- glht(aov_model, linfct = mcp(group = "Dunnett"))

最後に、summary()関数で結果を表示させると、各比較のp値が確認できます。

summary(dunnett_test)

結果の出力では、Pr(>|t|)やp.valueといった列に調整済みのp値が表示されます。

この値が設定した有意水準（例: 0.05）より小さいかどうかで、有意差の有無を判断します。

Rを使うことで、手計算の煩わしさから解放され、信頼性の高い結果を迅速に得ることが可能です。

多重比較の結果の書き方のポイント

多重比較を行った後、その結果を論文やレポートに正確に記述することは、分析そのものと同じくらい大切です。

読者が分析プロセスを追体験でき、結果を正しく解釈できるように、必要な情報を過不足なく含める必要があります。

以下に、結果を記述する際の基本的なポイントを挙げます。

1. 使用した検定手法の明記

まず、どの多重比較法を用いたのかを明確に記述します。

「分散分析後に、対照群と各処理群の比較のためにDunnettの多重比較検定を行った」や「全群間の比較のためにTukey-Kramer法を用いた」のように具体的に書きます。

これにより、読者は分析の妥当性を評価できます。

2. 結果の要約を記述

本文中では、検定結果の要約を文章で説明します。

「Dunnett検定の結果、対照群（平均±標準偏差, M=10.2±2.1）と比較して、処理群A（M=15.5±3.0）では統計的に有意な増加が認められたが、処理群B（M=11.5±2.5）では有意な差は見られなかった」といった形です。

3. 詳細な統計量を添える

結果を記述する際には、具体的な統計量を括弧内に示します。

どの統計量を含めるかは分野の慣例にもよりますが、一般的には検定統計量（t値など）、自由度、そしてp値が含まれます。

例えば、「(t(df) = 2.85, p = .045)」のように記述します。

p値は、具体的な数値を書くのが一般的です（例：p = .023）。

もし非常に小さい場合は「p < .001」と記述します。

p値の前に「.」を付けるか「0.」を付けるかは投稿規定に従ってください。

4. 表やグラフを活用する

比較するグループが多い場合、結果を表にまとめると非常に分かりやすくなります。

表には各グループの平均値、標準偏差（または標準誤差）、サンプルサイズを記載し、有意差があった組み合わせにアスタリスク（）などの記号を付けて注釈で「p < .05」のように説明します。

また、平均値を示す棒グラフにエラーバー（標準偏差や信頼区間）を加え、有意差のあるペアを線で結んで記号を付ける方法も視覚的に優れています。

これらのポイントを押さえることで、透明性が高く、説得力のある結果報告が可能となります。

まとめ：多重比較 dunnettを正しく理解する

以下に要点をまとめました。

多重比較は3群以上の比較で生じる「多重性の問題」を解決する手法
t検定の繰り返しは第一種の過誤の確率を増大させるため避けるべき
多重比較は全体の誤りの確率が有意水準を超えないようp値を調整する
Dunnett検定は「一つの対照群」と「複数の処理群」を比較する多対一比較
研究目的が多対一比較の場合、Dunnett検定は検出力が高く最適
Tukey法は全グループ間の組み合わせを比較する総当たり比較
どのグループ間に差があるか網羅的に調べたい場合はTukey法を選択する
ボンフェローニ法は有意水準を比較回数で割るシンプルな手法
ボンフェローニ法は比較数が多いと保守的になりすぎる傾向がある
分析の目的（多対一か総当たりか）でDunnett検定とTukey検定を使い分ける
データが正規分布に従わない場合、ノンパラメトリック版のSteel法を検討する
ExcelでのDunnett検定は近似的で手順が煩雑なため非推奨
統計ソフトRのmultcompパッケージを使えば簡単かつ正確に検定できる
結果の書き方では、使用した検定手法、統計量、p値を明記することが不可欠
表やグラフを活用すると、多重比較の結果を視覚的に分かりやすく伝えられる

生活の記事一覧へ

この記事を書いた人

とっしー

運営者のとっしーです。過去の買い物での数々の失敗から、「後悔する人を一人でも減らしたい！」という想いでこのブログを始めました。徹底的なリサーチと正直なレビューで、あなたの「最高の選択」を全力でサポートします！

詳しいプロフィールはこちら

多重 比較 dunnettの基礎知識と概要