ArticlePDF Available

p-value is a Useful and Excellent Measure for Reporting Results of Statistical Analysis on Clinical Data

Authors:

Abstract

Many clinical studies are conducted in Japan with sample sizes that are not deter-mined statistically. Application of Neyman-Pearson type statistical tests to data from such studies is not justifiable and should be stopped. Also 5% significance level that is commonly employed in a clinical study without taking into account disease, drug and other factors is not justifiable. Alternatively, the use of p-value is recommended in this paper as a measure of showing the magnitude of difference of two treatments; it is the role of principal investigator to summarize the study results by considering disease, drug and other factors, sample sizes and p-value.
yanagawa.dvi : output at 2018.3.9 This book was typeset using pLaTeX2e
計量生物学 Vol.38, No. 2, 153–161(2017)
p値は臨床研究データ解析結果報告に有用な
優れたモノサシである
p-value is a Useful and Excellent Measure
for Reporting Results of Statistical Analysis
on Clinical Data
柳川
Takashi Yanagawa
久留米大学バイオ統計センター
Biostatistics Center, Kurume University
e-mail:yanagawa takashi@kurume-u.ac.jp
Many clinical studies are conducted in Japan with sample sizes that are not deter-
mined statistically. Application of Neyman-Pearson type statistical tests to data from
such studies is not justifiable and should be stopped. Also 5% significance level that
is commonly employed in a clinical study without taking into account disease, drug
and other factors is not justifiable. Alternatively, the use of p-value is recommended
in this paper as a measure of showing the magnitude of difference of two treatments;
it is the role of principal investigator to summarize the study results by considering
disease, drug and other factors, sample sizes and p-value.
Key words: clinical study, Fisherian statistics, Neyman-Pearson type statistical test,
sample size, significance level, statistical education.
1. はじめに
統計的検定には大きく分けて二つの考え方がある.一つは p値に基礎をおく Fisher 流の考え方,
もう一つは Neyman-Pearson 流の考え方である.Fisher が亡くなるまで約 30 年間続いた Fisher
Neyman の論争に見られる様に,両者は根本的に相いれない考え方であるFisher, 1925).
かしながら,数理統計学者の多くは,Fisher 流の検定は数学的に不完全であり,Neyman-Pearson
fundamental lemma が統計的検定を一般化・完成させたと認識しており,数理統計学の多くの
テキストはその認識のもとで執筆されている.医・歯・薬学系における統計学の基礎教育もこの
ような数理統計学の流れを汲むテキストを使って,Neyman-Pearson 流検定が教えられていると
ころが多い.特にわが国の医・歯・薬学系では,バイオ統計学専門家による統計学の基礎教育は
手薄で,しかも安易に Neyman-Pearson 流検定が教えられており,統計的検定の濫用が満ち溢れ
ている.わが国の現状は,ASA 明( Wasserstein and Lazar, 2016が出されたアメリカ社会より
もはるかに深刻である.
ASA 声明は,p値を批判しているように思われるが,決してそうではない.p値はデータ解析
yanagawa.dvi : output at 2018.3.9 This book was typeset using pLaTeX2e
154 柳川
の結果を報告する際の有用な指標である.問題は,その使い方にある.本論考では,臨床研究を
想定して Neyman-Pearson 流の検定と Fisher 流の検定の考え方を述べるとともに,臨床研究の大
多数は,計画された検証的なものではなく,患者の治療法や医学に関する科学的知識を深める目
的で行われていること,このような症例数が統計学的にあらかじめ設定されていない臨床研究の
データ解析に Neyman-Pearson 流検定を適用するのは間違いで,Fisher 流検定の p値を用いて解
析結果を報告すべきであること,を指摘する.さらに,指摘した線に沿って医薬学のテキストは
書きかえられるべきこと,および現場で医・歯・薬学系の統計学講義を担当する教師の方々にた
いして Fisher 流の p値に重点をおく講義を行っていただくよう声を大きくして呼びかけたい.
2. Fisher 流検定と Neyman-Pearson 流検定
2.1 Fisher 流検定
p値は,科学的知識を深めることを目的として行われる研究を想定して,データ解析結果を評
価するためのモノサシとして R.A. Fisher が導入したFisher, 1925.臨床試験に即して Fisher
考え方を解説すると,次の様になる.p0.0001 は,「仮に両群間に差がない」としたら,設
定した評価指標の差の値が観測された値より大きくなるのは 1万回に 1回以下しか起きない.1
万回に 1回しか起こらないことが実際に起こったと考えるよりも「仮に両群間に差がない」とし
たため,このように小さな p値がえられた,すなわち両群間に差があると考えるのが妥当,これ
に対して p=0.05 のときも同様に,20 回に 1回しか起きないことが実際に起こったと考える
より,両群間に差があると推測するのが妥当,ここで,前者の確率 0.0001 は後者の確率 0.05
よりもはるかに小さい,これは前者の評価指標の差の方が後者の差より大きいからであり,しか
も前者の差はバラツキによってひっくり返る可能性はほとんどないほど大きい,と考える.つま
Fisher は,p値が小さければ小さいほど「両群間に差あり」に対する科学的エビデンス力が高
いと考える.しかしながら,Fisher は,次に見る Neyman-Pearson 流検定のように有意水準をあ
らかじめ,例えば 5% に定めておき,p値が 5% 以下になったら「有意な差があったと判定」せ
よ,とは言わない.たとえ同一の差であったとしても差が持つ意味は,対象とする疾患や症例数
によって異なっている,と考えるからである.つまり Fisher p値を,統計家がデータの解析結
果を「報告」するときのモノサシと位置づけ,比較試験の結果,効果があったか否かの「判定」
は,臨床試験の主査である医師が単独あるいはグループ討議によって,報告された p値,対象と
する疾患,症例数等を吟味して総合的に「判定」すべきであると考えた.
2.2 Neyman-Pearson 流検定
p値は帰無仮説H0の下で算出される.帰無仮説しか考慮しなかった Fisher に対して,Neyman-
Pearson は対立仮説H1を導入し「判定」の誤りは,H0が正しいときこれを間違って棄却する
誤り(第一種の過誤) H1が正しいときこれを誤って棄却する誤り(第二種の過誤) 2種類あり,
両者は競合的であること,を認識したうえで統計的検定を,第一種の過誤をおかす確率を一定値
α以下に抑えたうえで第二種の過誤をおかす確率を最小にするという制約付き最小化問題として
定式化し,これを数学的に解決して,最強力と呼ばれる検定方式を導びくとともに,一定値 α
有意水準とよんだNeyman and Pearson, 1928).
Jpn J Biomet Vol. 38, No. 2, 2017
yanagawa.dvi : output at 2018.3.9 This book was typeset using pLaTeX2e
p値は臨床研究データ解析結果報告に有用な優れたモノサシである 155
Neyman-Pearson 検定では,あらかじめ有意水準 αを定めることが必須で,この結果定まる棄
却点に対して評価指標の差が棄却点以下なら「有意差があるとはいえなかった」.棄却点以上なら
「有意差があった」と判定する.この判定は,Fisher が導入した p値を算出して p値が有意水準
以下のとき「有意差があった」と判定することと一致する.しかしながら,Neyman-Pearson
定では p値の大きさは問わない.例えば,有意水準を 5% に定めるとき,p0.0001 であろうが
p=0.049 であろうが,その違いは無視して一律に「有意水準 5% で有意な差あり」とする.
3. 治験第 3相に適用される統計的検定
治験とは,医薬品もしくは医療機器の製造販売に関して,国から許認可を得るために行われる
臨床試験のことである.治験第 3相では開発中の薬剤の非劣性や優越性を検証するため統計的検
定が行われるが,特に優越性の検証は,次のような一連の手順で行うことになっている.
3.1 治験第 3相に適用される統計的検定の手順
1これだけあれば「医学的に意味ある差あり」とみなせる主要評価項目の差 δ0を定め,
2有意水準 5%,検出力 80% δ0を検出するための必要症例数を机上計算でもとめ,
3その症例数の患者をランダム割り付けるための表を作成し,その表に従って患者を服用群
と被服用群に分け,
4服用群の患者には薬剤を,非服用群の患者にはプラセボと呼ばれる偽薬,あるいは対照薬
として選定された薬剤を一定期間服用してもらい,
5両群の成績から p値を算出し
6p0.05 のとき,有意水準 5% で効いた,そうでないとき効いたとは言えないと判定
する.
ステップ◯6の判定では,p値は 0.05 以下かそうでないかだけが問われ,p値の大きさは問わな
い.つまり,Neyman-Pearson 流検定の考え方そのものである.薬剤が市販されるとき,患者達
の薬剤服用は繰り返し試行と考えられ時,効かない薬剤を購入する患者のリスクを 5% 以内に抑
えるという意味で妥当な判定法である.
3.2 統計的検定ではステップ◯1と◯2が不可欠
多くの数理統計学のテキストでは,統計的検定はステップ◯6だけしか書かれていない.ステッ
プ◯1と◯2は書かれていない.p値は症例数に依存しており,ASA 明( Wasserstein and Lazar,
2016が指摘しているようにどんなに小さい効果でも,症例数が大きければ p0.05 となりえ
る.Neyman-Pearson 流検定は,ステップ◯1と◯2が前提,すなわち δ0を定めて症例数を設定した
上で適用しなければ,意味をなさない.にもかかわらず Neyman-Pearson 流検定のバイブルとも
いわれている Lehmann の検定論のテキストLehmann, 1986を始め数理統計学の多くのテキス
トには,このことは書かれておらず,わが国の数理統計学テキストの執筆者,あるいはテキスト
を使用する先生方もこのことを重視せず,検定の数学的局面や検定統計量の分布論だけの講義で
満足しているものが多い.医・歯・薬学系の統計学講義用として執筆されたテキストでも p値が
症例数に依存することを記述したテキストは極めて少ない.
Jpn J Biomet Vol. 38, No. 2, 2017
yanagawa.dvi : output at 2018.3.9 This book was typeset using pLaTeX2e
156 柳川
4. 医師主導臨床研究と統計的検定
4.1 医師主導臨床試験
大学病院・医学部などにおいて医師によって行われている臨床研究は,治験とは異なり,患者
の治療法や医学に関する科学的知識を深める目的で行われる研究が圧倒的多数である.これらの
研究は医師主導臨床研究とよばれている.2017 41日から施行された「人を対象とする医
学系研究に関する倫理指針」(文部科学省,厚生労働省, 2014, 2017では,すべての臨床研究は研
究計画書を倫理委員会に提出し承認を得,かつ研究機関の長によって許可されなければ実施でき
ないことになった.医師主導臨床研究も例外ではない.研究計画書には症例数設定の根拠を記載
することが求められている.一流学術専門誌からの公表を目的として 2.1 項のステップ◯1と◯2
考慮して症例数を設定した意欲的な医師主導臨床研究もあるが,研究期間内に研究リーダーが勤
務する病院,あるいは系列病院で一定期間受診した患者を対象とするなど統計学的根拠によらず
に症例数が設定される研究も多い.方法論的には,臨床研究はノイズの中から微妙な医学的シグ
ナルを検出する統計学的研究である.統計学的根拠によって症例数を設定しておかなければノイ
ズに埋もれたシグナルは検出できず,せっかくの研究がゴミとなる可能性が強い.もしそうなる
と,臨床研究には患者が関わっていることから,倫理的に許されない研究となる.統計学的根拠
は,必ずしも 2.1 項ステップ◯1と◯2に求める必要はなく評価尺度の推定精度などを考慮してもよ
い.この時は,結果を統計的検定で「判定」するよりも推定値の大きさを評価することが重要で,
まさにこの時 p値が一つの良い評価尺度となる.ちなみに研究計画書には統計解析の方法も記載
することが求められているが,統計学的根拠,すなわち 2.1 項のステップ◯1と◯2,によらずに症
例数を設定しておきながら有意水準 5% Neyman-Pearson 流の検定を行うと一律に書かれてい
たりする.とんでもない! と叫びたい所であるが,多くの場合「有意水準 5% で差は有意であっ
た( p=0.001,あるいは有意水準 5% で差は有意でなかったp=0.105」という形式で検定
結果が記述される.カッコ内に p値を記載してあるのがミソである.好意的に解釈すると有意・
非有意の判定は Neyman-Pearson 流に有意水準 5% で行ったが,あらかじめ症例数を設定して実
施した研究の検定でないので批判があるかもしれない,したがって,この判定は「一応」という
ことにしておき,詳しくは「症例数と p値の大きさを勘案して判断して欲しい」という願いが込
められている,つまり,Neyman-Pearson 流検定と Fisher 流検定の両者の顔を立てた表現形式で
ある.
4.2 Neyman-Pearson 流検定に対する Fisher の批判
Fisher は,Neyman-Pearson 流の有意水準 α×100% の検定を,くり返し事象を前提とする大
量生産の場で,効かない薬剤を購入する患者のリスクを α×100% 以下に抑えることは社会的な
消費者のリスクを抑えるという観点からの取り決めにすぎない,科学的知識を深めることとは全
く関係がない,と激しく批判した.特に Fisher は,対象とする疾患や症例数を無視して有意水準
があらかじめ 5% に設定されることに対して激しい批判を行った.
2.1 項で述べた治験第 3相に適用される統計的検定は,Fisher の批判を考慮してステップ◯1
2が重視されている.ステップ◯1で設定される δ0は,医学的に意味ある差であり,対象とする疾
患を考慮して定められる.したがって,医学的知見を得ることを目的として実施される医師主導
Jpn J Biomet Vol. 38, No. 2, 2017
yanagawa.dvi : output at 2018.3.9 This book was typeset using pLaTeX2e
p値は臨床研究データ解析結果報告に有用な優れたモノサシである 157
臨床試験でも 2.1 項ステップ◯1,◯2で症例数が設定されておれば Neyman-Pearson 流検定の適用
には全く問題がない.問題は,ステップ◯1と◯2で症例数を設定していない臨床研究に,あらかじ
め設定した有意水準(多くの場合 5% を適用して機械的に判定する Neyman-Pearson 流検定が適
用されることである.まさに ASA 明( Wasserstein and Lazar, 2016が指摘する統計的検定の誤
用がここにある.
くり返しになるが Fisher は,p値の大きさで「判定」せよ,とは言わない.たとえ同一の差で
あったとしても差が持つ意味は,対象とする疾患や症例数によって異なると考えるからである.
実は,筆者が知る限り p値が症例数に依存すると言及した Fisher の論文やテキストはないようで
ある.p値の吟味の仕方はテキストFisher, 1925において例でしか与えられていない.しかし,
p値が症例数や疾患に依存すると認識していたからこそ例で示さざるを得なかったとしか思われ
ないふしが Fisher のテキストには散見される.
4.3 信頼区間
Neyman-Pearson 流検定批判の声が高まる中で,区間が原点をまたいでいるかいないかという
以外に,下限が原点からどれくらい離れているか,あるいは区間の幅が症例数を反映している,
などの理由からも信頼度 95% の信頼区間を用いて解析結果を報告することを好む研究者が増えて
きた.信頼度 95% の信頼区間が原点を含まないことと有意水準 5% Neyman-Pearson 流検定は
同等であり信頼区間がもつ情報量が大きいことから,確かに,Neyman-Pearson 流検定で有意で
あるか,ないかを「判定」するよりも信頼度 95% の信頼区間で結果を表す方が望ましい.しかし
ながら,それは Neyman-Pearson 流検定と比較したときの話でしかない.Fisher 流検定の p値と
の関係では,どうであろうか.
4.4 Fisher 流検定の p値と信頼区間
まず,p値を復習しておく.p値は「両群の平均値の差 ¯x¯y=a0(a0>0) が観測されたとき,
もし両群間に差がないとしたとき,偶然変動(バラツキ)だけによって評価指標の平均の差が a0
上になる確率」のことであった.つまり,p値は,p値の値が極めて小さければ,バラツキだけ
で差が a0以上になることはほとんどあり得ない,両群間に差があると見るのが妥当,と考えるた
めのモノサシである.
p値に対応する信頼区間について,以下のことが言える.
p値は,平均の差が a0(a0>0) 以上になる確率を表すことから明らかなように,p値に対応
する信頼区間は片側信頼区間である.なお,統計ソフトなどでは両側 p値がアウトプットさ
れることが多いが,これは有意水準 5% Neyman-Pearson 流検定が通常両側検定として適
用されること,及びこの検定を p値で代用したいという便宜的配慮からアウトプットされる
ものであって Fisher が生存しておれば激怒ものである.
次の命題が成り立つ.証明の概略は付録 Bに与えている.
命題.処置群と対照群のデータが,それぞれ正規分布 N(µ12), N(µ22)に従う母集団からの
確率標本の実現値とみなすことができ,両群のデータの平均値の差 ¯x¯y=a0(a0>0) が観測さ
れたとし,p値が p0であったとする.このとき,µ1µ2の信頼度 1p0の信頼区間は,信頼下
Jpn J Biomet Vol. 38, No. 2, 2017
yanagawa.dvi : output at 2018.3.9 This book was typeset using pLaTeX2e
158 柳川
限を原点としてもつ原点の右側にある区間である.逆も成り立つ.
命題は,p値が p0であるということは,µ1µ2の信頼度 1p0の信頼下限が正であること,
つまりバラツキを考慮しても µ1µ2>0であることが 1p0の確率でいえるということである.
このことを「信頼度 1p0µ1µ2>0である」という.1.1 節では,信頼度が大きければ大き
いほど µ1µ2>0のエビデンス力は大きいという意味でエビデンス力というコトバを使った.
Neyman-Peason 流の検定に対する信頼区間は,症例数が増えれば区間の幅が縮小する.
しかしながら,p値に対応する信頼区間は症例数が増えても同一である.ただし信頼度が増加す
る.p値は症例数を増やせば小さくなるからである.
p0<0.05 のとき,信頼度 95% の信頼区間の下限は原点の右側にある.信頼度 95% の信頼区
間で結果を表示する利点の一つに,原点から信頼区間までの距離を見ることができる,とあっ
たが,この距離は p00.05 がどれくらい離れているか見ることと同じことである.
以上の考察から,信頼度 95% の信頼区間には p値にとって代わる利点は見出せないといえよう.
4.5 推定の方が検定よりも重要
本論考は,p値濫用に関する ASA 声明を念頭に置いて「判定」という立場から考察を進めてき
た.しかしながら,医師主導臨床試験に見られるように科学的知識を深めるために行われる臨床
研究,特に症例数を設定せずに実施される臨床試験では,「判定」は重要ではない.評価指標の平
均や分散の「推定」,さらに箱ひげ図や項目間の関連性を表す散布図などの方がデータの特徴をよ
りよく把握できるという点で重要であり,より有益な情報が得られる.当然,その中には評価指
標の差の,信頼度 95% の信頼区間も含まれる.一般に,当該臨床研究を次のステップの研究に引
き継ぐためには「推定」の方が「検定」よりも重要である.しかしながら,この場合においても
統計家が当該臨床研究の効果を客観的に医師に報告するためのエビデンス力のモノサシとして p
値は,有用である.
5. 観察研究と p
ランダム化や割り付けなどを行わない医学的研究,つまり疫学研究や臨床的観察研究の様な観察
研究においても統計的検定は頻繁に適用されている.観察研究は,選択バイアスや交絡によるバイ
アスなど様々なバイアスのため「見せかけの効果(無効果)」が観察されやすい.統計的検定を行う
前に,層別などによるバイアスの制御に全精力を注ぐべきである.そういう努力を尽くしたあとな
ら,p値は研究結果を吟味するときのモノサシとして意味を持つ.つまり「もし仮に両群間に差が
なく,バイアスもないとしたら観測された差以上の差が偶然によって生じるチャンスはどれほどあ
るのか」と考える思考実験に応えてくれる.言うまでもなく,観察研究に Neyman-Pearson 流検定
を適用する妥当性はない.にもかかわらず,頻繁に適用されている所から ASA 明( Wasserstein
and Lazar, 2016が憂うる状況が多発している.
Jpn J Biomet Vol. 38, No. 2, 2017
yanagawa.dvi : output at 2018.3.9 This book was typeset using pLaTeX2e
p値は臨床研究データ解析結果報告に有用な優れたモノサシである 159
6. おわりに
p値に対する批判が渦巻いているが,p値そのものは検定結果を判定する極めて妥当なモノサシ
である.問題は,安易・機械的に有意水準 5% で有意・非有意と判定する検定の仕方にある.そ
の原因の多くは Neyman-Pearson 流検定にある.どうしても Neyman-Peason 流検定を教えたけ
れば,この検定はステップ◯1と◯2が前提とされた検定であることを強調しておく必要がある.特
に,医・歯・薬学系の講義では,Neyman-Pearson 流検定の話しは最低限にとどめ,p値にもと
ずく Fisher 流検定の講義に立ち位置を移すことが重要である.特に p値のもつ意味を徹底して教
示して欲しい.p値は統計家がデータ解析結果を報告するモノサシに過ぎないこと,臨床試験の
結果が有効であったか,否かの判定は専門家である主査が対象とする疾患や症例数を考慮して責
任をもって判定すべきであることを教えて欲しい.Fisher は,科学的知識を深める研究はいくつ
もの段階からなっており,統計的検定は,その中の一つに適用される方法にすぎない.統計的検
定で臨床研究の成果を「判定」するなどとんでもないと考えていたようである.
通常,医師はバラつきを取り扱うことになれておらず観測された差が偶然の差であるかどうか
まで頭が回らない.そのような医師にとって,p値は極めて強力な頼りがいがあるモノサシであ
る.p値を正しく理解してもらうことが重要である.しかしながら,このことは容易でない.特
に「もし仮に差がないとしたらどうなるのか」というのは良くありえる思考実験であるが,この
考え方に慣れていない医師が多いからである.学生の時に,しっかり教えておく必要がある.な
お,本稿で紹介した「有意水準 5% で有意であった p=0.01」という形式の試験結果の報告
の仕方は,p値を正しく理解させてさえおれば,受け入れ可能な賢い結果の報告の仕方であると
考える.
ただし,p値を正しく理解させておけばの話である.付録 Aに第 105 回医師国家試験(平成 23
年)に出題された p値に関する問題を与えた.5つの解答枝の中に正解がないことに気付いた上野
隆彦さん(聖マリアンナ大学医学統計学)から吉村功さん(東京理科大名誉教授)の所に連絡が行き,
さらに吉村さんから筆者に届いた誤出題である.筆者は,医学界,および久留米大学医学部の数
人の重鎮と目される医師に誤出題であることを説明したが,理解してもらえずに愕然とした.解
答枝 eが正解でないことを理解するには統計的基礎知識を必要とするが,彼らはその知識を持ち
合わせていなかったからである.重鎮と目される医師たちとの対話の中で,医・歯・薬学系にお
ける統計学講義の貧弱さを思い知り肌寒い思いがした.医・歯・薬学系向けの良質な統計学テキ
ストの開発と,責任をもって統計学講義を担当・推進することが出来る教員のための常勤ポスト
の設置を声高くよびかけたい.
最後に,本論考について査読者から様々な有意義なコメントをいただき,各所に取り入れさせ
ていただいた.心より感謝したい.
参考文献
Fisher, R.A. (1925): Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd.
渋谷政昭,内啓訳(1962): R.A. フィッシャー統計的方法と科学的推論,岩波書店(巻末の
訳者解説に Fisher Neyman 論争が紹介されている).
Jpn J Biomet Vol. 38, No. 2, 2017
yanagawa.dvi : output at 2018.3.9 This book was typeset using pLaTeX2e
160 柳川
Lehmann, E.L. (1986): Testing Statistical Hypothesis, Springer.
Neyman, J. and Pearson, E.S. (1928): On the use and interpretation of certain test criteria,
Biometrika 20A, 175–240.
Wasserstein R.L. and Lazar N.A. Editorial (2016): The ASA’s statement on p-values: Context,
process, and purpose. The American Statistician,70: 129–133.(日本計量生物学会のホーム
ページ上に訳文が与えられている).
文部科学省,厚生労働省 (2014, 2017): 人を対象とする医学系研究に関する倫理指針,平成
26 12 22 (平成 29 228 一部改正) http://www.mhlw.go.jp/file/
06-Seisakujouhou-10600000-Daijinkanboukouseikagakuka/0000153339.pdf
付録
A. 医師国家試験 105 (平成 23 年)問題 43
B. 命題の証明概略
¯x¯y=a0(a0>0) が観測されたとき p値が poであったとする,すなわち
p0=P(¯
X¯
Ya0|H0).
Jpn J Biomet Vol. 38, No. 2, 2017
yanagawa.dvi : output at 2018.3.9 This book was typeset using pLaTeX2e
p値は臨床研究データ解析結果報告に有用な優れたモノサシである 161
よって
1p0=P(¯
X¯
Y(µ1µ2)<a
0|H1).
これより信頼度 1p0µ1µ2の信頼区間下限が ¯x¯y=a0で与えられることが分るが,いま
¯x¯y=a0であったから信頼下限はゼロ,すなわち原点の上にある.
Jpn J Biomet Vol. 38, No. 2, 2017
ResearchGate has not been able to resolve any citations for this publication.
Article
This is an account of the life of the author’s book Testing Statistical Hypotheses , its genesis, philosophy, reception and publishing history. There is also some discussion of the position of hypothesis testing and the Neyman-Pearson theory in the wider context of statistical methodology and theory.