仮説検定
現在統計を勉強してます。
なぜかと言うと輪読で使うからです。以上。
って言いたいんですが資料作らんとあかんので日本語を準備せねばなりません。
で、で、で、ですがなんと、
こ、このPC、TeXが反応しないZO?????
ん?どういうことだ?ん?
あれ?…あれ??
え、うそでしょ…
あーめん
はい。ということである程度ここにまとめてコピペします。
統計ですが、具体的にどういうことがメインかというと、
膨大な数の母集団と呼ばれるデータ(例えば、すべての男とか)の中から、
一部をひっぱり出してきて
その中のデータから母集団を推測する。
ということをやるに尽きるようです。いまのところね。
まず重要なのは、引っ張ってくるところです。
とりあえずデータをいくつか取ってくるわけですね。これを標本と呼んでいます。
この標本から平均を取ると、標本平均と呼ぶものが取れます。
これと、実際の母平均と呼ばれるものは、まあ一致はしません。
当然ですね。一部しか見てないので。完全に一致することはないでしょう。
例えば、工場のポテチの生産とか考えてみましょう。
88gとか書いてますが、まあそら全部88gぴったりはできませんわ。
87だったり88.3だったり90だったり。
多かったら生産者損だし、少なかったらクレーム来ますよね。
この辺を生産してる時に判別しないといけませんわ。
機械故障して量減りだしたらやばいですわな。
ここで生まれる誤差は最強ガウス先生によると、正規分布に従います。
正規分布は統計界でも最強の分布なんじゃないでしょうか。
式はここに書けないですが、上に凸の滑らかな曲線でx軸(変数)が0の時最大になる奴です。いっぱいあるとかいう突っ込みはここではスルーで。
実際にいくつかポテチとってきましょう。
こいつらの平均が88.2で分散が適当な値としましょう(雑い)
誤差は正規分布に乗ります。当然です。
標本の平均は簡単に計算できます。分散もです。
しかし、当然母平均とは違います。
ここでこのポテチ群たちが母平均よりもずっと量が多いのか?
みたいなことを調べるときに検定というものを使います。
検定とは、母集団についてのある仮定された命題を標本に基づいて検証すると書かれています。
なんだこの言い方はって感じですね。
こうした時には、こんな仮定をします。
H0 母集団のポテチの平均は88gである。
仮定です。すると、これに相反するもの仮定は
H1 母集団のポテチの平均は88gではない。
当たり前やろ!
そうです、当たり前です。
このH0を帰無仮説、H1を対立仮説と呼んでいます。
帰無っていうのは無に帰する可能性がある、つまり「後々否定するかも知らんけどよろしく」仮説って感じになるわけです。
無に帰す時はよろしくニキー仮説です。
H1はH0が破綻した時に採用する仮説になります。だから、反対の内容ですね。
で、どうやって検証するか。ここが重要です。
この時に、何%なら破綻するかを自らで定義しなければ始まりません。
よくつかわれるのは5%と1%です。
取ってきたポテチの平均(標本平均と呼ぶ)とポテチの分散からt検定と呼ばれる検定手段によって、この標本平均とポテチの平均が一緒になるかどうかを確率的に計算することになります。
この値が教科書の分布に乗ってる値より非常に大きかったりすると、「これはありえない」という結果になって破綻してしまいます。
おいお前、t検定ってなんやねんってなりますね。
うんうんわかる。俺もや。
t検定の前に前提の話がありますね。
だいたい確率の話は正規分布やなんちゃら分布などの話に落ち着かせるのが多いようです。すると、確率計算によって、仮定した事象が発生する確率の議論に持って行けて、それがあまりに小さいと「お前、起こるわけないやろ」ってなる算段ですね。
だいたいほとんどがそうっぽいですね。統計が嫌いになるのは何言ってるかわからないのが、原因なのが多いと思います。
けど、重要なのは上で述べた
「全体を予想したいんだけど、一部しかとってこれんし、一部から全体を予想しちゃおう」ってことしかたぶんあんまり言ってないです。
んで、二つの違いの場合とかも
A「これとこれたぶん違うと思うんだけどどうなん?」
B「一緒やと考えて計算して矛盾示したらいいんじゃね」
A「背理法やん!なんか昔やったわ」
B「それそれ。それでそれぞれの母集団がどうなってるのか考えないとあかんぞ」
A「母集団が違うって?」
B「例えば男と女の違いとかを見るとき、取ってきた男は全体の男から、女は全体の女から取ってきたわけだろ。まさか男を女から取ってこないよな?
男の集団が片方の母集団、女の集団がもう片方の母集団になるわけよ。
この時に、このお互いの母集団の分散が一緒かどうかで計算方法が変わってくるんや。」
A「へーややこしいんやね」
B「これが一緒かどうか確かめるのがF検定って呼ばれて、これが棄却されるとお互いの分散は一緒としてよいってなってる」
A「わからん…」
B「勉強しろ」
みたいな感じになりそう。
あほーどり氏数学苦手なので頑張って読みこなしてる最中です。
後々続きます。
ちなみに勉強してるのはこの本です。割と分かりやすいしおすすめかも。