■母平均
母集団から得られた平均の値
■標本平均
標本から得られた平均の値
他にも、母集団から得られた分散、標準偏差はそれぞれ母分散、母標準偏差。
標本から得られた分散、標準偏差はそれぞれ標本分散、標本標準偏差とよびます。
さて、昨日の記事でも説明したように、調査対象のすべてのデータを母集団。
母集団から抽出された一部のデータを標本といいます。
母集団のすべてのデータを集められればいいのですが、それはコストや手間を考えると現実的ではない。
なので、アンケートなどによってサンプル(標本)を集め、全体(母集団)を推測する、というような話を書いたと思います。
具体例を用いてみます。
例えば、このブログ芋ほり日記を読んでくださっている方の平均年齢を知りたいとします。
そのために必要なものは、母集団が何人いるのか?と母集団すべての年齢です。
母集団が何人いるのかは、アクセス解析をすればおおよその見当はつきますが、正確な人数まではわかりません。
ましてや、読んでくださっている方すべての年齢を知ることは不可能でしょう。
まっ、平均30~40歳くらいだと思いますけど^^;
そこで、アンケートフォームなどを設置して、年齢を聞くアンケート調査を行ったとしましょう。
その結果、10人からの回答が得られたとします。
あっ、蛇足かもしれませんが、標本を集めるときに注意するのは、なるべく無作為(ランダム)にデータを集めるようにしなければならないという点です。
そうでないと偏ったデータが集まってしまうからです。
さて、得られた回答が以下のようなものだったとしましょう。
標本平均は35なので、このブログを読んでくれている方の平均年齢を35歳と推定、していいのでしょうか?
標本数が多ければ多いほど、母平均に近い標本平均が出る確率は高まりますが、10人程度の標本数ではどのくらいの信頼度があるのでしょう。
標本数が少ない場合、t分布を用いて区間推定を行う方法がありますが、今日はt分布を使わないで区間推定をしてみます。
先述の通り、標本数が多ければ多いほど、標本平均は母平均に近づきますが、ズバリここだ!というように一点で当てることは難しいです。
なので、統計学では区間で推定します。
そのために大事なのが、母集団の分布がどんな形であれ、標本平均の分布は正規分布するという特徴です。
ここでも標本数が多ければ多いほど、正規分布の形に近づいていきます。
この特徴を利用して、母平均の区間を推定するのです。
長くなってきたので、結論を書いていくと…
正規分布の場合、±1.96σの範囲に95%の確率で収まります。
よって、母平均の区間を95%の確率で推定する式は、以下のようになります。
母平均―1.96×(√不偏分散÷√標本数)<=標本平均<=母平均+1.96×(√不偏分散÷√標本数)
手じゃとても無理なので、先ほどのアンケート結果の値を代入して、Excelで計算してみましょう。
使う関数はAVEREGE、SQRT、STDEVです。
上記の計算結果から、芋ほり日記を読んでくれている方の平均年齢(母平均)は、95%の確率で33~37歳である、と推定します。
※架空のアンケート結果です。
この推定が合ってるかどうか、回答が得られるかどうかはわかりませんが、いちおうアンケートフォームを設置しておきます。

今日は、日経は大幅反発したようですね。
まだ結果は見てないけど、見るのが怖いなあ…
貯金があるから少し心に余裕があるとはいえ、大きく喰らいたくはない。
というか、いつ何時でもマイナスは嫌だ。
10年トレードやってるけど、納得の負けなんて一度もありませんよw
願望込みの推定収支は+12000~42000円。
どうかこの範囲に収まりますように。上ブレはもちろん大歓迎です。
今日の収支 ▼3550円
残念ながら、マイナスでした。
愚痴をたらたら書きたかったけど、データの更新が上手くできません。
仕様が変わっちゃったのかな?
急いで対処しないと。
記事中の「標本数」は「標本の大きさ(サンプルサイズ)」の誤用ですね。
>r-dr-rさん
ご指摘ありがとうございます!
ちゃんと見直ししてみますね。