母平均の区間推定

母平均と標本平均

■母平均
母集団から得られた平均の値

■標本平均
標本から得られた平均の値

他にも、母集団から得られた分散、標準偏差はそれぞれ母分散、母標準偏差。
標本から得られた分散、標準偏差はそれぞれ標本分散、標本標準偏差とよびます。

さて、昨日の記事でも説明したように、調査対象のすべてのデータを母集団。
母集団から抽出された一部のデータを標本といいます。

母集団のすべてのデータを集められればいいのですが、それはコストや手間を考えると現実的ではない。
なので、アンケートなどによってサンプル(標本)を集め、全体(母集団)を推測する、というような話を書いたと思います。

年齢のアンケート調査

具体例を用いてみます。

例えば、このブログ芋ほり日記を読んでくださっている方の平均年齢を知りたいとします。

そのために必要なものは、母集団が何人いるのか?と母集団すべての年齢です。

母集団が何人いるのかは、アクセス解析をすればおおよその見当はつきますが、正確な人数まではわかりません。
ましてや、読んでくださっている方すべての年齢を知ることは不可能でしょう。

まっ、平均30~40歳くらいだと思いますけど^^;

そこで、アンケートフォームなどを設置して、年齢を聞くアンケート調査を行ったとしましょう。
その結果、10人からの回答が得られたとします。

あっ、蛇足かもしれませんが、標本を集めるときに注意するのは、なるべく無作為(ランダム)にデータを集めるようにしなければならないという点です。
そうでないと偏ったデータが集まってしまうからです。

さて、得られた回答が以下のようなものだったとしましょう。

20150108

標本平均は35なので、このブログを読んでくれている方の平均年齢を35歳と推定、していいのでしょうか?

標本数が多ければ多いほど、母平均に近い標本平均が出る確率は高まりますが、10人程度の標本数ではどのくらいの信頼度があるのでしょう。

標本数が少ない場合、t分布を用いて区間推定を行う方法がありますが、今日はt分布を使わないで区間推定をしてみます。

95%の確率で取りうる区間を推定する

先述の通り、標本数が多ければ多いほど、標本平均は母平均に近づきますが、ズバリここだ!というように一点で当てることは難しいです。
なので、統計学では区間で推定します。

そのために大事なのが、母集団の分布がどんな形であれ、標本平均の分布は正規分布するという特徴です。
ここでも標本数が多ければ多いほど、正規分布の形に近づいていきます。

この特徴を利用して、母平均の区間を推定するのです。
長くなってきたので、結論を書いていくと…

正規分布の場合、±1.96σの範囲に95%の確率で収まります。
よって、母平均の区間を95%の確率で推定する式は、以下のようになります。

母平均―1.96×(√不偏分散÷√標本数)<=標本平均<=母平均+1.96×(√不偏分散÷√標本数)

手じゃとても無理なので、先ほどのアンケート結果の値を代入して、Excelで計算してみましょう。
使う関数はAVEREGE、SQRT、STDEVです。

2015010802

上記の計算結果から、芋ほり日記を読んでくれている方の平均年齢(母平均)は、95%の確率で33~37歳である、と推定します。
※架空のアンケート結果です。

この推定が合ってるかどうか、回答が得られるかどうかはわかりませんが、いちおうアンケートフォームを設置しておきます。

あなたの年齢を教えてください

途中経過

Loading ... Loading ...

トレード結果

今日は、日経は大幅反発したようですね。
まだ結果は見てないけど、見るのが怖いなあ…

貯金があるから少し心に余裕があるとはいえ、大きく喰らいたくはない。
というか、いつ何時でもマイナスは嫌だ。

10年トレードやってるけど、納得の負けなんて一度もありませんよw

願望込みの推定収支は+12000~42000円。
どうかこの範囲に収まりますように。上ブレはもちろん大歓迎です。

今日の収支 ▼3550円

残念ながら、マイナスでした。
愚痴をたらたら書きたかったけど、データの更新が上手くできません。

仕様が変わっちゃったのかな?
急いで対処しないと。

母集団と標本【推測統計】

母集団と標本

■母集団
調査対象となる集合全体

■標本
母集団から取り出された一部分のデータ

仮に、トレーダーの年間収支の平均を知りたいとしましょう。
他の人がどのくらい儲けてるかって気になりますもんね。

ブロガーなど、収支を公開している人のデータは集められるけど、そうでない人の収支はわかりません。
「去年いくら儲けた?」って聞いても、教えてもらえないことが多いですからね(笑

知りたいのは全トレーダーの年間収支、つまり母集団の調査です。
これを全数調査といいます。

しかし、現実的にすべてのデータを集めることは不可能なので、母集団の中から一部のデータ(標本)を抽出して推測をします。
これを標本調査といいます。

テレビの視聴率や内閣支持率など、私たちが目にするデータのほとんどは標本調査によるものです。
コストや手間暇を考えると、全数調査を行うのは難しいからです。

そして、標本調査の結果から、全数調査の結果を推定するのです。

標本調査の結果がこんな感じだったから、全体の結果もだいたいこんな感じになるだろう?とか。
標本調査の結果と全数調査の結果に食い違いがありそうだな?とか。

標本数が多ければ多いほど、推定の信頼度も上がります。
逆に標本数が少なすぎる場合は、t分布を利用するなどして推定を行います。

実際にデータを分析する際に、標本数がどのくらいあればいいのか?
母平均、標本平均などの話はまた次回紹介したいと思います。

トレード結果

今日は、ゆうちゃんと付き合ってから20カ月記念に、よみうりランド遊園地のジュエルイルミネーションを見ながら中華を食べてきました♡

今日の収支 80340円

トレードも年明けから好調!
ずっとこんな日が続きますように。

日経平均500円下落は異常値か?【グラブス・スミルノフ検定】

異常値の判定

今日の日経平均は500円超の下落で引けたようですね。

ポジションのベータがロングに偏っていた私は、収支を見るのが嫌で嫌で仕方ないのですが…
大発会のプラスを吹き飛ばすような、大火傷だけは本当に勘弁してください。

さて、日経平均が500円も下げると、いわゆる暴落と言っていいんでしょうかね?
もちろん、単純な下げ幅だけじゃ何とも言えないんですが。

経験的には、500円を超える下げは珍しい。
けど、異常とはいえないかな?という感じです。

統計学では、データの中に含まれる異常値を判定する方法として、グラブス・スミルノフ検定というものがあるようです。
思いっきり舌をかみそうな名前ですが、今日はその検定をExcelを使ってやってみましょう。

グラブス・スミノルフ検定のやり方

まず、異常値と思われる値(今日の場合は▼526円)を標準化します。

長くなるので詳しい説明は割愛しますが、標準化には以下の式を使います。
(データの値ー標本平均)÷不偏分散の平方根

特殊記号を使わないと式が醜いですね…
HTMLを覚えて上手く表示できるようにしたいと思います。

それはさておき、上記の式をExcelで計算してみましょう!

日経平均標準化

列Cに50日分の騰落幅を求めました。
なので標本数は50です。

標本平均はAVERAVE関数を使います。
分散の平方根が標準偏差なので、不偏分散の平方根はSTDEV関数で求めます。

STDEV関数とSTDEVP関数の違いですが。
標本を調査するときはSTDEV、母集団を調査するときはSTDEVPだったような気がします。
定かではないので、ちゃんと知りたい方はググって調べてみてください@無責任

で、得られた値が―2.29でした。
この値が異常値かどうかを判断するのに、グラブス・スミルノフの棄却検定表を利用します。

これも「グラブス・スミルノフの棄却検定表」でググってみてください@無責任×2

グラブス・スミルノフの棄却検定表を確認すると。
標本数が50の場合は、95%の確率で「-3.128~+3.128」の範囲に収まるようです。

今日の下落幅を標準化した値は-2.29だったので、つまり今日の下落は異常ではない、といえそうです。

いや、統計学的にはこういう断定的な言い方はダメなんだっけな?
仮説は棄却されたなんちゃらとか言うんだったっけ…

ちなみに、直近50営業日は不偏標準偏差が245円とボラティリティが高い時期だったので、このような結果になったんだと思います。

標本数をもっと増やして、例えば1000営業日とかで検定すれば、たぶん500円の下落は異常値と判断されるのではないでしょうかね?

トレード結果

ドキドキしながらエクセルファイルを開いたら、あらびっくりの快勝でした。

今日の収支 83670円

やったよ。うれぴー!

ゆうちゃん大好き、ヨタ愛してる。
ちゅちゅちゅのちゅ♡

最近、真面目に検証作業をしていたんで、それが結果になって報われるとやっぱり嬉しいですよ…

データの縮約【記述統計・推測統計】

統計学の基礎用語

■データの縮約
身長や体重、年齢。
私たちがいつも目にしている株価や為替レートなど。

データにはさまざまなものがありますが、数字や文字の羅列だけを眺めていても、価値のある情報は得られませんよね。

なので、特徴や傾向を把握するために、データを整理(縮約)する必要があります。
このような分析方法を記述統計といいます。

■推測統計
たとえば、日本人の平均貯蓄額を知りたいとします。

とすると、正確な値を求めるためには、日本人全員の貯蓄額を調べなければなりません。
これは時間と労力を考えると、現実的には不可能ですよね。

なので、一部のデータ(標本)から、調査対象の母集団(この場合は日本人全員の貯蓄額)を推測します。
このような分析方法を推測統計といいます。

母集団すべてのデータが得られれば推測統計を行う必要はありませんが、時間や労力といったコストを考えると全数調査を行うことは難しいです。

なお、母集団の特性を表す数値を母数(パタメータ)といいます。
母数は未知の定数なので、推定によって具体的な数値を対応させます。

一般的に発表されている平均貯蓄額などは、推測統計によって導かれた推定値です。

それにしても、人の貯金ってやけに気になりますよね(笑

大発会

改めまして、新年明けましておめでとうございます。

好スタートが切れて何より。
本年も、芋ほり日記をよろしくお願いいたします。

今日の収支 40200円