情報学ブログに書くほどではないニュースネタのためのサブブログ

トップ
">ニュース
">パソコン・インターネット
">学問・資格
">情報学
">携帯・デジカメ
">日記・コラム・つぶやき
">映画・テレビ ">経済・政治・国際 ">ニュース ">パソコン・インターネット ">学問・資格 ">情報学 ">携帯・デジカメ ">日記・コラム・つぶやき ">映画・テレビ ">経済・政治・国際 ">ニュース ">パソコン・インターネット ">学問・資格 ">情報学 ">携帯・デジカメ ">日記・コラム・つぶやき ">映画・テレビ ">経済・政治・国際 ">ニュース ">パソコン・インターネット ">学問・資格 ">情報学 ">携帯・デジカメ ">日記・コラム・つぶやき ">映画・テレビ ">経済・政治・国際
アーカイブ

統計学の初歩

ニュース | 2007/11/21

ECサイトやウェブショップの支援ビジネスを行うEストアーは、20日、検索サービスの利用者について独自調査を行った結果を発表した。

調査は、検索エンジンの利用者を「グーグル」「ヤフー」「その他」と分類し、それぞれに仲の良い友達の数を聞いたものだ。調査対象は全国の12歳以上の男女412名。検索エンジンの利用状況は、グーグルを利用する人が34.7%(n=143人)、ヤフーを利用する人が60.4%(n=249人)、その他が4.9%だった。調査はインターネット調査となっている。回答の男女比はほぼ半分だが、女性のほうが若干多い回答とのことだ。

それぞれの友達の平均はグーグル利用者2.6人に対してヤフー利用者は3.4人と大きな差はなかったが、友達がいないという人の割合は、グーグル利用者9.8%に対して、ヤフー利用者では4.4%とおよそ半分の数字となった。

もちろん、この結果をもって、グーグル利用者に友達が少ないと即断はできない。「仲の良い」という定義の範囲の解釈の違いを示しているだけかもしれないわけだが、どちらにしろ興味深い結果といえる。

グーグル利用者の10人に一人は友達0人――Eストアー調べ
http://www.rbbtoday.com/news/20071120/46610.html

上の記事を見て、「おかしいんじゃないか」と思った人はいないでしょうか。「友達の平均はグーグル利用者2.6人に対してヤフー利用者は3.4人と大きな差はなかった」と書いてありますが、感覚的に言うと、2.6人と3.4人は大幅に違いがあると考える方が普通です。

一方、「グーグル利用者9.8%に対して、ヤフー利用者では4.4%とおよそ半分の数字となった」とあるわけですが、もともと絶対数の少ない9.8%と4.4%ではあまり違いがないように思えます。

よく調べてみると、どちらも「違いがある」というのが正しい結論です。

まず一つ目の問題について、「標準誤差」という概念を使って調べることにしましょう。これはあるデータ(標本値)が得られたとき実際の値は標本値からどのばらつきがあるかを統計的に示したものです。標準誤差は公式に当てはめれば求まりますので、これを計算してみると、

Estore_1Yahoo! 3.38±0.22
Google 2.60±0.19

となります。グラフにすると右のようになります。

ここで、標準誤差の範囲が完全にかぶっていないことが分かります。

標準誤差は便利な性質があり、両方がちょうどかぶらないときに、95%程度の信頼性があると考えて良いのです(あくまで目安です、またここで言う「信頼性」というのは、統計学的には正確な用語ではありません)。このグラフの場合、両者がかなり離れているため、かなりの信頼性で「違いがある」ということになるのです。

では、どの程度の信頼性なのか…ということをきちんと調べるのがt検定というものです。これを計算すると0.75%。すなわち、99.25%の信頼性で、両者に「差がある」ことになります。これは統計的に得られる結論としてはかなりはっきりした差と言えるものです。

一方、「グーグル利用者9.8%に対して、ヤフー利用者では4.4%とおよそ半分の数字となった」という部分はどうでしょうか。

この場合、標準誤差に相当するものは、二項分布の標準偏差です。これは、σ^2 = np(1-p) という統計学の教科書ならどこにでも載っている公式を使うと、

Estore_2 Yahoo! 9.8±2.4%
Google 4.4±1.3%

となることが分かります。グラフにすると右のようになります。意外にも、両者には違いがあるのです。

これも厳密に示すためにはχ^2検定という方法を使います。こちらの場合、χ^2検定値は3.6%なので、96.4%の信頼性で両者に「差がある」ことになります。

結局のところ、Eストアーの示した結論は正しく、それに対するRBBTodayの解釈がおかしいということが分かりました。標準誤差や統計的な検定結果を示さないEストアーの情報の示し方にも若干の問題があるとは言え、ちょっと計算すれば分かる話でしょう。おそらく記者は、統計について「知ったかぶり」をしたところ、ボロが出たというのが正直なところではないかと思います。

いや、しかし、「標準誤差」「t検定」「χ^2検定」と統計の基本に必要な要素が全て含まれていて、統計の初歩を勉強するのに最適な記事でした。しかも、データを生の形で完全に利用するところができるのもGOODです。いつか授業のネタにでもしたいものです。

○参考資料

本文のグラフは全て以下のデータをもとに作成したものです。

Eストア プレスリリース
http://estore.co.jp/pdf/Release071120.pdf

はてなブックマークに追加 del.icio.usに追加 POOKMARK Airlinesに登録 livedoorクリップへ追加 @niftyクリップへ追加 Buzzurlにブックマーク newsingにピックアップ Choixに投稿 Furlへ追加 Blinklistへ追加 Redditに投稿 twitterでReTweet

固定リンク | コメント(3件) | トラックバック(0件)

コメント

こんにちは。最初の例ですが、これって、元ソースのデータからは標準誤差は算出できないんじゃないでしょうか?

標準誤差=標準偏差/sqrt(N)

をやるときの標準偏差は、個別の回答がどのような値であったかが分からないと求められないと思うのですが。

投稿: Jun | 2007/11/21 6:32:45

すみません。先ほどの投稿、自己解決しました。円グラフから個別の被験者の回答を回復できますね。

投稿: Jun | 2007/11/21 7:06:27

補足

はてなブックマークで以下のようなコメントをいただきました。

> カイ2乗検定のどこが厳密な検定なんだ・・・Fisher's exact testじゃないの・・・?
> 標準誤差は「統計量」のばらつきであり「標本値」のばらつき(分散・標準偏差)じゃないのでは・・・

χ^2乗検定が「厳密な検定じゃない」のはその通りなんですが、標準誤差で比較するよりは「まし」という程度の意味です。個人的にはFisher's exact test大好きなんですが、この程度の標本数だったら、χ^2検定で実用上全く問題なく近似できるでしょう。

一方、標準誤差は「統計量」である「母集団の平均」に対して「標本平均」がどの程度ばらつくかという値ですね。だから、おっしゃる通り、「標本平均に対する母集団の平均のばらつき」とも受け取れる本文の表現は正しくないと思います。

ただ、これをきちんと説明し出すと大変なことになるので、そのあたりはご愛敬ということで…。雰囲気だけでも伝わればと思っています。

投稿: 情報学ブログ | 2007/11/28 8:18:48

トラックバック

この記事のトラックバックURL:
(トラックバックは記事投稿者が公開するまで表示されません。)

ニュースな待合室をRSSで購読する

Googleで購読 はてなRSSで購読 livedoor Readerで購読 Bloglinesで購読 My Yahoo!に追加

その他のRSSリーダー

管理人のつぶやき