ニュース | 2007/11/21
ECサイトやウェブショップの支援ビジネスを行うEストアーは、20日、検索サービスの利用者について独自調査を行った結果を発表した。
調査は、検索エンジンの利用者を「グーグル」「ヤフー」「その他」と分類し、それぞれに仲の良い友達の数を聞いたものだ。調査対象は全国の12歳以上の男女412名。検索エンジンの利用状況は、グーグルを利用する人が34.7%(n=143人)、ヤフーを利用する人が60.4%(n=249人)、その他が4.9%だった。調査はインターネット調査となっている。回答の男女比はほぼ半分だが、女性のほうが若干多い回答とのことだ。
それぞれの友達の平均はグーグル利用者2.6人に対してヤフー利用者は3.4人と大きな差はなかったが、友達がいないという人の割合は、グーグル利用者9.8%に対して、ヤフー利用者では4.4%とおよそ半分の数字となった。
もちろん、この結果をもって、グーグル利用者に友達が少ないと即断はできない。「仲の良い」という定義の範囲の解釈の違いを示しているだけかもしれないわけだが、どちらにしろ興味深い結果といえる。
グーグル利用者の10人に一人は友達0人――Eストアー調べ
http://www.rbbtoday.com/news/20071120/46610.html
上の記事を見て、「おかしいんじゃないか」と思った人はいないでしょうか。「友達の平均はグーグル利用者2.6人に対してヤフー利用者は3.4人と大きな差はなかった」と書いてありますが、感覚的に言うと、2.6人と3.4人は大幅に違いがあると考える方が普通です。
一方、「グーグル利用者9.8%に対して、ヤフー利用者では4.4%とおよそ半分の数字となった」とあるわけですが、もともと絶対数の少ない9.8%と4.4%ではあまり違いがないように思えます。
よく調べてみると、どちらも「違いがある」というのが正しい結論です。
まず一つ目の問題について、「標準誤差」という概念を使って調べることにしましょう。これはあるデータ(標本値)が得られたとき実際の値は標本値からどのばらつきがあるかを統計的に示したものです。標準誤差は公式に当てはめれば求まりますので、これを計算してみると、
Yahoo! 3.38±0.22
Google 2.60±0.19
となります。グラフにすると右のようになります。
ここで、標準誤差の範囲が完全にかぶっていないことが分かります。
標準誤差は便利な性質があり、両方がちょうどかぶらないときに、95%程度の信頼性があると考えて良いのです(あくまで目安です、またここで言う「信頼性」というのは、統計学的には正確な用語ではありません)。このグラフの場合、両者がかなり離れているため、かなりの信頼性で「違いがある」ということになるのです。
では、どの程度の信頼性なのか…ということをきちんと調べるのがt検定というものです。これを計算すると0.75%。すなわち、99.25%の信頼性で、両者に「差がある」ことになります。これは統計的に得られる結論としてはかなりはっきりした差と言えるものです。
一方、「グーグル利用者9.8%に対して、ヤフー利用者では4.4%とおよそ半分の数字となった」という部分はどうでしょうか。
この場合、標準誤差に相当するものは、二項分布の標準偏差です。これは、σ^2 = np(1-p) という統計学の教科書ならどこにでも載っている公式を使うと、
Yahoo! 9.8±2.4%
Google 4.4±1.3%
となることが分かります。グラフにすると右のようになります。意外にも、両者には違いがあるのです。
これも厳密に示すためにはχ^2検定という方法を使います。こちらの場合、χ^2検定値は3.6%なので、96.4%の信頼性で両者に「差がある」ことになります。
結局のところ、Eストアーの示した結論は正しく、それに対するRBBTodayの解釈がおかしいということが分かりました。標準誤差や統計的な検定結果を示さないEストアーの情報の示し方にも若干の問題があるとは言え、ちょっと計算すれば分かる話でしょう。おそらく記者は、統計について「知ったかぶり」をしたところ、ボロが出たというのが正直なところではないかと思います。
いや、しかし、「標準誤差」「t検定」「χ^2検定」と統計の基本に必要な要素が全て含まれていて、統計の初歩を勉強するのに最適な記事でした。しかも、データを生の形で完全に利用するところができるのもGOODです。いつか授業のネタにでもしたいものです。
○参考資料
本文のグラフは全て以下のデータをもとに作成したものです。
Eストア プレスリリース
http://estore.co.jp/pdf/Release071120.pdf
固定リンク | コメント(3件) | トラックバック(0件)
すみません。先ほどの投稿、自己解決しました。円グラフから個別の被験者の回答を回復できますね。
補足
はてなブックマークで以下のようなコメントをいただきました。
> カイ2乗検定のどこが厳密な検定なんだ・・・Fisher's exact testじゃないの・・・?
> 標準誤差は「統計量」のばらつきであり「標本値」のばらつき(分散・標準偏差)じゃないのでは・・・
χ^2乗検定が「厳密な検定じゃない」のはその通りなんですが、標準誤差で比較するよりは「まし」という程度の意味です。個人的にはFisher's exact test大好きなんですが、この程度の標本数だったら、χ^2検定で実用上全く問題なく近似できるでしょう。
一方、標準誤差は「統計量」である「母集団の平均」に対して「標本平均」がどの程度ばらつくかという値ですね。だから、おっしゃる通り、「標本平均に対する母集団の平均のばらつき」とも受け取れる本文の表現は正しくないと思います。
ただ、これをきちんと説明し出すと大変なことになるので、そのあたりはご愛敬ということで…。雰囲気だけでも伝わればと思っています。
エジプト報道で、朝日と毎日がすごい件
に対する
情報学ブログさんのコメント
硫化水素自殺って楽に死ねるんだろうか?
に対する
真実さんのコメント
大学に市場原理を導入する方法
に対する
北風mk-2さんのコメント
八百長力士を処分するべきなのか?
(2011/02/05)
ロシア大使更迭経緯の流出は誰のリークか?
(2010/12/24)
大学に市場原理を導入する方法
(2010/12/23)
サンデルの政治哲学と日本の戦争責任問題
(2010/12/12)
負の所得税としての子ども手当
(2010/12/11)
こんにちは。最初の例ですが、これって、元ソースのデータからは標準誤差は算出できないんじゃないでしょうか?
標準誤差=標準偏差/sqrt(N)
をやるときの標準偏差は、個別の回答がどのような値であったかが分からないと求められないと思うのですが。