テストで誤差を考慮して判断する。

#追記:このエントリーは間違っている部分もありますのでコメント欄も併せてご参照くださいませ。

テストを行う際に誤差を知っておくことは非常に重要だったりします。もっと言えば誤差率を知らないと、テストの結果か間違った判断をしてしまう可能性があります。

ということで今回は誤差の判断方法について。

誤差率の計算

誤差率はテストケースごとに計算することになります。式は下記の感じになります。(わかりやすいようにCTRという表記にしていますがメールの開封率とかでも同じです)

誤差範囲

1.96とは統計での信頼度という係数のようなもので、テストによって得られた平均の値から、実際の値があり得るであろう範囲を95%の信頼度で求めた場合ということで掛けられるものです。

ここから求められる誤差範囲が、実際のテスト結果からもとめられるクリック率(CTR)の前後に本来の値が含まれるという考え方をします。

つまり、2つクリック率を比較するときに、これらを考慮しても差がついている場合は、有意な差があるであろうと考えられ、そうではない場合は有意な差があるとは考えられない(つまりテスト結果からはその2つの差はみられなかった)ということになります。

誤差範囲

難しいですね。正直自分も統計はかじっているだけなので、統計的な細かい言い回しは苦手です。。。(間違ってたら誰か指摘して〜)

具体的な例を

さて、もう少し具体的な例を考えてみましょう。ランディングページのCall-To-Actionのデザインを変更したときの比較を考えてみます。

# Landing Page PV Call-To-Action Click CTR
パターンA 600 60 10.0%
パターンB 500 55 11.0%

上記の例でみるとCTRで比較をするとパターンBの方が結果が良いので、パターンBの方が良いのではないかと考えてしまうのですが、実際に誤差範囲を計算すると

# 誤差範囲
パターンA 2.4
パターンB 2.7

となります。つまり、それぞれのCTRの前後は2%ちょっとは誤差範囲になるので、それらを考慮するとこの2つには差が見られないということになるわけですね。

テストをする時にサンプル数が多いほうが良いと言われますが、この誤差範囲もそうすると小さくなったりするわけですよ。とは言ってもある程度のサンプル数を超えるとあまり変わらなくなるので取りすぎてもしょうがなかったりもします。

まとめ

統計は勉強途中なので正直…というところはあるんですが、自分の勉強がてら書いてみました。

複数の文献などを考慮しながらの記述なので、恐らく問題ないと思うのですが、間違っていればご指摘を。

なんて書かれるとこの内容信じていいのかよとなると思いますが、そういう方は誤差を考慮する必要があるよというところだけ認識して頂くだけでも十分かと。

You Might Also Like

  1. 衣袋(いぶくろ)

    こんにちは、衣袋です。

    誤差を考慮するという文脈には賛成ですが、展開する議論の細かい部分に問題があります。文章だけでは説明しにくいのですが、統計用語で言う、「推定」と「検定」をいつの間にかすり替えている部分があります。

    絵で書いて頂いたとおり、実際フルに行った場合の最終的な結果の推定値は、テスト結果のクリック率に統計的誤差をプラスマイナス加えた範囲として推定できます。

    そしてパターンAとパターンBがそれぞれの誤差を持つというのも正しいです。ここからはよくある間違いなのですが、それぞれの推定値の重なりがあるということと、この二つの結果に有意な差があるのかということ(これを検定といいます)は、(もちろん関係性を示す相関は高いですが)、別の議論になり、これを混同されているようにお見受けします。

    この検定という作業で、この10%と11%のテストが統計的に意味のある違いがあるかどうか(つまり有意差があると判定される場合は、パターンBを選ぶべきだと統計的に言える)は別の計算式を用いて、有意確率を求めるという作業が必要になります。これは推定の作業とは別のものですが、兄弟とも言える考え方ではあります。

    特にネットの場合では、コンバージョン率が1%とか非常に低いケースが普通ですが、1%と2%のケースで推定を比較すると、誤差が相対的に大きくなるため、当然重複する部分が広くなります。しかし1%と2%のテスト結果になった場合、検定をすれば、推定上では重なっていても、有意な差があると判定されるケースがでてきます。

    このように非常に小さいあるいは大きい比率を比較するようなケースを想像することで、推定と検定が違うものであることを理解しやすくなると思います。厳密な議論は「推定と検定」などを検索してみるとよいでしょう。

    またサンプル数についてですが、計算式にあるとおりで、分母のルートで効いてきますので、当然数が大きくなれば誤差は減り、精度が高くなります(テスト結果の値に関して誤差範囲が少なくなるという意味で精度が高くなると表現しておきます)が、2倍の精度にする(誤差を半分にするという意味)には4倍のサンプル数が、3倍の精度にするには9倍のサンプル数が必要と言うことで、厳密に言えば「ある程度のサンプル数を超えるとあまり変わらなくなる」ということではありませんが、精度は比例して高くなりませんということだけ覚えておけばよいでしょう。

    いや、統計は説明しにくいですし、上記の説明も相当端折っているので、じっくり教科書を紐解くのもよいと思います。でも、分かりやすい教科書がまたなかなかないんですよね。極端に数式ばかりものや、端折りすぎのもの、なかなかよいものがありません。わかるように説明しきれていると思えませんが、ご参考になれば幸いです。。。

  2. あんけい

    衣袋さん
    コメントありがとうございます。そして今年もよろしくお願いします。年越しで山奥のネットに繋がらないところにいたのでコメントが遅くなりました。衣袋さんのコメントを頂けただけで良かったです。そしてブログってすばらしい!

    誤差がかぶっていても有意な差がでる場合ももあるんですね。勉強になりました。きちんと比率の検定をした方が良いということでやっぱりもう少し小難しい計算をすることになるんですね。

    このあたり、もう少し勉強して追加エントリーにしていきたいと思います!取り急ぎありがとうございました!