2020年06月14日

バズるについて一考察しようとしましたが、データ分析は「実験」がものすごく大事という話などに脱線します

Twitterの分析をしていると、「バズる投稿」について聞かれることがあったので、自分がもし開発した商品をバズらせたいんだけどと相談を受けた研究者だった場合、どうするかを考えてみました。実現可能性は置いておいて(だめじゃん笑)面白い実験案を思いついたのですが、その実験を考え付く思考プロセスは整理しておくと今後誰かにデータ分析について話すときに便利かもと思ったので、まとめてみます。

まずこのようなご相談があった場合、研究者に大きく期待を寄せられているのは「この条件が整うとバズる」という「再現性」を発見することかなと。「再現性」を発見するために必要なのは、仮説を立て、それを検証するための実験をすること。で、この実験が再現性発見のためには最重要で、実験が適切に行われれば、複雑な統計モデルは不要。得られたデータを比較するだけで本当に終わりです。例えばどういうことか。

中学生の時に「光合成の発生条件は何か」という課題について、あなたはどのように取り組んだか、というのを振り返ってもらうのがわかりやすいと思う。このときに統計モデルは使った記憶はないはずだが、用意された仮説とはいえ、「日光が必要」というものすごい事実を発見できた。それは仮説を立て、その仮説を検証するための実験が非常に適切なものだったから。

「光合成には日光が必要」という仮説を検証するために、どんな実験をしたか。それは「日光を浴びる葉Aと日光を浴びない葉B」を用意したと思う。そしてもう一つ重要なポイントは、「その他の条件を全て同一にした」こと。例えばAにアジサイの葉を使ってBにヒマワリを使った、ということではなく、Aにアジサイを使っているのであれば、Bにもアジサイを使ったはず。こうして日光の有無以外全ての環境を揃え、KPI、これもめちゃくちゃ大事ですね、光合成の条件を考えるには、「光合成でしか発現しえない」ものをKPIとする必要があります。このときはデンプンだったかと思いますが、ヨウ素液にAとBを浸して、Aのみ青紫色になり、めでたく「日光が光合成に必要」ということが検証できた。

よって適切な実験結果さえあれば統計モデルは不要。ただし実は「同一」という条件は本来はパラレルワールドが用意できない限り自然界に存在しなくて、光合成の実験も、AとBは真の意味で「同じアジサイの葉っぱ」ではないですよね。ですが、限りなく条件を近づけることをしたはずで、例えば「同じアジサイの隣接している葉っぱ」を使うとか。この限りなく近い条件を考えることで、我々はパラレルワールドなしで、現象を正しく理解しようとチャレンジしています。

いくつか面白い事例ですが、「受ける教育によって所得が異なるか」の検証方法を考えてみましょう。先ほどの光合成の例と全く同じように考えればよく、「教育を受けるA君と、教育を受けなかったA君」を準備して、教育を受けたA君の所得と教育を受けなかったA君の所得を比較することで検証できます。。。。。つまり、この実験はパラレルワールドなしでは不可能なのですが、この条件を限りなく近づけるための実験というのを考えると、教育を受けたA君に非常によく似た子で、教育を受けていないB君を用意することを考えるのです。教育経済学者の中室牧子先生はこの比較する2者を「双子」とすることで、限りなく近い子を用意することにチャレンジしています。「双子のデータを用いた教育の収益率の推計」。

他にも薬学の分野だと、「薬が本当に効くかどうか」を検証するために、「薬を与えたAさんと、薬を与えなかったAさんに非常によく似たBさん」とするのではなく、Aさんに与えた薬の効果には「本来の効果」と「プラシーボによる効果」があることがわかっているので、「薬を与えたAさんと、薬の成分が入っていない偽薬を与えたAさんによく似たBさん」を実験として用意することを考えています。

という視点で、「バズる投稿」の条件を検証する実験を考えましょう。まず24時間のうち「21時に投稿するとバズりやすい」という仮説を思いついたとします。これを検証したいとするのであれば、「21時に投稿した世界と、21時以外に投稿したパラレルワールド」を用意して、前者はバズって後者がバズらなければ検証成功です。ですが当然パラレルワールドは存在しないので、パラレルワールドに限りなく近づけるための実験を考えます。

例えばですが、日本以外で申し訳ないですが(なんでやねん笑)「時差」ってパラレルワールドに使えないかなということを考えたことがあって、例えばアメリカの西海岸と東海岸によく似た州(ある?笑)があったとき、西海岸では21時、東海岸では西海岸標準の21時に同時に投稿すれば、時間以外について近い条件というのが達成できないでしょうか。あとは誰が投稿する、という問題については西海岸支店と、東海岸支店の別のアカウント(フォロワー数、フォロワーの性質は似ているとする)で行えばOK。うーーん、やっぱ実験って難しいな。。笑

ところで、実は今年、最大のパラレルワールドがコロナによって引き起こされているんじゃないかなと思います。去年の自分に、来年は感染病が流行して、外に出ない社会になるよと言っても信じないでしょう。それぐらい社会が変わったのですが、研究者としてはこれを「何の実験が起きているんだろう」と逆算すると、これまで検証できなかった仮説が検証できるのではと思っています。

例えば「スポーツのホーム試合はなぜ勝率が上がるか、声援が力になるためだろうか?」について。これについて興味深い考察ができるかもと思っていまして、ホーム試合の勝率にはその他にも「場所慣れしている」といった要因も寄与していると言われています。よって「声援が力になっているかどうか」を検証するためには「ホーム試合で声援のある試合と、ホーム試合で声援のない試合」を用意する必要があったのですが、それは当然不可能でした。しかし今年はそのデータが無観客試合によって手に入る(ただし当然、チームの選手構成・能力のような最重要変数を固定できていないので、検証のための問題は山積みですが)。もし声援がないために勝率が下がっていることを最初に検証できたチームは、「声援に変わるナニカ」をチームに付与できれば、もしかすると勝率は上げられるかもしれません。例えば、、味方がヒットを打つと盛り上がりの声援が聞こえたり、敵がヒットを打つとあ~~~~あと言う声援が聞こえたりするような仕組み。(スポーツマンシップにのっとってないか。。)

ということで、まとまりがありませんが、僕がパラレルワールドを楽しむ方法でした。笑
posted by 石田泰浩 at 07:23| Comment(0) | データ分析 | 更新情報をチェックする