2020年07月14日

Twitterのフォロワー流出と年数の関係

アイドルアカウント分析ダッシュボードを見ていて、下図の通り青線の流出(フォローを外された)人数がある程度一定の割合で発生していることがわかってきた。その割合についてのアイドル間の差を見てみようと思います。

200710outflow.png

流出率というものを(流出人数÷フォロワー数)として求めてみます。これは日別に得られる値です。率の平均をとるのが少し嫌なので日別流出率を箱ひげ図にして比べてみました。

outflowrate_boxplot_eachgroup2.png

お、なんか興味深そうな結果になりました。どう興味深いかというと、X軸のアイドルグループは事務所で固めているのですが、同一事務所内では結成からの年数が長い順に並べています。ハロプロだとモーニング娘が一番結成からの年数が長く、次いでアンジュルム、最後にBeyooooondsなので、モーニング娘→アンジュルム→…→Beyooooondsの順に並べています。他のスタプラ、48、46も同様に結成からの年数が長いものほど左に置いています。その結果、どの事務所も縦軸の流出率が右肩上がりになっています(AKB除く)。つまり、結成年数が長いほど流出率が高くなっています。

上図には具体的な結成年数の情報がないので、結成年数を横軸に、流出率を縦軸に散布図を書いてみました。

spend_year1_outflowrate.png

右肩下がりになっており、結成年数が長いほど流出率が下がってきます。これって結局何を示しているんでしょうか。流出している人が誰なのかを考えると答えが見えてきます。少し前に書いた記事「【ダッシュボード機能追加】流出した人はいつ頃フォローした人か」によると、流出する(フォローを外す)人は「最近フォローした人」の割合が高い傾向にあります。つまり、全体の中でフォローからの年数が短い人の割合が高いグループ=結成年数が短いグループほど流出が高くなっているのかなと。AKBとモーニング娘。がちょっと直線からずれたとこにあるのは何か意味があるのかな。新規流入(してすぐフォローを外す人)が年数の割に結構いるってことかな。

フォロー年数とフォローを外す確率ってこんな感じかな。1か月前にファンになった人がファンを辞めたって言っても驚かないですが20年ファンの人がファンを辞めるって「え!なんで?」ってなりますよね。そういうイメージ。

unfollow.png

最後にメモ。①過去の流入数、②過去の流出数、③誰が流出したかを推定できれば、今フォローしている人が何日前にフォローした人か、推定とかできるんじゃないか。結構面白そう。
posted by 石田泰浩 at 02:07| Comment(0) | Twitter | 更新情報をチェックする

2020年06月04日

Twitterにおける誹謗中傷判定ロジックをwebアプリにて実装




背景


先日推しのタレント岡井千聖さんが、SNS・Youtubeにて不特定多数より暴言を吐かれ、SNS・Youtubeでの全ての活動を休止し、僕の気分は最低レベルにまで落ち込んだ。この出来事を機に、誹謗中傷を見なくて済む楽しい世界作りをエンジニアリングによって支援できないかと思い、誹謗中傷のリプライを判定するロジックを社内の皆さんと相談して作ってみた。


誹謗中傷の判定ロジック


誹謗中傷の判定と聞いたときに、どのような判定方法を想像するだろうか。例えば人を傷つけるであろう一般的なワード(例:ばか)を定義して、そのワードが含まれた時、そのつぶやきを誹謗中傷と判定するという方法がまず考えられる。この方法の問題は、「ばか」という言葉を受け取った側は必ずしも「誹謗中傷」と感じない時があることである。例えば私が知らない人から「ばか」と言われるとイラっと来るだろうが、岡井千聖さんから「ばか」と言われたら嬉しくて舞い上がる。またその逆、知らない人からの言葉は「善意のアドバイス」でさえイラっと来るような状況もあるだろう。つまり、受け取った側にとっては「何」を言われているかではなく、「誰」から言われているかが、快・不快の判定基準として大きいのではないか、と考えた。

こうして「誰」に着目し、実際に誹謗中傷をしているアカウントを観察してみたとき、次の特徴が得られた。①誹謗中傷を飛ばしているが、その飛ばした先のアカウントをフォローしていない。②1アカウントに対し誹謗中傷を行うのではなく、不特定多数のアカウントに誹謗中傷リプライを飛ばしている。③フォロワーが少ない。フレンズ(フォロー先)も少ない。(その他、スクリーン名が初期値ランダム英数など)

ここで別の切り口、炎上の参加者は全体の0.5%しかいない、その0.5%が複数回参加している という話があるのだが、まさにこの「複数回参加」という特徴、②の人たちと同じではないか、すなわち②の人たちのリプライが目に入らないようにすれば、誹謗中傷の問題は緩和できるのではないか。

ただし②には「不特定多数のアカウントに誹謗中傷リプライを飛ばしている」判定が必要になるが、これをどうするか。この点を次の通り置き換える。「不特定多数のアカウントに誹謗中傷リプライを飛ばしている」→「フォローしていないアカウントにリプライを飛ばしている」。もちろんフォローしていないアカウントにリプライを飛ばすことはあるが、その頻度が多すぎると、怪しいとみなす。



色々書いたが次の3つをロジックに組みこむ変数とし、①②③に当てはまるほど誹謗中傷を行う確率が高いアカウントと判定する。
①自分をフォローしていない。
②フォローしていないアカウントにリプライを送っている頻度が多い。
③フォロワー数が少ない。

あるアイドルAさんについてのリプライを収集して、①②③の順で並び替えてみたが結構面白い結果が出ていた。それはAさんのファンの1人が誹謗中傷を行う確率が高いと判定されており、そのファンはAさんにはリプライで非常に好意的なことを言っているのだが、②の当てはまりが高く、実際にその人は別の芸能人を攻撃していた。それはテキスト分析では出てこない結果で、このロジックではファンの人は行動を改善しない限りAさんにリプライを読んでもらえない。

webアプリを作った


ロジックをRで実装し、shinyで触れるようにしてみました。

webアプリの入力(A)→処理(B)→出力(C)は次の通り。
A:入力として「X(スクリーン名)」「N(スクリーン名へのリプライ数)」を受け付ける。
B-1:XへのリプライをN件取得する。その中のリプライ者をRとする。
B-2:Rのフレンド(フォロー先)リストFを取得する。
B-3:FにXがあるか確認する。(あれば1、そうでなければ0)
B-4:Rの直近のつぶやき100件を取得し、その中のリプライのうち宛先がFにも含まれる率を集計する。
B-5:Rのフォロワー数を取得する。
C:B-3,B-4,B-5で得られた指標に基づいて、それぞれ降順、降順、降順に並び替える。

B-3,B-4,B-5についてはキャッシュが残るようにしたので、一度取得したRの取得に時間をかけないようにした。

これただ今のところ大変残念で、standard APIでは15件以上取ってこようとすると15分待たなければいけないし、2回連続で取ろうとすると前に実行したクエリでなければ15分待たなければならないので、今のところ分析用には使えない。premium APIに差し替えたい。

2週間で今まで触ったことのないshinyも勉強して作り上げた。僕をここまで動かす推しはやはり偉大。最強の原動力。幸せになってくれよ岡井ちゃん。
posted by 石田泰浩 at 08:43| Comment(0) | Twitter | 更新情報をチェックする

2020年04月26日

エンタメ村、アイドル村、ドラマ村のポジショニングマップ

前回の分析について、社内でアドバイスを頂いたのでそれを反映させた続編。
以下は直近10万人フォロワーを取得した結果であることに注意。

前回の図について再掲。この図って線が多すぎるところからわかる通り、弱い引力も頑張って表示しようとしているので、メリハリがつきずらくなっている。なので、閾値以下は0にするともうちょっと見やすくなるかもね、というアドバイスを頂いた。
ddmatrix_edit.png

閾値を設定してみた結果を再度紹介していく。ついでに対象アカウント(男性女性アイドルそれぞれ拡張。その他テレビドラマアカウント、ミュージカルアカウントなど)も増やしてみた。

【芸能・エンタメ系ポジショニング】

2004426_DD_add.png

・吉本坂…坂道との距離感。吉本坂って芸人さんとアイドルの中間かと思ってたんですが、メンバーは完全に芸人さんで構成されているんですね。(黄色のロッキンの下らへん)

・推し武道…ハロプロ村に近い。エンディングテーマが桃色の片思いだからかな。(左上)

・showroom…ライブ配信のプラットフォームを今回入れてみたんですが、期待通りメイン利用者の48と坂道の間に来てる。(中央の紫のダパンプの下。)

・テレビドラマ…「ドラマ好き」というクラスターが1つあってその中の人が色んなドラマを見ている、という感じ。俯瞰で見ると極端な差別化はなくって、「恋は続くよどこまでも」「相棒・科捜研」がちょっと離れているくらい。(右下の透明群)

・サッポロイチバンとピザーラの距離。これって何故近いかというと多分懸賞のためのアカウントで両者フォローしている人が多いことを示している。(下の緑)

・ミュージカルクラスタというものを加えてみた。右上の方に「刀剣乱舞」「テニミュ」「東宝演劇」がある。よりミュージカル性質の強い前の2つが近い。(右上の薄い青)

・水曜日のダウンタウンとクロちゃんを意図的に収集してみたが、ちゃんと近い。水曜日のダウンタウンの企画で繋がったクロちゃんとまめしば・BiSHも近い。(赤の一番左の間宮さんの左上らへん)

孤立点①…東方神起とIZONEはどちらも韓国で活躍するグループなんですが、どちらもファン被りが少ない。IZONEって48のメンバーも一部入ってるので、48の近くに来ると思ったんですが。宮脇咲良さんとか兼任メンバーのアカウントとってくると変わるかも。JPOPアイドルとKPOPアイドルは、同じアイドルという言葉で括っているが、ファンは全く被らないんですね。

孤立点②…嵐ファンサイトって11万フォロワーもいる巨大なアカウントなんですが、嵐との被りがそこまでない。考えられる理由は嵐公式のフォロワーはライト層を含むのに対し、嵐ファンサイトの方はオタクの濃度が濃い。

【アイドル村のポジショニング】

2004426_idol08_add2.png
・ハロプロ村と48村とスタダ村と坂道村についてはいつも通り。

・wack村というものが見えた。他の村よりも接続がゆるいのが特徴。

・夢みるアドレセンスさんはアイドル村からちょっとはみ出している。7万フォロワーもいるので、違うファン層を掴んでいると言ってよいのではないか。ネットの情報によると女性ファンが多いとか。

・指原莉乃さんは嵐さんとだけ繋がる。多分この2人が前回で言うテレビ村に近い。

・前回の記事で小嶋陽菜さんは卒業後、うまく48村以外のファンを掴めてるという話をしたが、小嶋さんの特殊性という意見もあったので、前田敦子さんも追加してみた。前田さんも48村から抜けている様子が見える。

・ベビメタがハロプロ村と繋がっているのは嬉しい。これはきっと元モーニング娘。の鞘師さんがベビメタに加入した影響だ。

・モーニング娘。ファンを公言している奥津マリリさんはハロプロ村ともう少し近くに来るのではと期待したが、そうはならなかった。でもフィロソフィーのダンスさんファンは私の周囲にも結構いて、アイドル村での存在感はかなり大きい感じはする。

孤立点①…ボイメンさん。男性アイドルクラスターとは乖離。名古屋を中心に活動するご当地アイドル、なので地域という差が乖離を生んでいるのか。同じご当地アイドルでも女性アイドルのねぎっこはアイドル村にいるので、女性アイドルファンと男性アイドルファンの違いが現れているのかも。ジャニーズも男性アイドルと離れているし。

孤立点②…perfumeさん。アイドル村とはやはり違う住民。

孤立点③…windsさん。言われてみるとwindsさんは男性アイドルという感じでもない気がしてきた。

【ドラマ村のポジショニング】
ドラマと俳優の関係、バラエティと出演者の関係性を見ていく。緑がテレビ番組で、赤が俳優、青が芸人(クロちゃんのみ)。ドラマはあまり見ないので、考察が薄いのでご容赦。

・この中の俳優さんから伸びている矢印で、ドラマに刺さっているのは{竹内涼真}さん→{テセウスの船}のみ。実はここに示した俳優さんとドラマの中で、ドラマ・出演俳優の関係にあるのがこの組み合わせのみ(多分)。この線が示すものは、「竹内さんが好きだからテセウスを見ている」あるいは「テセウスが好きで、結果として竹内さんのファンになった」である。前者をうまく抽出するにはドラマ開始前から俳優さんのフォロワーをとっておけばよい。後者はその反対。ちなみに竹内涼真さんフォロワーのうち、テセウスをフォローしているのは6.6%。水曜日のダウンタウンとクロちゃんの関係性はもっと近くて、クロちゃんフォロワーのうち水曜日のダウンタウンをフォローしているのは18.7%。すごい。

・ドラマから志尊淳さんに刺さっているものが多い。

・ドラマ間の距離については、ジャンルで分かれている気がする。

・唯一の孤立点。「恋は続くよどこまでも」。孤立は注意深く解釈する必要があって、ポジティブには他のドラマとは違う人たちが見てくれた、ネガティブにはドラマをよく見るマスな層が見なかった、ともいえる。ただ、この作品自体はスマッシュヒットの作品らしいので前者なのだろう。

actor.png


ここでは距離が近いほど、その番組にとってなくてはならない存在であることを示しているのではと思っているんですが、この結果だと一番そうした関係が強いのはクロちゃんと水曜日のダウンタウンということになる。ただここで抽出している俳優さんは一流の方を上げたので、代表作が1つではない場合、距離は近くなりにくいのもあると思う。クロちゃんの番組と言えば水曜日のダウンタウンだし。
※実は水曜日のダウンタウンはダウンタウンよりもクロちゃんが抜けた方がダメージとして大きいのではと感じないこともない。
posted by 石田泰浩 at 17:06| Comment(0) | Twitter | 更新情報をチェックする