石垣島に関するじゃらんの口コミと5チャンネルのスレッドをそれぞれ感情分析してみます。
感情分析器はosetiとmlaskを使います。
じゃらんの口コミをosetiで感情分析した結果を例示するとこんな感じになります。
[{'positive': ['キレイ', '最高', '癒す', '良い'], 'negative': ['残念'], 'score': 0.6}]
これはある一つの口コミについて、ポジティブな単語が['キレイ', '最高', '癒す', '良い']、ネガティブ
な単語が['残念']、トータルのスコアが0.6であることを示しています。スコアは1.0で完全にポジティブ、-1.0で完全にネガティブ、0.0が中間(ニュートラル)を表します。
じゃらんの場合、全口コミの平均スコアは0.730とかなりのハイスコアです。スコアを棒グラフにすると、満点の1.0付近に多く集中しているのが分かります。
これに対して5チャンネル。
感情分析の結果を例示すると
[{'positive': ['治安'], 'negative': ['悪い', 'チンピラ'], 'score': -0.3333333333333333}]
[{'positive': ['楽しい'], 'negative': ['台風', '台風'], 'score': -0.3333333333333333}]
[{'positive': ['明日', '美味い', '土産', '美味い', '美味い'], 'negative': [], 'score': 1.0}]
[{'positive': ['観光'], 'negative': ['危険', '溺れる', '病院', '死亡', '死亡', '事故', '発生'], 'score': -0.75}]
このようになり、ネガティブな語がものすごく目立ちます。これだけ見ると、石垣島へ行く気が失せますね。
スコアの平均は-0.022で、ネガティブな方に傾いており、スコアの分布もこのようにニュートラルなものが多いほかに、1.0付近と-1.0付近にも同程度の大きさの塊があります。
次にmlaskで感情分析してみます。
mlaskは単語を[哀、恥、怒、厭、怖、驚、好、昂、安、喜]の10種類と、どれにも該当しないnoneの合計11種類に分類してくれます。
mlaskの結果を棒グラフにすると、じゃらん(左)のほうは「喜yorokobi」がたくさんあるのに対して、5ちゃん(右)はほとんどがnone。1000件の書き込みのうち約7割がnone!
同じ石垣島で、なぜこんな全く異なる結果になるのでしょうか。
以下僕の勝手な仮説。
じゃらんは、観光客が楽しかった旅の思い出を投稿しているのに対して、5チャンネルは地元に住んでいる人が日常の情報、例えばローカルの新聞報道とか地元のうわさなどをベースに投稿しているのではないかと想像できます。そして話題も良いものよりも、どちらかというと悪い話題が好まれる傾向が見えます。
また5チャンネルは話を相当に盛っている(悪い方向へ)とか、ひょっとしてフェイクな内容も含まれているような気がします。
いずれにせよ石垣島に限らず、じゃらんと5チャンネルのどちらか一方の情報だけを信用すると、判断を誤る可能性が高いと考えられます。
Comments