2021/7/12の進捗整理的な日記

Twitterでパズルの情報を集めていると、パズル以外の情報も当然大量に視界に入ってくる。

それはそこまで悪いことでもないとは思っているが、パズルの情報を効率よく見つけたいという時もある。 (典型的には「天体ショー」で検索して、天体観測に関するツイートを除外したい、というような場合である。) そこで、ツイートがパズルに関するツイートか、そうでないかを、判定するプログラムを試作してみている。

今やっていることは単純で、ツイートのstatus idを収集しておいて、status idからTwitter APIでツイートのjsonを取得する。そのjsonから本文領域を取り出して、URLやメンション等を簡単に除去して正規化してから、スタンダードな形態素解析器にかけて、そのあと純粋な出現頻度を調べて、ナイーブベイズ分類をしている。

train:test=0.97:0.03で評価してみているが、F値は80~90%で揺れている。ROCや数値を見てそれほど悪くないだろうかと油断していたのだが、詳細を観察したり実際に運用したりしているうちに、色々と問題があるということが分かってきた。