文書をそのトピック(内容,話題)ごとに分類することを文書クラスタリングと言います. 私たちはストリーミング配信されてくるニュース記事に対してクラスタリングを行うことを考えます. 一般に文書クラスタリングは,すべての文書集合が揃った状態でクラスタリングすることを考えますが, ニュース記事は,そのニュースが配信されてきた時にその分類を知りたいという 要求があります.
更に,ニュース記事では分類されるべきカテゴリ分けが動的に変化します.例えば,ある日の「野球」というトピックにはプロ野球関連の記事が分類されるとします. その後,高校野球も始まった場合には,「野球」というトピックは「プロ野球」と「高校野球」に分かれてほしいと思うでしょう. また,「東京オリンピック」というトピックについて考えると,昔の東京オリンピックと未来の東京オリンピックは別のトピックとして扱いたいと思うでしょう. しかし,未来の東京オリンピックが終わったら,それらはどちらも「過去のオリンピック」として使いたいと思うでしょう.
私たちの研究室では,そのような話題の流れの変化に応じてカテゴリ分けそのものを動的に変化させる手法を開発しました. これにより,話題の流れをカテゴリの変化として俯瞰的にとらえることができます. 今後はさらに,どんな話題がトレンドなのかをSNSやtwitterなどから抽出し,それらを用いることでニュースストリームのクラスタリング精度を高めていくことを考えています. また,これらの手法の精度の検証実験を行いたいと思います.
また,近年ではニコニコ動画など,動画にリアルタイムな感想が文として書き込まれるようなコンテンツがあります. このようなコンテンツでは,コメントがコメントを引き起こすなど,動的に内容が変化していきます. このようなコメントから動画の価値を推測し,推薦に応用しようという試みも進めています.