今回のテーマは抽出、要約です。インターネットの登場以来、情報量は爆発的に増えています。そんな中で降り注いでくる日々の情報をすべて消化するのはもはや不可能ではないでしょうか。その結果として情報の取りこぼしが増えていきます。
今回はそれを防ぐための施策およびオープンソース・ソフトウェアを紹介します。
フィルタリング
情報のフィルタリングはとても大事です。最も有名なところではスパムフィルタがあります。不要な情報(スパムメール)をはじくための仕組みです。基本的にこの仕組みの場合、シグナル/ノイズの2パターンしかありません。
Gmailの場合、さらにソーシャルとプロモーション、重要などが自動で振り分けされるようになっています。フィルタリングは手作業で行うものと、ベイジアンフィルタのように学習型の2種類が存在します。