閉じる
閉じる
×
個人的にはもっと早く廃れるかと思っていたキュレーション(まとめ)サイトですが、今なおWeb検索でNaverまとめが上位に出るなど、まとめサイトはコンテンツとして価値が高く見られています。
そこで今回はキュレーションサイトを作るためのライブラリや、その手法について紹介します。ちなみに個人的にちょっとしたキュレーションサイトを作るためのシステムを開発していたりします。
本文の取得
肝になるのはWebページの中から本文と思わしき部分を取得する機能ではないかと思います。クローラーの場合、ドメイン全体やディレクトリ以下を通して共通している部分を取り除くことで精度があげられると思いますが、単一のWebページを貼り付けるキュレーションサイトにおいてはページを解析して行うのが多いかと思います。
アルゴリズムから調べることもできますし、それを実装したライブラリも幾つかあります。そちらは後ほど紹介します。
この記事は有料です。記事を購読すると、続きをお読みいただけます。
入会して購読
この記事は過去記事の為、今入会しても読めません。ニコニコポイントでご購入下さい。