• このエントリーをはてなブックマークに追加
使えるWebサービス・オープンソース(26)「クローラー」
閉じる
閉じる

新しい記事を投稿しました。シェアして読者に伝えましょう

×

使えるWebサービス・オープンソース(26)「クローラー」

2014-04-25 07:19

    今回のテーマはクローラーです。Webサイトを開発していたりする際に欲しくなるのがクローラーです。外部のコンテンツを取得するのにJavaScriptではクロスドメインの制約があるのでサーバサイドから取得するなんてことはよくあると思います。

    しかし意外とHTTPヘッダーの解釈や文字エンコードなどクローラーを書くのも一筋縄ではいきません。そこで今回はクローラーに似たサービスやオープンソース・ソフトウェアを紹介します。

    Webサービス

    kimono : Turn websites into structured APIs from your browser in seconds

    特徴としてスクレイピングではなく、DOM構造を理解した上で似たような構造部分を自動でピックアップしてJSON/CSVにしてくれるという点があります。一覧ページなどで、リスト部だけを効率的に取得したいなんて使い方が考えられます。

    html2api

    純粋にHTMLをJSONに変換するサービスです。データの取得だけ行って後は自分で操作したいという時にはこちらが良さそうです。

    import.io | Structured Web Data Scraping | import•io

    データの解析を含めたスクレイピングサービスです。CSV/JSON/Excelファイルなどとしてデータを受け取れます。

    mitsubachi / mushikago.org

    クローリングをPaaSとして提供しています。データをS3などに保存してくれるので取得の設定さえしておけば後はどんどん蓄積されるので後で振り返りをするのにも使えます。

     
    この記事は有料です。記事を購読すると、続きをお読みいただけます。
    ニコニコポイントで購入

    続きを読みたい方は、ニコニコポイントで記事を購入できます。

    入会して購読

    この記事は過去記事の為、今入会しても読めません。ニコニコポイントでご購入下さい。

    コメントを書く
    コメントをするにはログインして下さい。