ユーザーブロマガは2021年10月7日(予定)をもちましてサービスを終了します

近代デジタルライブラリーから資料をダウンロードする方法
閉じる
閉じる

新しい記事を投稿しました。シェアして読者に伝えましょう

×

近代デジタルライブラリーから資料をダウンロードする方法

2014-12-05 11:35
  • 1

近代デジタルライブラリーとは?

近代デジタルライブラリーとは、明治から昭和前期の資料を公開している電子図書館です。読もうと思えば無尽蔵に読めるという最高すぎるサービスなんだけど、ブラウザではかなり読みにくい。

そんなわけで近代デジタルライブラリーの資料を、ダウンロードする方法を紹介します。

MacOSX 向けには『近代デジタルライブラリーダウンローダ』 Windows 向けには『近デジPDFダウンローダー』が存在します。

ターミナルやらコマンドプロンプトを使うため、面倒くさいって思うかもしれないけど、ブラウザで近代デジタルライブラリーの資料を読むほうが100倍苦痛なので、少しだけ頑張ってダウンロードできるツールをゲットしたほうが良いと思う。

近代デジタルライブラリーダウンローダ

これは ruby というので作ってあって、Mac だとターミナルを開いて『brew install ruby imagemagick 』と入力してリターン、その後に 『gem install kindai』 でインストールされる。

近代デジタルライブラリーダウンローダに存在する最高画質の元画像と、トリミングした画像を自動的に作ってくれる。一冊あたりの容量は元画像とトリミング画像合せて100〜300MBくらいです。

近代デジタルライブラリーダウンローダ』は、Windows でも動くはずなんだけど、すごい頑張ってもなんか無理だった。意地になって Virtual Box に Puppy Linux とかインストールして動かしたけど、あんまり意味のある行為ではないと思う。

そんなわけで Windows の人は次に紹介する『近デジPDFダウンローダー』を使ったほうが良いと思います。

近デジPDFダウンローダー

こちらは国会図書館が提供する PDF をダウンロードして自動的に結合、目次を付けたりしてくれる。

一冊あたりの容量は3 0〜100MBくらいです。

Mac でも Wine というソフトを使えば一応は動くけど、本格的に使ってないのでよく分かりません。

個人的には『近代デジタルライブラリーダウンローダ』のほうが好みだけど、『近デジPDFダウンローダー』のほうが全般的には使いやすいと思う。

比較


特徴としては『近代デジタルライブラリーダウンローダ』はJPGでダウンロードしてくれて、『近デジPDFダウンローダー』はPDFでダウンロードする(jpgでの出力も可能)。

近代デジタルライブラリーの制限の関係上、『近デジPDFダウンローダー』のほうがダウンロードの速度が速いです。取ってくる書籍の情報量も『近デジPDFダウンローダー』のほうが多い。

近代デジタルライブラリーダウンローダ』は、巨大な元画像を取ってきてくれるというメリットがある。それを加工していろいろ出来る。

どちらが良いのかって聞かれると難しいところだけど、普通の人は『近デジPDFダウンローダー』で十分、必死の形相ですごい近代デジタルライブラリー使うって人は、『近代デジタルライブラリーダウンローダ』を選ぶみたいな感じで良いと思う。

個人的な雑感

個人的な話になってしまうんだけど、2009年くらいに近代デジタルライブラリーを知って、強引にダウンロードできる download.sh っていうスクリプトを書きました。ちょっと確認してみたんだけど、curl やら perl やら sed やら使いまくってて、とにかくヘボくて汚い感じだった。

ところが近代デジタルライブラリーの仕様変更に伴なって、俺の書いたダメスクリプトが動かなくなり、ワーワーネットで騒いでいたら、FireFox の greasemonkey で近代デジダウンローダーを作ってくれた人が出てきた。あと検索結果も AutoPagerize で動くようにしてくれた人もいたりした。

これらは俺のショボいのとは違って、すごい便利で感動してたんだけども、また近代デジタルライブラリーの仕様が変更になって動かなくなって、再びショボいスクリプト書くしかないのかと苦悩してたら、『近代デジタルライブラリーダウンローダ』が登場し、今も便利に使っています。

今は二種類もダウンローダーがあり、俺みたく普通の人が強引におかしなスクリプト書かずに済む。本当に良い時代になったものだと、感慨深いものがあります。


広告
×
Windowsで最高画質のJPGをダウンロードする方法のメモ。

▼URL
近代デジタルライブラリー
http://kindai.ndl.go.jp/view/jpegOutput?itemId=info%3Andljp%2Fpid%2F【作品ID】&contentNo=【ページ】&outputScale=1
国立国会図書館デジタルコレクション
http://dl.ndl.go.jp/view/jpegOutput?itemId=info%3Andljp%2Fpid%2F【作品ID】&contentNo=【ページ】&outputScale=1

▼httpgetで自動化(バッチファイル)

FOR /l %%i IN (【開始ページ】,1,【終了ページ】) DO (
httpget "http://dl.ndl.go.jp/view/jpegOutput?itemId=info%%3Andljp%%2Fpid%%2F【作品ID】&contentNo=%%i&outputScale=1" 【ファイル名】%%i.jpg
timeout 30
)

http://www.vector.co.jp/soft/winnt/net/se099336.html
http://signal9.exblog.jp/18209658
66ヶ月前
コメントを書く
コメントをするには、
ログインして下さい。