Wikipediaをダウンロード

回文探しのためのコーパス青空文庫Wikipediaを選んだはいいが、どうやってローカルに保存するかが問題だ。Wikipediaのリンクをいちいち辿ってクロールしていくような真似をしていたら日が暮れても終わらないだろう。


とりあえずググってみるとこういうありがたいページを発見。
Wikipedia:データベースダウンロード - Wikipedia


Wikipediaの全コンテンツをダウンロードできるという太っ腹な精神だ。
Index of /jawiki/latest/


しかし、ダウンロードしてみるとわかるが全ページが単一のXMLファイルになっているというのは恐ろしく使いづらい。当然DOM展開などできるわけもないのでSAXで見ていくしかなさそう(XMLデータベースとかいうのを使えば簡単に扱えるのだろうか?)で、少し試してみたが最後のページまで辿ろうとするだけで数時間かかりそうな雰囲気だった。


できれば最初からHTMLになっているものがいいなぁと思ってもう少し調べるとこういうページを発見。今度はすべてのページがそれぞれHTMLになっているので、必要な部分を少しだけ取り出すなら使いやすいだろう。700MBを展開すると730000個のファイルが10GB分出現する。(解凍だけで4時間かかった)
404 Not Found


青空文庫の方はクローラを作ってダウンロードさせてもらった。迷惑がかからないようにと1個落とすごとに1秒スリープを入れたらこちらもやはり2時間近くかかった。


さて、落としたら次は解析しやすいように加工してやらないといけない。