Yura YuLife

ITエンジニアの覚え書き。

2015-04-08から1日間の記事一覧

PythonでWikipediaの圧縮ファイルから記事毎にXMLツリーを取り出す

PythonでWikipediaの全記事の圧縮ファイル(jawiki-YYYYMMDD-pages-articles.xml.bz2)から、各記事を取り出してそのXMLツリーをパースするスクリプトを作成しました。 使い方: 引数にWikipediaの圧縮ファイルを指定 $ python parse_wikipedia.py ~/hoge/jawik…