Yura YuLife

ITエンジニアの覚え書き

wikipedia

PythonでWikipediaの圧縮ファイルから記事毎にXMLツリーを取り出す

PythonでWikipediaの全記事の圧縮ファイル(jawiki-YYYYMMDD-pages-articles.xml.bz2)から、各記事を取り出してそのXMLツリーをパースするスクリプトを作成しました。 使い方: 引数にWikipediaの圧縮ファイルを指定 $ python parse_wikipedia.py ~/hoge/jawik…