Skip to main content

Home/ SmartGuys/ Group items tagged xml

Rss Feed Group items tagged

Ken Wakita

英語版 Wikipedia をダンプしたデータ一覧 - 1 views

  • enwiki-latest-pages-meta-history.xml.bz2
    • Ken Wakita
       
      これが記事の更新を一括ダウンロードするためのファイル.ただし,320GB もあるので注意しましょう.このファイルは xml.bz2 形式なのですが,実は xml.7z 形式の方がかなり圧縮率が高いので,ダウンロードにかかる時間も 1/10 ほどになりそうです.残念ながら 7z 形式の一括ダウンロードファイルはないので,meta-history[0-9]+.xml.7z をダウンロードするしかありません.  ところで,当初は高見くんに Windows で動作する高速なダウンロード用のツールを探してもらったのですが,なんと Chrome のダウンロードが速いです.
    • Ken Wakita
       
      ダウンロードすべきファイルに関するコメントを書きました.
  • enwiki-latest-all-titles-in-ns0.gz
    • Ken Wakita
       
      記事のタイトルに関するデータらしい
  • ...2 more annotations...
  • enwiki-latest-page.sql.gz
    • Ken Wakita
       
      最新版のページのデータ.編集履歴は含まれていないと思います.
  • enwiki-latest-pagelinks.sql.gz
    • Ken Wakita
       
      最新版のスナップショットにおける記事間のリンク関係.データは記事 ID 間のリンクになっているのだけど,記事 ID と記事のタイトルの関連性が不明です.どこか探せばわかるんだろうけれど.
  •  
    なんと...ダウンロードツールで探してみて、2~3年くらい前の記事ばっかりだったので、今はわざわざツールは使わないみたいですね。
mana ten

Google C++ Style Guide - 0 views

  •  
    GoogleでのC++を書くときの取り決め
Ken Wakita

Manual:Parameters to Special:Export - MediaWiki - 0 views

  •  
    Wikipeida のページの過去1,000版までの編集履歴をまとめてダウンロードできるらしい。特にカテゴリを設定し、それに含まれるすべてのページを取得できるらしい。
Ken Wakita

Export pages - Wikipedia - 0 views

  •  
    Wikipediaページの過去1,000編集履歴を取得するためのウェブページ。真面目に使うなら、このページでも参照されている Special:Export のウェブ API を利用しましょう。
1 - 4 of 4
Showing 20 items per page