ハッシュ関数調査の方針

  • 64bitのもの: そのまま使う
  • 32bitのもの: 単体で分布を調査。その後全部の組み合わせで64bitのハッシュ値を生成しテスト
  • 128bit以上のもの: 32bit単位で分布チェック。その後全部の組み合わせで〃

100億のURLをそれらしく生成する方法のめどはついたので、後は600GB越えのデータと格闘するしかなす。