2008-07-19から1日間の記事一覧
O( (N/M)log(N/M) )をM回やるのでO(Nlog(N/M))で良いんだろけ。そうなると分割数を増やせばそれだけ速くなるという事になるね。ただその後にM個のファイルを同時に読んでいくことになるので、その辺の事も考慮しつつ色々やてみよう。とりあえずソートはお手…
100億個もできるのでどうしようかという話。めも:100億B=9.31GB。ハッシュ値は64bitなので、バイナリで保管しても74.48GBとなる。メモリ上でやるとかっこよす!なのだが、今は分散環境がないので難しい。なので、ハッシュ値を全部はき出してsort&uniqueする…
64bitのもの: そのまま使う 32bitのもの: 単体で分布を調査。その後全部の組み合わせで64bitのハッシュ値を生成しテスト 128bit以上のもの: 32bit単位で分布チェック。その後全部の組み合わせで〃 100億のURLをそれらしく生成する方法のめどはついたので、後…
http://www.cryptopp.com/ http://tanjent.livejournal.com/756623.html http://www.azillionmonkeys.com/qed/hash.html