意味があるのかどうかわからないけど、32bit単位でのハッシュ値の衝突をチェック中。そんで、分布をどうやって出力しようかと。32bitくらいだと、3億個のURLでもかなり衝突が発生してしまう。そして、そこそこ数が多いので、出てくるデータ量が半端ない。なので、グラフを描くとしたら
- 横軸がnで、n個衝突したハッシュ値の数
- mod 2^n単位で数をまとめて分布を表示
- 上位nbitでの分布
みたいな感じでやてみると良いのかなー。他にはなんかあるかあるか。とりあえず意味なさそうでもいろんなデータを取ってみよう。