分布まとめ

意味があるのかどうかわからないけど、32bit単位でのハッシュ値の衝突をチェック中。そんで、分布をどうやって出力しようかと。32bitくらいだと、3億個のURLでもかなり衝突が発生してしまう。そして、そこそこ数が多いので、出てくるデータ量が半端ない。なので、グラフを描くとしたら

  • 横軸がnで、n個衝突したハッシュ値の数
  • mod 2^n単位で数をまとめて分布を表示
  • 上位nbitでの分布

みたいな感じでやてみると良いのかなー。他にはなんかあるかあるか。とりあえず意味なさそうでもいろんなデータを取ってみよう。