study

輪講資料

最低限の物は揃った…たぶん。

輪講資料完了

後はカンペだけ。とりあえず浅くひろおおおおおおおおおおおおおおおおおおおおおおおおおおおおおおおおおおおおくって感じになってしまったのでアドリブで頑張ろうと思う。ここでアドリブが効かないやつは勝てねぇ!でも俺は島唄の右リールを外し続ける某…

輪講資料

つかれーたけど大分読みオワタ。やっぱり全部の話題をカバーするのは無理がありますた。後は気合いで残りのスライド製作…。

輪講資料

うはwww範囲広すぎて発表内容が頭に入りませんwwww

続・輪講資料

あれ、おかしいな。かなり端折ってんのに既に40枚行っちゃってますよ?なんでだろねーorz

輪講資料

終わる気がしねー

輪講の担当分

担当している章が際どい。授業では6回分に相当し、スライドは130ページ越え。これを頑張って60ページくらいに押さえないと無理くさいなぁ。きびしす。1時間半に収まる量じゃねぇー。

でかいデータを扱うための本

Unknownのkzkさんのとこの広告に出てきたこの本。何気に読んでみると良いんじゃないかなーとおもた。この規模になってくると作り直しが難しそうだから、最初にこう言うのを読んでから作らないとダメだよなぁ…。つーかkzk Vistaに勝っちゃった…。Vistaじゃな…

輪講終了

疲れた。次はもっとうまくまとめる。その後関係ないけど飲み会になって大変だったorz 朝帰りorz

輪講資料

出来たー!こつが分かった。次からは数倍スムーズに書けそうだ。先輩方ありがとうございましたorz

資料

後は今まとまってるメモをパワポ用に変換するだけなんだけどむじぃ。明日早起きして秋日稼働するしかない。

輪講用資料

まにあわねーorz 内容と時間のバランスが取れてない気がするorz

資料

うー絶対間に合わないからまとめられる部分をしっかりまとめよう…。

MSB検出

論文の仮定では0のMSBを検出することはあり得ないのでbsr2回、64bitなら1回で行けるのかな?64bitのアセンブリコードの書き方はわからんので調べないと。

輪講用資料

1/5終了。疲れた。端折り方が分かってきたけど、後30時間は必要そうな気が。

輪講

ちょっと前提知識がなさ過ぎる気が…。間に合うかなぁ。

similarity search関連

Principles of hash-based text retrieval面白そうな論文を見つけたのでメモ。ところでsimhashのoriginal C++ implementationが見つからないんですがどこにあるか知っている人がいらっしゃったら教えて頂けるともの凄く嬉しいです…。

Interpolation search

ソート済みの数値配列に対しては、binary searchではなくinterpolation searchをするとO(loglogN)で済むというような記述があるので調べてみる。

テーブルの圧縮管理

テーブルの作り方が分かった瞬間もの凄く内容が理解できるようになったので圧縮の方法も書いておく。後でブロックサイズという物を用意するが、今は簡単のため、全てを圧縮する物として話を進める。とりあえず各テーブル毎にソート済みの64-bit値の配列を持…

テーブルの作り方が違ったようです

論文のやり方だと、各テーブル毎にπという関数を用意。この関数はnブロック中、テーブル毎に固有なkブロックを先頭p-bitになるように移動する。T[i].insert(π(f))と言うイメージっぽい。Tの中身はソートされている。これでバイナリサーチとか書かれていた意…

テーブルの数からpmaxを計算

同じような考え方でできるみたいなので考えてみる。

optimal number of tables

Detecting near-duplicates for web crawling3.1.2の式の意味を考えてみた。fはfingerprintのbit数、kは最大許容Hamming距離、2^dは比較するfingerprintの数。pminはテーブルでチェックしたい(処理をやり過ごしたい)最低bit数。定数τはこれ以下の時はテーブ…

例のnear-duplicatesを快適にdetectingしちゃう論文の話

11/17追記: 勘違いしてたのでこっちに加筆。参考までにこっちも残しておく。テーブル化はある程度理解できたのかなぁ。とりあえずテーブルの作り方、そこからの探し方の雰囲気擬似コード。探す方は効率とか全然考えて無くてあくまで雰囲気。なんかuniqueっぽ…

64bit fingerprintの高速比較

数GBのテーブル作っちゃえば楽じゃねっていう衝撃的な世界に足を踏み込んでしまったようです。2^31要素のテーブルを用意して、1個のテーブルから大体8個くらいのfingerprintの集合にリンクしとけばーみたいなそんなんやっちゃって良いんですかーw たぶん後…

情報検索

の本を借りてきた。俺に足りなかった物が全部詰まってましたう゛ぁー。とりあえずこんなことも知らずにやってたのか!っていうショックがでかかったw これを読めば謎の論文群に太刀打ちできるんじゃ…。