2008-01-01から1年間の記事一覧

帰国

今朝帰ってきた。16位とかでしたヘタレですいません>< 11問中4問しか解けなかったー。全体的に難しい・・・という訳ではなく、知っていれば瞬殺、知らないと解くのは難しい、という傾向の強い問題が多かった。例えばD、Kは、数学オリンピック組なら簡単に…

まれしあ

いてきます。どうにもならない理由により、ICPCは今年が最後になるかもしれません。頑張って世界への切符を獲得してきます。世界いきてぇ。今年は日本から4チーム世界へ行けると良いなぁ。ちなみに、まれーしあ特有の現象として、終了1時間前からサブミット…

ほてる

id:awakiaが病気なのに予約してくれました。マジすいません。頑張るー。

そういえば、くあらるんぷーるたいかいへ

いくことになっているのですが、ほてるすらとれていません。これはもうのじゅくでしょうか。とうなんあじあはふゆでもあったかいですか?おれにはよくわかりませんが、きおんがたかくてもひとのこころがつめたかったらしんじゃいますよね。せつなす。

Google Test on gcc 4.3.*

src/gtest-filepath.cc: In static member function 'static testing::internal::FilePath testing::internal::FilePath::GetCurrentDir()': src/gtest-filepath.cc:82: error: 'PATH_MAX' was not declared in this scope src/gtest-filepath.cc:83: error:…

引っ越しして来週で一ヶ月になるのですが、まだ開けてない荷物が。ネット開通も12月に入ってからになりそう。もうどうしろと。とりあえず本はある程度本棚に収まったんだけど、ニトリの本棚がもの凄く組み立てづらかったせいで右肘が逝かれた。電動ドライバ…

続・会津大会

激しく今更感がしてきて感想とか書く気が失せた。とりあえずけん玉と終わったあとのプチ観光が楽しかったYO!!(大会が終わったあと、maximumの人たち+3名で車借りて山行ってきました。) あと二日目のあの宿はないですよねーさすがに!超疲れてたのにさらに疲…

会津大会

終わって8位(大学順位5位)でしたよー。6問。Gも通したかったなー。書きたいことはあるけれど、時間が無くて書けないので今度書く。つか、休む暇がないオタワ。

情報検索の分野を極めてみようかなーとおもた

やっぱり結構面白い。でもクエリログやらクリックログやらを持ってる企業群には勝てる気がしない。それ以外になにかWWWやSIGIRで太刀打ちできそうなネタあるかなー。今期はどうしようもないのでクローラ作りをして、来年日本の大学院に行く決意ができたらち…

64MBに切り分けられたブロック境界の扱われ方

まだ実装面まで踏み込んでる訳じゃないので、あくまで俺メモ。参考にはならない。HDFSでは大きなファイルを細かく刻んで色んなノードに保存している。当然データの切れ目は勝手に決められるのでその辺はどうしようもない。ここで、ある馬鹿でかいテキストフ…

ひっこし

来週から本格的に不動産屋巡り開始!

DataNodeがIncompatible namespaceIDsと言って終了してしまう件

http://mail-archives.apache.org/mod_mbox/hadoop-core-user/200706.mbox/%3CBAD0CDB2-F55F-4006-91B8-F8DBC49EBE44@yahoo-inc.com%3E http://issues.apache.org/jira/browse/HADOOP-1212NameNodeとDataNodeのnamespaceIDが合ってないと終了してしまうらし…

Xbyak2.06

で、前に作った@@などを安全にサポートしてくださいました。すごす。あと関係ないけど http://www.netagent.co.jp/reverse_engineering_2008.html こんな面白そうなことやってたとは。

複数ユーザでMapReduce: 追記

自分でdfs -mkdirやdfs -copyFromLocalなどをする場合は大丈夫なんだけれども、MapReduceのjobがディレクトリなどを作るときに問題が発生。 作成したディレクトリにグループが設定されていない dfs -ls で中身の個数は表示されるが、ファイル名などが表示さ…

複数のユーザでHadoopを使う MapReduce編

動いた。ゎー。病気で前回から1週間もあいてしまった。ヮィヮヵョヮィヵッォャ!前回と同じく Thoughts of Me: Multi-User Hadoop と、後FAQ FAQ - Hadoop Wiki を参照。HDFSは複数のユーザから使えるようになっている事を仮定。まずhadoop-site.xmlのmapred…

複数ユーザで使うために HDFS編

はどおpのインストール方法などに関してはkzk神の実に素晴らしい記事が存在するのでそれを参考にして頂くとして、ちょっと複数ユーザーで使う場合どうなるんだろうなーと思い色々やってみた。参考にしたサイトはここ。日本語だと情報が見つからないし、"had…

NISサーバの設定@でびあん(笑)

熱があるけど発表が近いので頑張って設定する。NISサーバの挙動が良く分からなかったのですが、なんとか動くようになったので今後のためにメモ。今年あと何回ぶっ壊れるか分かったもんじゃないからなぁ。ここを参考に。 # apt-get install nis # domainname…

Hypertableのregression test

さっきのhow to installのページに書いてある方法でテスト。ただ kill-servers.sh --> stop-servers.sh ~/build/hypertableはcmakeしたディレクトリ だとおも。make testで26個のテストが実行されたら完璧!か?これから色々動かしてみる。

Hypertableのインストール

http://hypertable.org/ Google Code Archive - Long-term storage for Google Code Project Hosting.とりあえずhow to installを参考に、必要なものを全部取ってくる。ソースは http://code.google.com/p/hypertable/wiki/SourceCode?tm=4 ここに持ってき方…

スニペット生成関連

http://doi.acm.org/10.1145/1376616.1376651 http://doi.acm.org/10.1145/1277741.1277766 http://doi.acm.org/10.1145/1277741.1277871

引っ越すなら今

マジでそう思った。全体的に破格と言っても過言じゃない状況。なにを言っているのかわからないtry、元はと言えば、研究室の友達が二年くらい前に夏に引っ越したら家賃が超安くなった!と教えてくれたのがきっかけ。目白で超広くて6万ちょいはねーよ。で、…

URLに対するハッシュ関数考察

現在電車中。64bitのハッシュ関数を使うと、どれも似たような結果になった。106億個URLがあると、大体全体の0.4%が衝突する。ちなみに、64bitの乱数を100億回生成しても大体6個しか衝突しない。シミュレート値と理論値が一致したので間違いないと思う。ハッ…

続・ハッシュ関数ぶくま

http://blog.clawpaws.net/post/2007/04/22/Good-Hash-Functions http://en.wikipedia.org/wiki/Hash_table と言っても、一回3時間以上かかる処理なのであと3回くらいしかできないお。速さ重視でSuperFastHashとMurmurHash2を組み合わせた64bitのハッシュ関…

ほぼランダムな2^d個のn-bit値を効率的に圧縮する手法

Googleの中の人の論文、Detecting Near-duplicate for Web Crawling(PDF)に書かれているハッシュ値の圧縮アルゴリズムを実装、テストしてみた。この論文ではsimhashと言うアルゴリズムによって生成される64bitのハッシュ値を使用して、かなり効率的に、内容…

Maximum-cup

参加したいし飲みにも行きたい!黄さんやコーヒーの人達とも話したい!んだけど、なんかまだ予定がはっきりせず!うぜー。参加しても大丈夫なのかなぁ。なんで今年夏休みが合計で8日しかないの?

Hacker's DelightのFig5-11にあるnlzは超はえぇ

64bit版。 inline int nlz(unsigned long long x) { x = x | (x >> 1); x = x | (x >> 2); x = x | (x >> 4); x = x | (x >> 8); x = x | (x >> 16); x = x | (x >> 32); return __builtin_popcountll(~x); }tbb::parallel_reduceで4億個に対して統計を取っ…

要素数Nの配列をM等分してクイックソートする場合のオーダーは

O( (N/M)log(N/M) )をM回やるのでO(Nlog(N/M))で良いんだろけ。そうなると分割数を増やせばそれだけ速くなるという事になるね。ただその後にM個のファイルを同時に読んでいくことになるので、その辺の事も考慮しつつ色々やてみよう。とりあえずソートはお手…

ハッシュ値のユニーク性判定

100億個もできるのでどうしようかという話。めも:100億B=9.31GB。ハッシュ値は64bitなので、バイナリで保管しても74.48GBとなる。メモリ上でやるとかっこよす!なのだが、今は分散環境がないので難しい。なので、ハッシュ値を全部はき出してsort&uniqueする…

ハッシュ関数調査の方針

64bitのもの: そのまま使う 32bitのもの: 単体で分布を調査。その後全部の組み合わせで64bitのハッシュ値を生成しテスト 128bit以上のもの: 32bit単位で分布チェック。その後全部の組み合わせで〃 100億のURLをそれらしく生成する方法のめどはついたので、後…

ハッシュ関数関連ぶくま

http://www.cryptopp.com/ http://tanjent.livejournal.com/756623.html http://www.azillionmonkeys.com/qed/hash.html