複数ユーザで使うために HDFS編

はどおpのインストール方法などに関してはkzk神の実に素晴らしい記事が存在するのでそれを参考にして頂くとして、ちょっと複数ユーザーで使う場合どうなるんだろうなーと思い色々やってみた。

参考にしたサイトはここ。日本語だと情報が見つからないし、"hadoop multiuser"でぐぐっても800件くらいしか出てこない。公式のドキュメントに書いてあるとは思うんだけどまだ読んでない。ので、間違った事を書いている可能性もある。間違ってたら教えてくだしあ。

そんで、やってみた事。

  • hadoop/conf/hadoop-site.xml
    • dfs.permissions.supergroupのグループ名を変更(一応Linuxの設定に合わせた)
  • スーパーユーザ(=namenodeを起動したユーザ)でhadoop dfs -mkdir /user/新しいユーザ名(一応Linuxでのログイン名を使用)
  • hadoop dfs -chown 新しいユーザー名 /user/新しいユーザ名

とするだけでした。うへ。そのまんま。これで勝手にファイル作れるようになたよー。例えば新しいユーザが

hadoop dfs -mkdir test

とすると

/user/新しいユーザ名/test

が出来上がる。素晴らし。

しかし、dfs.permissions.supergroupの値を変えて再起動したらslavesのdatanodeが起動しなくなってしまった。仕方なくフォーマットし直して再起動。むー。なんか変な事しちゃったのかな?本番でこうなっちゃうとやばいので再フォーマットが必要になる状況を見極めないと。。

次はjobを沢山投げられるようにする。この場合はNFSっぽいものが必須らしい。