SSブログ

Hadoop環境構築~その1~ [PC関連一般]

Googleの分散処理フレームワークのJavaによるオープンソース実装であるHadoop。

Hadoopの実行モードには以下の3つがあります。
  • スタンドアロンモード
  • 疑似分散モード
  • 完全分散モード

スタンドアロンモードはお試し動作。疑似分散モードは単一PC内でHadoopのプロセスが動作し、一通りの動作ができるモード(主にテスト用)そして、完全分散モードは複数ノードを使って分散処理をする本ちゃん用。

各モード毎に環境構築手順をメモ。というわけで、今回はスタンドアロンモード。
  1. まずはOSのインストール。新しめなLinuxであれば大抵動作すると思いますー。今回はCentOS使いました。手順は割愛。
  2. JDKをダウンロードしてインストール。手順は割愛。SunのJDKが推奨。
  3. Hadoopをダウンロードして、適当なところに配置。
  4. ダウンロードしたファイルを解凍する。
    # tar xvf hadoop-0.20.1.tar.gz
  5. 今回は/usr配下に配置。
    # mv hadoop-0.20.1 /usr
  6. 後々を考慮してシンボリックリンクを作成しておくといいかも(Hadoopのバージョンを上げたときにシンボリックリンクを作成し直すことで、Hadoopへのアクセス先パスが変わらないで済みそう)以降、/usr/hadoopをHADOOP_HOMEとします。
    # cd /usr
    # ln -s hadoop-0.20.1 hadoop
  7. HADOOP_HOME/conf/hadoop-env.shを編集してJAVA_HOMEを設定する。~/.bash_profileなどに定義しても動作するが、この方法だと完全分散モードで実行したときにエラーでうまく動かないです…。
  8. 以下のコマンドを実行してサンプルのプログラムを実行!
    # cd /usr/hadoop # bin/hadoop jar hadoop-0.20.1-examples.jar pi 10 1000
  9. うまく行けば円周率が算出されます。精度低いけど。
    Job Finished in 4.772 seconds Estimated value of Pi is 3.14080000000000000000

と今回はここまで。

Hadoopについての具体的なところは以下の本がおすすめ。
Hadoopの元になっているGoogleさんの技術(MapReduceとGFS)については↓が分かりやすい。データセンターの話とかも興味深い。

Googleを支える技術 ‾巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)

Googleを支える技術 ‾巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)

  • 作者: 西田 圭介
  • 出版社/メーカー: 技術評論社
  • 発売日: 2008/03/28
  • メディア: 単行本(ソフトカバー)


Hadoop自体の仕組みなどについてはこっち。手順系の話はあまりないけど、仕組みについて詳しく書いてある。

Hadoop

Hadoop

  • 作者: Tom White
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2010/01/25
  • メディア: 大型本



タグ:Hadoop
nice!(0)  コメント(0)  トラックバック(0) 
共通テーマ:パソコン・インターネット

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

torne再入荷Hadoop環境構築~その2~ ブログトップ

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。