Hadoop環境構築~その1~ [PC関連一般]
Googleの分散処理フレームワークのJavaによるオープンソース実装であるHadoop。
Hadoopの実行モードには以下の3つがあります。
スタンドアロンモードはお試し動作。疑似分散モードは単一PC内でHadoopのプロセスが動作し、一通りの動作ができるモード(主にテスト用)そして、完全分散モードは複数ノードを使って分散処理をする本ちゃん用。
各モード毎に環境構築手順をメモ。というわけで、今回はスタンドアロンモード。
と今回はここまで。
Hadoopについての具体的なところは以下の本がおすすめ。
Hadoopの元になっているGoogleさんの技術(MapReduceとGFS)については↓が分かりやすい。データセンターの話とかも興味深い。
Hadoop自体の仕組みなどについてはこっち。手順系の話はあまりないけど、仕組みについて詳しく書いてある。
Hadoopの実行モードには以下の3つがあります。
- スタンドアロンモード
- 疑似分散モード
- 完全分散モード
スタンドアロンモードはお試し動作。疑似分散モードは単一PC内でHadoopのプロセスが動作し、一通りの動作ができるモード(主にテスト用)そして、完全分散モードは複数ノードを使って分散処理をする本ちゃん用。
各モード毎に環境構築手順をメモ。というわけで、今回はスタンドアロンモード。
- まずはOSのインストール。新しめなLinuxであれば大抵動作すると思いますー。今回はCentOS使いました。手順は割愛。
- JDKをダウンロードしてインストール。手順は割愛。SunのJDKが推奨。
- Hadoopをダウンロードして、適当なところに配置。
- ダウンロードしたファイルを解凍する。
# tar xvf hadoop-0.20.1.tar.gz
- 今回は/usr配下に配置。
# mv hadoop-0.20.1 /usr
- 後々を考慮してシンボリックリンクを作成しておくといいかも(Hadoopのバージョンを上げたときにシンボリックリンクを作成し直すことで、Hadoopへのアクセス先パスが変わらないで済みそう)以降、/usr/hadoopをHADOOP_HOMEとします。
# cd /usr
# ln -s hadoop-0.20.1 hadoop - HADOOP_HOME/conf/hadoop-env.shを編集してJAVA_HOMEを設定する。~/.bash_profileなどに定義しても動作するが、この方法だと完全分散モードで実行したときにエラーでうまく動かないです…。
- 以下のコマンドを実行してサンプルのプログラムを実行!
# cd /usr/hadoop # bin/hadoop jar hadoop-0.20.1-examples.jar pi 10 1000
- うまく行けば円周率が算出されます。精度低いけど。
Job Finished in 4.772 seconds Estimated value of Pi is 3.14080000000000000000
と今回はここまで。
Hadoopについての具体的なところは以下の本がおすすめ。
Hadoopの元になっているGoogleさんの技術(MapReduceとGFS)については↓が分かりやすい。データセンターの話とかも興味深い。
Googleを支える技術 ‾巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)
- 作者: 西田 圭介
- 出版社/メーカー: 技術評論社
- 発売日: 2008/03/28
- メディア: 単行本(ソフトカバー)
Hadoop自体の仕組みなどについてはこっち。手順系の話はあまりないけど、仕組みについて詳しく書いてある。
タグ:Hadoop
コメント 0