Hadoop環境構築～その１～：のぼメモ(仮)：SSブログ

	ブログをはじめるログイン

Hadoop環境構築～その１～　[PC関連一般] [編集]

Googleの分散処理フレームワークのJavaによるオープンソース実装であるHadoop。

Hadoopの実行モードには以下の3つがあります。

スタンドアロンモードはお試し動作。疑似分散モードは単一PC内でHadoopのプロセスが動作し、一通りの動作ができるモード(主にテスト用)そして、完全分散モードは複数ノードを使って分散処理をする本ちゃん用。

各モード毎に環境構築手順をメモ。というわけで、今回はスタンドアロンモード。

まずはOSのインストール。新しめなLinuxであれば大抵動作すると思いますー。今回はCentOS使いました。手順は割愛。
JDKをダウンロードしてインストール。手順は割愛。SunのJDKが推奨。
Hadoopをダウンロードして、適当なところに配置。
ダウンロードしたファイルを解凍する。
# tar xvf hadoop-0.20.1.tar.gz
今回は/usr配下に配置。
# mv hadoop-0.20.1 /usr
後々を考慮してシンボリックリンクを作成しておくといいかも(Hadoopのバージョンを上げたときにシンボリックリンクを作成し直すことで、Hadoopへのアクセス先パスが変わらないで済みそう)以降、/usr/hadoopをHADOOP_HOMEとします。
# cd /usr
# ln -s hadoop-0.20.1 hadoop
HADOOP_HOME/conf/hadoop-env.shを編集してJAVA_HOMEを設定する。~/.bash_profileなどに定義しても動作するが、この方法だと完全分散モードで実行したときにエラーでうまく動かないです…。
以下のコマンドを実行してサンプルのプログラムを実行！
# cd /usr/hadoop # bin/hadoop jar hadoop-0.20.1-examples.jar pi 10 1000
うまく行けば円周率が算出されます。精度低いけど。
Job Finished in 4.772 seconds Estimated value of Pi is 3.14080000000000000000