Hadoop

大量のデータを扱ってみたいというのがあったので流行りのHadoop触ってみた。
とりあえずMapReduceのJava実装Apache Hadoopを使ってみた (1/3):いま再注目の分散処理技術(後編) - @ITを参考にローカル環境にインストールしてみた。

$ cd hadoop
$ mkdir input
$ cp conf/*.xml input/
$ bin/hadoop jar hadoop-0.18.0-examples.jar wordcount input output.wordcount
$ bin/hadoop jar hadoop-0.18.0-examples.jar grep input output.grep 'dfs[a-z.]+'

ここでエラーが出て少しつまった。
Hadoopはデータを扱うときにHDFS上で処理するらしい。
なのでローカルにあるフォルダをHDFS上にコピーする必要があった。

cp conf/*.xml input/の後に

bin/hadoop dfs -copyFromLocal input input

と打つ必要があった。

ローカルだし、データも凄く少量だったから非常に遅かった。どれだけデータ数あれば早いって感じられるんだろ。他のシステム触ったことないからわからんな