在離線分析任務中,爲了在hadoop集羣上分佈式運行我們的程序,需要在eclipse環境中將需要運行的程序打好jar包,丟到服務器端,用hadoop jar xxx.jar <arg0> <arg1> ...... 命令來執行。
在eclipse打包有兩種打包形式:普通jar和runable jar
若使用runable jar打包,則是將所有與程序相關的依賴jar包全部打包進目標的jar中,若程序依賴的jar很多,打出的jar包會很大,不利於工程開發。
建議採用如下方法:
選擇打包成JAR File,打開如下對話框,在紅框處選擇需要打進包的源java文件。
然後在select the export destination 處設置好jar包的保存路徑,點擊next>>next
打開如下的對話框,並在紅框處選擇jar包運行的主類:
點擊Finish,完成打包,並將jar包丟到服務器上指定的目錄下。
在Linux環境下,進入jar包所在目錄(或在任意目錄使用絕對路徑訪問jar),使用hadoop jar XXX.jar 方式運行jar包(此時,請確保hadoop已經被加載到環境變量中)
運行時會出現如下錯誤信息:
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at Test.HtableCreate.main(HtableCreate.java:21)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606) at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
at org.apache.hadoop.util.RunJar.main(RunJar.java:136)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.HBaseConfiguration
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
at java.lang.ClassLoader.loadClass(ClassLoader.java:358) ... 7 more
爲什麼會不識別HBaseConfiguration類呢,因爲使用hadoop jar執行程序時,系統加載的是hadoop classpath中的jar包,而hbase並沒有出現在hadoop classpath中。
wangyanyan@bigdata-cnki:~$ hadoop classpath
/usr/local/hadoop/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/common/lib/*:/
usr/local/hadoop/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/hdfs
:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/hdfs/lib/*:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/
hdfs/*:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/yarn/lib/*:/usr/local/hadoop/hadoop-2.7.3/share/h
adoop/yarn/*:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/mapreduce/lib/*:/usr/local/hadoop/hadoop-2.
7.3/share/hadoop/mapreduce/*:/usr/local/hadoop/hadoop-2.7.3/contrib/capacity-scheduler/*.jar
wangyanyan@bigdata-cnki:~$
如果臨時使用環境變量可如下設置:
HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` ${HADOOP_HOME}/bin/hadoop jar ${HBASE_HOME}/lib/hbase-examples-VERSION.jar
如果永久生效可以在hadoop-env.sh中設置HADOOP_CLASSPATH,如下設置:
# Extra Java CLASSPATH elements. Automatically insert capacity-scheduler.
if [ -z $HBASE_HOME ];
then
export HADOOP_CLASSPATH=${HADOOP_CLASSPATH}
else
export HADOOP_CLASSPATH=${HADOOP_CLASSPATH}:${HBASE_HOME}/lib'/*'
fi
然後再次執行hadoop jar生效。