準備工作 Linux運行STREAMSET必須要有jdk的支持,jdk安裝可以參考(https://blog.csdn.net/zxb730916/article/details/80899429)這個博主把jdk安裝配置講的十分詳細,十分感謝
第一步 下載STREAMSETS
STREAMSETS下載地址:https://streamsets.com/opensource/
我下載的是Data Collector的Full Tarball版本,寫本文時爲了省時間我用的以前下好的壓縮包(約5GB),並沒下載最新的版本
我使用WinSCP將壓縮包傳到阿里雲服務器的root文件夾下,WinSCP的連接方參考(https://blog.csdn.net/jinxlzc/article/details/89459682)
進入到root目錄然後輸入如下命令解壓壓縮包
tar xvzf streamsets-datacollector-all-3.7.2.tgz
解壓完畢後輸入如下命令運行StreamSets
root/streamsets-datacollector-3.7.2/bin/streamsets dc
我在運行可執行文件的時候還報了java.net.UnknownHostException: XXXX Name or service not known最後參照這篇博客解決了(https://blog.csdn.net/u012965373/article/details/51781367)
此外很有可能報 open file limit 的問題,解決方法是在配置文件:/etc/security/limits.conf 中添加如下內容後重啓即可
* soft nofile 102400
* hard nofile 102400
啓動成功後返回阿里雲控制檯開放端口號18630
然後輸入 地址:18630 就可以成功訪問了,默認的賬戶名密碼都是admin
https://streamsets.com/documentation/datacollector/latest/help/index.html
上面的鏈接是StreamSets的官方用戶指南,本文也只不過是用戶指南的一次實現,由於StreamSets屬於比較新,國內經驗資源比較少的一種數據工具,我也是邊摸索邊使用的,歡迎大家與我交流經驗,指正我的錯誤