原创 Oozie提交作業總結

命令行方式 最常用的就是通過命令行方式提交,見YARN和HDFS的調用方式彙總中的“使用oozie提交yarn作業環節。 REST方式 使用REST的方式顯然更通用,當然原理與上述完全一致。 步驟1–創建工作空間目錄 首先在H

原创 linux命令實現詞頻統計

問題 給定示例文件test.txt如下,對第一列做詞頻統計並排序 。 hello marry max thread hello lihua max apple max code nasa connection 解答 切割->

原创 linux環境下Markdown編輯器彙總

Markdown編輯器彙總(Fedora21) 1.gedit gedit支持markdown語法高亮,不過不支持預覽結果,gedit界面如附錄圖1所示。 2. vim 在vim中寫markdown,首先安裝語法高亮的插件--

原创 markdown轉爲html及pdf

markdown轉爲html markdown轉html比較容易些,有很多方法都可以做到。 1. 通過markdown編輯器導出 linux下常用的markdown編輯器有retext,haroopad等,這些軟件都支持自定義

原创 GP索引調優測試--基本篇

簡介 測試數據生成 無索引測試 測試1查找特定數據 測試2查找特定範圍的語句 測試3排序測試 有索引測試 測試4查找特定數據 測試5查找特定範圍的語句 測試6排序測試 總結 簡介 以下是一些基本的,以體現索

原创 Linux下端口占用查看

相關命令 查看端口是否被佔用: 通過過濾查看:netstat -anp | grep port 查看特定端口:lsof -i:port 查看端口被哪個進程佔用: netstat -anp | grep port或lsof

原创 搭建Spark開發環境的幾種方式及入門示例

命令行運行 參見如何在CDH5上運行Spark應用 ,在終端就可以完成一個Spark程序的編寫及運行。 IDE篇 Eclipse 參見 Eclipse安裝Scala插件 。 TODO:補充運行截圖。 Idea 參考Inte

原创 數據庫中查找包含換行符的記錄

回車換行簡介 不同系統的行結尾符號並不同,如下: linux/unix下的行結尾符號是\n。 windows中的行結尾符號是\r\n, Mac系統下的行結尾符號是\r。 其中: 回車符:\r=0x0d (13)

原创 Greenplum優化--數據庫配置篇

GP數據庫參數配置 以下配置存於文件–postgresql.conf中,僅列出一些最常用的參數。 shared_buffers:剛開始可以設置一個較小的值,比如總內存的15%,然後逐漸增加,過程中監控性能提升和swap的情況。

原创 向數據庫中插入特殊符號測試

簡介 測試環境 測試準備創建測試表 開始測試 測試1 測試2 簡介 由 數據庫中查找包含換行符的記錄 引出的一個問題是,既然數據庫中存在某些記錄包含了換行符,那麼這些特殊符號當初是怎麼插進來的?以下就是一些相關

原创 Tomcat部署應用總結

待添加 tomcat的8005端口(控制檯)啓動比較慢。8080端口啓動比較早。有的應用啓動也比較慢,需耐心等待,不要以爲出錯。 點贊 1 收藏 分享 文章舉報 asi

原创 Greenplum優化--系統配置篇

目錄 硬件選型 服務器系統參數配置 備份節點分配技巧 參考 硬件選型 操作系統:不支持Windows,支持以下類UNIX操作系統,首選 RHEL 6。 SUSE Linux SLES 10.2 or higher; C

原创 HUE3.10本地安裝

HUE安裝概覽 HUE安裝的方式基本有三種, CDH中集成(直接在CM Server中添加該服務即可) Docker中快速體驗,見使用Docker安裝HUE 本地手動安裝,需要自己配置,比較麻煩,但可以嘗試最新版,並且比較穩

原创 解決Sqoop傳輸數據過程中的字段數異常

問題描述 在使用Sqoop將數據表導入到HDFS,再將HDFS的表文件導出時,往往會出現無法解析xxx值的錯誤,這種情況往往是該行的字段數異常(多或少)導致。 解決方案 寫個簡單的程序,將字段數異常的行找出來。 測試數據 1

原创 GP索引調優測試--排序篇

簡介 測試環境 PostgreSQL環境測試 無索引 有索引 有無索引的比較 GP環境測試 無索引 有索引 結論 簡介 在PostgreSQL及GP集羣上分別進行索引調優的測試,重點研究索引對排序查詢的影