原创 關於遠程主機的數據傳輸

說明 常用的傳輸數據的方式 scp ftp sftp rz命令 場景 場景1遠程外網 場景2 遠程內網 場景3 跳板主機外網遠程內網 附註 參考 說明 經常需要向遠程主機傳文件,實際情況中要考慮到多種

原创 Java中錯誤記錄

錯誤1—int cannot be converted to long 執行如下java代碼,想通過強制類型轉換將int轉爲long時,報錯:int cannot be converted to long。 int a = 80;

原创 PostgreSQL生成測試數據

創建測試表 CREATE TABLE test ( id integer, test integer ) WITH ( OIDS=FALSE ); ALTER TABLE test OWNER TO postgr

原创 Jupyter配置Spark開發環境

效果圖 簡介 Spark Kernel的安裝 Spark Kernel舊的項目 Toree新項目 Spark組件單獨安裝 Scala Kernel的安裝 PySpark的安裝 效果圖 無圖無真相,以下是運

原创 PostgreSQL中的注意點

注意點1 在pgAdmin中,有些數據表的內容可以編輯,某些卻不可以。發現如果表不設置主鍵的話是沒法編輯的,只有設置主鍵後纔可以雙擊編輯。 注意點2 使用命令pg_ctl -D /var/lib/pgsql/data -l l

原创 使用Solr完成自動補全(續)

說明–關於短語補全 使用Solr完成自動補全 主要介紹的是關鍵字補全。 實際上將下面的設置, <field name="suggestion" type="text_spell" indexed="true"

原创 Solr安裝及使用示例

Solr安裝 初始化collection 爲數據創建索引 運行查詢 附加 錯誤解決 其它 翻譯自Validating the Deployment with the Solr REST API,在CDH集羣上進行如

原创 圖解linux鏈接

圖解linux鏈接 說明:基於f1,分別爲其創建軟硬鏈接f3、f2(使用到了ln命令),如下。 分析 ln命令默認產生硬鏈接 f1刪除後索引節點並不會刪除,因爲還有f2指向它,若所有指向索引節點的硬鏈接均刪除,索引節點纔會

原创 Solr中的注意點

注意點1–注意重啓 當修改了配置文件後,一定要重啓Solr才能生效; 自動補全時,插入新數據後,一定要重新build,即勾選“spellcheck”及下面的“spellcheck.build”並執行即可,此時會對所有數據更新i

原创 使用Solr完成自動補全

操作流程 創建目錄 產生collection所需的配置文件 修改配置文件中的shemaxml和solrconfigxml 1 修改solrconfigxml 2 修改schemaxml 上傳配置目錄到ZooKeeper

原创 Solr導入CSV文件

數據準備 首先得準備好一份csv文件,這份文件可以是手動生成,也可以是從數據庫中導出來的。參見PostgreSQL導入導出數據 ,將Postgres中的表導出爲csv文件。 數據上傳 上傳csv文件示例, curl http:

原创 Spark的Notebook工具彙總

工具彙總 當前Spark的Notebook工具主要有四個, Jupyter: 安裝: Jupyter配置Spark開發環境 Zeppelin 安裝:Spark Interpreter for Apache Zeppeli

原创 GP索引調優測試--原理篇

說明 原理 解釋 附錄 查詢大量特定數據 排序大量數據 說明 之前對Postgres/GP的索引測試見GP索引調優測試–基本篇.md和GP索引調優測試–排序篇,此文給出原理解釋。 原理 建議先閱讀“深入理解

原创 PostgreSQL問題解決--連接數過多

錯誤描述 用pgAdmin連接數據庫時,提示 Connection could not be allocated because: FATAL: sorry, too many clients already 通用解決步驟 來

原创 HUE提交MapReduce作業示例

說明 操作步驟 步驟1新建MapReduce的action 步驟2填寫配置  步驟3提交作業 說明 因爲HUE也是通過Oozie的REST提交作業,故看過Oozie提交作業總結後,在HUE中提交作業變得相當簡