原创 Spark ALS應用BLAS加速

文章目錄Spark ALS應用BLAS加速1. 環境2. 問題引入3. 參考:4. 思路:4.1 簡單測試:4.2 使用Native BLAS需要添加的Jar包方式1:在Intellij IDEA 中添加依賴找到方式2: 自行指定參數

原创 Spark Shell 啓動報NullPointerException(包含getZipEntry)

文章目錄Spark Shell 啓動NullPointerException提示getZipEntry1. 軟件版本:2. 問題描述:3. 問題解決思路4. 後續 Spark Shell 啓動NullPointerException提

原创 Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found

Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not foundClass org.datanucleus.api.jdo.JDOPersistenceM

原创 Spark 延遲30秒

Spark延遲30秒Spark延遲30秒1. 環境/版本/測試代碼1.1 使用軟件版本:1.2 集羣部署1.3 測試代碼2. 時間線3. 問題重述及分析 Spark延遲30秒 問題引出:問題來源於一次小的測試,在進行一個常規的讀取Hi

原创 Spark 常用編程技巧

Spark 常用編程技巧 文章目錄Spark 常用編程技巧1. 基礎篇1.1 Scala 篇1.2 Spark 篇2. 進階篇2.1 Spark篇Spark 常用編程技巧1. 基礎篇1.1 Scala 篇1.2 Spark 篇2. 進

原创 Java Web提交任務到Spark Standalone集羣並監控

Java Web提交任務到Spark Standalone集羣並監控 環境 工程下載路徑 Spark任務提交流程 問題及問題解決 後記 Java Web提交任務到Spark Standalone集羣並監控 1. 環境

原创 Oozie4.3.1各種Action及綜合實例

Oozie4.3.1各種Action及綜合實例 如果沒有編譯好Oozie,並部署到集羣,請參考:Build Oozie4.3.1 on Hadoop3.X及Hadoop生態圈Action調用(一) Oozie4.3.1各種Acti

原创 Build Oozie4.3.1 on Hadoop3.X及Hadoop生態圈Action調用(一)

Build Oozie4.3.1 on Hadoop3.X及Hadoop生態圈Action調用(一) Build Oozie4.3.1 on Hadoop3.X及Hadoop生態圈Action調用(一) 1. 需求: 2. 前期預研:

原创 Spark DataFrame vector 類型存儲到Hive表

Spark DataFrame vector 類型存儲到Hive表 Spark DataFrame vector 類型存儲到Hive表 軟件版本 場景描述 問題的迂迴解決方法 示例 1. 軟件版本 軟件 版本 S

原创 Spark應用HanLP對中文語料進行文本挖掘--聚類

軟件:IDEA2014、Maven、HanLP、JDK;用到的知識:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;用到的數據集:http://www.threedweb.cn/thr

原创 Spark ClassNotFoundException $$anonfun$2

Spark ClassNotFoundException $$anonfun$2 1. 軟件環境: 軟件 版本 Spark 原生1.6.0 Hadoop 原生2.6.5 2. 應用場景&問題描述 使用Java Web提

原创 Java連接Spark Standalone集羣

軟件環境:spark-1.6.3-bin-hadoop2.6、hadoop-2.6.4、jdk1.7.0_67、IDEA14.1.5 ;Hadoop集羣採用僞分佈式安裝,運行過程中只啓動HDFS;Spark只啓動一個Worker;使用虛擬

原创 Centos6安裝TensorFlow及TensorFlowOnSpark

1. 需求描述在Centos6系統上安裝Hadoop、Spark集羣,並使用TensorFlowOnSpark的 YARN運行模式下執行TensorFlow的代碼。(最好可以在不聯網的集羣中進行配置並運行)2. 系統環境(拓撲)操作系統:

原创 TensorFlowOnSpark stuck

問題描述:在使用TensorFlowOnSpark做測試的時候,發現任務,老是卡着並沒有實際的運行。解決方法:1. 由於我使用的是自編譯的TensorFlow,當時編譯的時候有一個enable HDFS,默認是false,所以再次編譯了一

原创 Matlab計算字符串相似度

運行環境:Matlab單純的計算字符串的相似度,並沒有計算詞性,如TF-IDF之類的;代碼如下:%計算字符串相似度 %一個source字符串通過插入、刪除、替換而變成target字符串的操作次數越少,則兩個字符串越相近。 function