原创 spark FPGrowth筆記

先上代碼: import org.apache.spark.ml.fpm.FPGrowth import spark.implicits._ val df=spark.sparkContext.makeRDD(Seq((1,Se

原创 GPU 版 TensorFlow 資源不足問題筆記

問題1:同時多個程序訓練、測試模型報錯如下 Caused by op 'MatMul', defined at:   File "F:/python/DeepFM/test/cs.py", line 214, in <module>   

原创 DL4J hello world

背景:之前嘗試TensorFlow訓練保存pb模型給到spark用,感覺還是性能太慢了;開始尋求在spark上跑深度學習的方法,權衡sparkNet和DL4J後選擇。 參考官網 https://deeplearning4j.org/cn

原创 spark環境問題記錄20200602

問題起因:winutils.exe和hadoop.dll導致,訪問本地hive失敗,報錯如下: Exception in thread "main" org.apache.spark.sql.AnalysisException: java

原创 sparksql筆記——explode/Row_Number/collect_list篇

1. org.apache.spark.ml.recommendation.ALS推薦出來的結果雖然是排序了的,但是沒有排序號;想知道推薦成功與推薦排名的關係需要自己加上Row_Number,方法如下: val recDF=spark.s

原创 Scala、spark版本錯亂問題記錄

表現1: Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.$conforms()Lscala/Predef$$less 表現2: NoSuchMe

原创 idea工程複製後問題(依賴缺失)記錄

環境:win7 cdh5.0.0 spark1.4.0   問題一:編譯後運行報錯:錯誤: 找不到或無法加載主類 main.test 再看run - edit config.... 裏面對應的有:Warning: Class 'main.

原创 spark ALS源碼餘弦向量問題分析

訓練迭代求解部分暫未研究,本次只分析推薦計算得分排序部分,即主要的推薦函數recommendForAll,先看代碼(紅色是源碼計算得分,藍色是我改的計算得分方式,注BLAS.f2jBLAS是private的用不了,退一步用了blas.s

原创 spark(Scala)默認CSV文件格式與python pandas 差異記錄

一. spark中的寫CSV: 方式一: val saveOptions = Map("header" -> "true", "path" -> "file:///F:/test.csv") df.repartition(1) .w

原创 deepFM詳解之FM

主體轉自:https://blog.csdn.net/baymax_007/article/details/83931698,豆沙綠部分爲個人認爲需注意修改的。 背景: 相關的文章網上一傳十十傳百且質量良莠不齊,對於初學者晦澀難懂;我在前

原创 TensorFlow實現deepFM筆記

問題1: TensorFlow中pb二進制模型複用時變量(偏置項等)覆蓋;如feature_embeddings = tf.Variable( tf.random_normal([3, 2], 0.0, 0.01), name='fea

原创 redis讀取異常依賴衝突異常

環境: win10 64 bit idea 2018.3 redis3.0.0 (win10版本) java.lang.NoSuchMethodError: redis.clients.jedis.ScanResult.getString

原创 ALS推薦算法在Spark上的優化--從50分鐘到3分鐘

轉自:https://blog.csdn.net/butterluo/article/details/48271361/ 擴展類ExtMatrixFactorizationModelHelper地址:https://github.

原创 Win10+pycharm+Python3.7+Tensorflow安裝

步驟: 一. Python環境搭建: Python官網下載Python3.7.2壓縮包ZIP解壓安裝Python3;再安裝pip: curl https://bootstrap.pypa.io/get-pip.py -o get-pip.

原创 spark2.4 ML聚類數據源結構問題

問題:ML使用的數據源要求向量features格式必須是nullable=false,比如這樣: StructType(StructField(id,IntegerType,false), StructField(features,Arr