原创 Java系列:Cannot load JDBC driver class 'com.mysql.jdbc.Driver '

今天在搭建springmvc+spring+mybatis時遇到下面這個錯誤,感覺很詭異。 後來才發現是因爲我通過網頁複製粘貼代碼時'com.mysql.jdbc.Driver  '後面多了空格。 HTTP Status 500 - R

原创 Spark系列:Spark學習筆記

Spark 閱讀官方文檔 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overv

原创 SecureCRT開啓高亮

SecureCRT默認設置是沒有語法高亮的 更改設置如下: Options -> Session Options -> Emulation (Terminal) 其中Terminal選擇 【ANSI】,勾選【ANSI Color

原创 Hive 窗口函數(Windowing Functions)

窗口函數對點擊流處理,和類似的時間序列/滑動窗分析很有用。最近在做時間序列分析,希望趁這個機會對窗口函數有進一步深入的瞭解。 Lead & Lag Lead 和Lag是金融方面的術語,意思是提前和延期。 按照時間段統計時,有些

原创 XGBoost探索

XGBoost可以用來分類,迴歸,排序。 支持多種語言:C++, Python, R, Java, Scala, Julia。 安裝 參考https://xgboost.readthedocs.io/en/latest/buil

原创 深度學習-攢機小記

預算1w以內吧。 下面是英偉達DevBox的配置,可以作爲參考。 The DIGITS DevBox includes the following hardware and software: Four TITAN X GPU

原创 聊天機器人/對話生成

在這裏記錄一下聊天機器人方面的瞭解。算是一個Survey吧。 聊天機器人有兩種技術方向: 1. 基於檢索 2. 基於生成模型 術語 Generation based automatic chatting system Ne

原创 常用的評測指標

NDCG(Normalized Discounted Cumulative Gain): 維基百科寫的很清楚。 注意理解這四個詞。 Discounted:順序影響指標。 Normalized:消除文檔個數對指標的影響。

原创 Spark 線性迴歸模型異常

java.lang.AssertionError: assertion failed: lapack.dppsv returned 9. at scala.Predef$.assert(Predef.scala:179)

原创 推薦系統系列:商品關聯分析

商品關聯分析 關聯 relevance: 主要用在互聯網的內容和文檔上,比如搜索引擎算法文檔中之間的關聯性。 association: 用在實際的事物之上,比如電子商務網站上的商品之間的關聯度。 支持度(support):數據集中

原创 推薦系統系列(二):從零開始搭建基於向量的推薦策略

從零開始搭建基於向量的推薦策略背景架構離線Pipeline搭建用戶行爲日誌上報日誌存儲到數據倉庫數據預處理模型訓練構建項目索引在線服務用戶向量預測最近項目查找總結參考 背景 向量召回/語義向量召回是現在流行的一種推薦策略,簡單來說

原创 TensorFlow系列:添加正確率(accuracy)統計算子

我們在訓練分類模型時,需要輸出模型預測的正確率用以評估,下面的代碼片段可以實現這個功能。 # y_pred是模型的輸出值,取值在[0,1] # label是真實值,0或1 one = tf.ones_like(y_pred) ze

原创 推薦系統系列X:從零開始搭建基於向量的推薦策略

從零開始搭建基於向量的推薦策略背景架構離線Pipeline搭建用戶行爲日誌上報日誌存儲到數據倉庫數據預處理模型訓練構建項目索引在線服務用戶向量預測最近項目查找總結參考 背景 向量召回/語義向量召回是現在流行的一種推薦策略,簡單來說

原创 Spark拋出異常java.lang.ClassNotFoundException: scala.Any

背景 在寫一個ETL流程,先通過SQL讀取Hive數據,然後RDD進行轉換(map),再轉成DataFrame。提交任務後拋出以下異常。 20/04/20 12:14:08 ERROR ApplicationMaster: Use

原创 推薦系統系列(一):不到百行代碼實現基於Spark的ItemCF計算

推薦系統系列(一):不到百行代碼實現基於Spark的ItemCF計算引言數據準備相似度計算總結 引言 信息大爆炸的互聯網時代,推薦系統是幫助人們更高效獲取信息的手段之一。從淘寶天貓的商品推薦,到頭條的信息流推薦,再到短視頻推薦,推