原创 Scala-對象、Case Class和Trait

對象Object 是一個類類型,只能有不超過1個實例,是“單例對象”。 不能用new創建,只需要按名直接訪問。 首次訪問時在當前JVM中自動實例化,也就是說在首次訪問前,它並不會實例化。 對象可以擴展另一個類,不過反之不成立。

原创 Scala-類

類(Classes) 是面嚮對象語言的核心。 是數據結構和函數(“方法”)的組合。 java.lang.Object類是JVM中所有實例的根,包括Scala,實際上等價於Scala根類型Any。 類參數可以用來初始化字段的值,或

原创 Spark調優技巧總結

Spark 調優 避免創建重複RDD 同一份數據只創建一個RDD 避免重複計算 儘量複用同一個RDD 數據存在包含關係或者重複的情況下儘量複用RDD 避免重複計算 對多次使用的RDD進行持久化 由於RDD是惰性計算,執行

原创 Factorization Machines ---- FM模型論文閱讀筆記及相關推導

Introduction 在類似協同過濾的場景下,SVM的作用不如一些如PARAFA等直接進行矩陣因子分解的模型。 Why: 因爲在含有大量稀疏數據的場景下,SVM不能從複雜的核空間中學到可靠的超平面。 FM的優點: 能在高維稀

原创 在Spark Streaming中使用Hbase進行lookup實時讀取

翻譯自:HBase lookup in Spark Streaming 簡介 在Spark Streaming應用中,HBase可用於處理流式數據過程中每個Batch進行lookup數據的高速緩存(即在Spark中對Hbase做實

原创 Wide & Deep論文閱讀筆記

Introduction Memorization記憶能力(Wide): 可以簡單定義爲學習item和features的共同出現頻率以及在歷史數據中的協同關係。 Generalization泛化能力(Deep): 可以簡單認爲是基