台部落As a layman

UDF: user defined function UDAF package com.bjsxt.scalaspark.sql.UDF_UDAF import org.apache.spark.sql.expressions

2020-06-16 11:55:05

Spark累加器 val rdd = sc.textFile... var i=0 val rdd2 = rdd1.map(one=>{ i+=1 one } rdd2.collect() println(*i=*+1)

2020-06-16 11:55:04

第二章利用用戶行爲數據利用用戶行爲數據啤酒和尿布的例子購買A商品的用戶都購買B商品協同過濾基於用戶行爲分析的推薦算法是個性化推薦系統的重要算法，學術界一般將這種類型的算法稱爲協同過濾算法。顧名思義，協同過濾就是指

2020-06-16 11:55:04

hive 參數 hive 參數，變量 hive當中的參數，變量，都是以命名空間開頭的通過 ${}方式進行引用，其中system,env 下的變量必須以前綴開頭 hive參數 hive 參數設置方式 1 修改配置文件

2020-06-16 11:55:04

分類準確度的問題一個癌症預測系統，輸入體檢信息，可以判斷是否有癌症：預測準確度：99.9% 如果某種癌症的產生的概率只有0.1% 我們的系統預測所有人都是健康的，即可達到99.9%的準確率、如果某種癌症的產生的概率只有0.0

2020-06-16 11:55:04

方法入門方法：將一個功能抽取出來，把代碼單獨定義在一個大括號中，形成一個單獨的功能當我們需要這個功能的時候，就可以去調用，這樣既實現了代碼的複用性，也解決了代碼的冗餘問題定義：修飾符返回值類型方法名 (參數) {

2020-06-16 11:55:04

《推薦系統實踐》讀書筆記前言推薦系統算法有很多，可以按照數據分成協同過濾、內容過濾、社會化過濾，也可以按照算法分成基於鄰域的算法、基於圖的算法、基於矩陣分解或者概率模型的算法。第一章好的推薦系統什麼是推薦系統

2020-06-16 11:55:04

方法 public static void 方法名稱() { 方法體; } 調用格式：方法名稱(); 注意事項：方法定義的先後順序無所謂；方法定義必須是挨着的，不能在一個方法的內部定義另一個方法方法定義之後，自己不會

2020-02-26 09:30:32

線性迴歸解決迴歸問題思想簡單，實現容易許多強大的非線性模型的基礎結果具由很好的可解釋性蘊含機器學習中的很多重要思想例如房屋價格（輸出標記）和麪積（樣本特徵）之間的關係簡單線性迴歸樣本特徵只有一個，稱爲簡單

2020-02-24 02:15:55

storm和 SparkStreaming的區別 Storm 是純實時處理數據, SparkStreaming 微批處理數據，可以通過控制間隔時間做到實時處理.sparkStreaming 相對於storm來說，吞吐量大 sto

2020-02-24 02:15:44

hbase簡介 hbase 是非關係型數據庫 hadoop database 是一個高可用，高性能，面向列的kv鍵值對，可伸縮，實時讀寫的分佈式數據庫利用hadoop hdfs 作爲其文件存儲系統，系統hadoop

2020-02-24 02:15:44

實現hive 中的 word count 我們的原始數據 hello world hi hi hell hadoop hive hbase spark hello hi 將數據上傳到 hdfs 中 /usr/ 目錄下 hdfs

2020-02-24 02:15:44

Spark 什麼是Spark Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapRe

2020-02-24 02:15:44

mapreduce的核心思想：分而治之大數據的趨勢：平臺化，可視化 hive的簡介 hive的產生非java編程者對hdfs的數據做MapReduce操作 hive簡介 hive :數據倉庫： ETL: 是英文Extr

2020-02-24 02:15:44

storm storm 是個實時的，分佈式以及具備高容錯的計算框架 storm進程常駐內存 storm數據不經過磁盤，在內存中處理官網架構： Nimbus 主節點 Supervisor 從節點 Worker 從

2020-02-24 02:15:44