原创 spark UDF,UDAF
UDF: user defined function UDAF package com.bjsxt.scalaspark.sql.UDF_UDAF import org.apache.spark.sql.expressions
原创 Spark 累加器
Spark累加器 val rdd = sc.textFile... var i=0 val rdd2 = rdd1.map(one=>{ i+=1 one } rdd2.collect() println(*i=*+1)
原创 《推薦系統實踐》讀書筆記 第二章
第二章 利用用戶行爲數據 利用用戶行爲數據 啤酒和尿布的例子 購買A商品的用戶都購買B商品 協同過濾 基於用戶行爲分析的推薦算法是個性化推薦系統的重要算法, 學術界一般將這種類型的算法稱爲協同過濾算法。顧名思義,協同過濾就是指
原创 hive(2)
hive 參數 hive 參數, 變量 hive當中的參數,變量,都是以命名空間開頭的 通過 ${}方式進行引用,其中system,env 下的變量必須以前綴開頭 hive參數 hive 參數設置方式 1 修改配置文件
原创 分類算法的評價: 混淆矩陣,ROC曲線,AUC面積
分類準確度的問題 一個癌症預測系統,輸入體檢信息,可以判斷是否有癌症: 預測準確度:99.9% 如果某種癌症的產生的概率只有0.1% 我們的系統預測所有人都是健康的,即可達到99.9%的準確率、 如果某種癌症的產生的概率只有0.0
原创 java -方法入門 流程
方法入門 方法: 將一個功能抽取出來,把代碼單獨定義在一個大括號中,形成一個單獨的功能 當我們需要這個功能的時候,就可以去調用,這樣既實現了代碼的複用性,也解決了代碼的冗餘問題 定義: 修飾符 返回值類型 方法名 (參數) {
原创 《推薦系統實踐》讀書筆記 第一章
《推薦系統實踐》讀書筆記 前言 推薦系統算法有很多, 可以按照數據分成協同過濾、內容過濾、社會化過濾, 也可以按照算法分成基於鄰域的算法、基於圖的算法、基於矩陣分解或者概率模型的算法。 第一章 好的推薦系統 什麼是推薦系統
原创 java - 方法
方法 public static void 方法名稱() { 方法體; } 調用格式: 方法名稱(); 注意事項: 方法定義的先後順序無所謂; 方法定義必須是挨着的,不能在一個方法的內部定義另一個方法 方法定義之後,自己不會
原创 線性迴歸,迴歸算法評估, 多元線性迴歸
線性迴歸 解決迴歸問題 思想簡單,實現容易 許多強大的非線性模型的基礎 結果具由很好的可解釋性 蘊含機器學習中的很多重要思想 例如 房屋價格(輸出標記)和麪積(樣本特徵)之間的關係 簡單線性迴歸 樣本特徵只有一個,稱爲 簡單
原创 SparkStreaming
storm和 SparkStreaming的區別 Storm 是純實時處理數據, SparkStreaming 微批處理數據,可以通過控制間隔時間做到實時處理.sparkStreaming 相對於storm來說,吞吐量大 sto
原创 Hbase
hbase簡介 hbase 是非關係型數據庫 hadoop database 是一個高可用,高性能,面向列的kv鍵值對,可伸縮,實時讀寫的分佈式數據庫 利用hadoop hdfs 作爲其文件存儲系統,系統hadoop
原创 hive 實現 wc
實現hive 中的 word count 我們的原始數據 hello world hi hi hell hadoop hive hbase spark hello hi 將數據上傳到 hdfs 中 /usr/ 目錄下 hdfs
原创 spark
Spark 什麼是Spark Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapRe
原创 Hive
mapreduce的核心思想:分而治之 大數據的趨勢:平臺化,可視化 hive的簡介 hive的產生 非java編程者對hdfs的數據做MapReduce操作 hive簡介 hive :數據倉庫: ETL: 是英文Extr
原创 Storm
storm storm 是個實時的,分佈式以及具備高容錯的計算框架 storm進程常駐內存 storm數據不經過磁盤,在內存中處理 官網 架構: Nimbus 主節點 Supervisor 從節點 Worker 從