原创 spark UDF,UDAF

UDF: user defined function UDAF package com.bjsxt.scalaspark.sql.UDF_UDAF import org.apache.spark.sql.expressions

原创 Spark 累加器

Spark累加器 val rdd = sc.textFile... var i=0 val rdd2 = rdd1.map(one=>{ i+=1 one } rdd2.collect() println(*i=*+1)

原创 《推薦系統實踐》讀書筆記 第二章

第二章 利用用戶行爲數據 利用用戶行爲數據 啤酒和尿布的例子 購買A商品的用戶都購買B商品 協同過濾 基於用戶行爲分析的推薦算法是個性化推薦系統的重要算法, 學術界一般將這種類型的算法稱爲協同過濾算法。顧名思義,協同過濾就是指

原创 hive(2)

hive 參數 hive 參數, 變量 hive當中的參數,變量,都是以命名空間開頭的 通過 ${}方式進行引用,其中system,env 下的變量必須以前綴開頭 hive參數 hive 參數設置方式 1 修改配置文件

原创 分類算法的評價: 混淆矩陣,ROC曲線,AUC面積

分類準確度的問題 一個癌症預測系統,輸入體檢信息,可以判斷是否有癌症: 預測準確度:99.9% 如果某種癌症的產生的概率只有0.1% 我們的系統預測所有人都是健康的,即可達到99.9%的準確率、 如果某種癌症的產生的概率只有0.0

原创 java -方法入門 流程

方法入門 方法: 將一個功能抽取出來,把代碼單獨定義在一個大括號中,形成一個單獨的功能 當我們需要這個功能的時候,就可以去調用,這樣既實現了代碼的複用性,也解決了代碼的冗餘問題 定義: 修飾符 返回值類型 方法名 (參數) {

原创 《推薦系統實踐》讀書筆記 第一章

《推薦系統實踐》讀書筆記 前言 推薦系統算法有很多, 可以按照數據分成協同過濾、內容過濾、社會化過濾, 也可以按照算法分成基於鄰域的算法、基於圖的算法、基於矩陣分解或者概率模型的算法。 第一章 好的推薦系統 什麼是推薦系統

原创 java - 方法

方法 public static void 方法名稱() { 方法體; } 調用格式: 方法名稱(); 注意事項: 方法定義的先後順序無所謂; 方法定義必須是挨着的,不能在一個方法的內部定義另一個方法 方法定義之後,自己不會

原创 線性迴歸,迴歸算法評估, 多元線性迴歸

線性迴歸 解決迴歸問題 思想簡單,實現容易 許多強大的非線性模型的基礎 結果具由很好的可解釋性 蘊含機器學習中的很多重要思想 例如 房屋價格(輸出標記)和麪積(樣本特徵)之間的關係 簡單線性迴歸 樣本特徵只有一個,稱爲 簡單

原创 SparkStreaming

storm和 SparkStreaming的區別 Storm 是純實時處理數據, SparkStreaming 微批處理數據,可以通過控制間隔時間做到實時處理.sparkStreaming 相對於storm來說,吞吐量大 sto

原创 Hbase

hbase簡介 ​​​​ hbase 是非關係型數據庫 hadoop database 是一個高可用,高性能,面向列的kv鍵值對,可伸縮,實時讀寫的分佈式數據庫 利用hadoop hdfs 作爲其文件存儲系統,系統hadoop

原创 hive 實現 wc

實現hive 中的 word count 我們的原始數據 hello world hi hi hell hadoop hive hbase spark hello hi 將數據上傳到 hdfs 中 /usr/ 目錄下 hdfs

原创 spark

Spark 什麼是Spark Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapRe

原创 Hive

mapreduce的核心思想:分而治之 大數據的趨勢:平臺化,可視化 hive的簡介 hive的產生 非java編程者對hdfs的數據做MapReduce操作 hive簡介 hive :數據倉庫: ETL: 是英文Extr

原创 Storm

storm storm 是個實時的,分佈式以及具備高容錯的計算框架 storm進程常駐內存 storm數據不經過磁盤,在內存中處理 官網 架構: Nimbus 主節點 Supervisor 從節點 Worker 從