原创 hadoop系列: spark 訪問hive表報錯

spark訪問hive表: 在spark/conf目錄下:引入hive配置文件 ln -sf /soft/hive/conf/hive-site.xml /soft/spark/conf/ 錯誤1: Hive Schema vers

原创 redis: 初步使用&集羣搭建

redis命令行 idea 讀寫redis redis集羣搭建 下載redis最新版,中文官網 http://www.redis.cn/download.html wget http://download.redis.io/rel

原创 樸素貝葉斯分類: 使用案例

1, 全概率公式: 2, 貝葉斯公式: 3,樸素貝葉斯分類器: 定義: 1,設 x= {a1, a2, a3…, am } 爲一個待分類項,而每個a爲x的一個特徵屬性。 2,有類別集合:C ={ y1, y2, y3 …, y

原创 推薦算法:基於物品的協同過濾算法

參考《推薦系統實踐》項亮 概念: 基於物品的協同過濾算法,優化算法 對比:用戶協同過濾的優缺點 python編碼實現 1,算法定義 基於用戶的協同過濾算法 基於商品的協同過濾算法 適用場景 時效性較強,用戶個性化興

原创 推薦算法: 基於用戶的協同過濾算法

參考《推薦系統實踐》項亮 概念: 協同過濾算法 在一個在線個性化推薦系統中,當一個用戶 A 需要個性化推薦 時,可以先找到和他有相似興趣的其他用戶,然後把那些用戶喜歡的、而用戶 A 沒有聽說過的物品推薦給 A 概念:協同過濾算法

原创 linux常用命令

定時任務執行:crontab -e 編輯任務 1, crontab命令: 定時任務管理 crontab -e : 此命令會打開一個定時任務管理文件,格式爲 #每天23:00 定時關機 分 時 天 月 周幾 具體命令 0

原创 hadoop初步介紹:hdfs分佈存儲+ mr分佈計算

hdfs 和RDBMS區別 mr 和 網格計算,志願計算 1,數據存儲 磁盤存儲 解決分佈式問題 硬件需求 系統瓶頸 hdfs 磁盤陣列-集羣 硬件故障,多數據源的數據準確性 普通機 數據傳輸:硬盤帶寬 RDB

原创 spark的shell腳本分析

bin目錄: { spark-shell , spark-sql } --> spark-submit–> spark-class sbin目錄: part1: bin目錄 spark-shell function main()

原创 yarn: 資源調度機制

參考書籍《深入理解mapreduce架構設計與實現原理》 yarn: 各組件的通信協議 理解yarn工作流程: yarn–>appMaster–>管理job part1:yarn內部通信協議 part2: yarn啓動appMa

原创 spark: rdd的應用(scala api)

wordcount: 統計詞頻, 排序 歷年溫度最值: max, min, avg part1: spark rdd 之 wordcount spark-shell //word.txt var file="/home/wang/

原创 spark: rdd的應用(java api)

wordcount: 統計詞頻, 排序 (jdk7, jdk8-lambda表達式) 歷年溫度最值: max, min, avg <!--maven依賴 --> <dependency> <groupId

原创 scala集合類型: map-reduce

scala複雜數據類型的基本使用 類,對象,函數: class,object, def … scala集合:模擬map-reduce part1: scala 數組/集合基礎 Array List,Set Map Tup

原创 linux: shell腳本日常功夫2

hadoop集羣管理腳本: diy-ssh.sh==> ssh免密登錄 diy-syn.sh==> 同步節點配置文件 diy-op.sh==> jps查看進程, 更新時間日期 diy-kill.sh==> 殺死某進程,如

原创 linux: shell腳本日常功夫

條件判斷: 布爾值,非空 常用小腳本 part1: shell中的條件判斷 條件並列判斷 #!/bin/bash if [ 1 -gt 2 ] && [ 1 -gt 0 ] #if [ 1 -gt 2 ] || [ 1 -gt

原创 hadoop系列: hive優化篇

hive優化: 表設計, mr作業 linux系統下, 在用戶當前目錄創建配置文件~/.hiverc, 加入配置參數 #顯示頭,db: set hive.cli.print.current.db=true ; set hive