台部落留歌36

第四部分-推薦系統-實時推薦本模塊基於第4節得到的模型，開始爲用戶做實時推薦，推薦用戶最有可能喜愛的5部電影。說明幾點 1.數據來源是 testData 測試集的數據。這裏面的用戶，可能存在於訓練集中，也可能是新用戶。因

2019-10-25 23:54:35

第四部分-推薦系統-項目介紹行業背景：快速：Apache Spark以內存計算爲核心通用：一站式解決各個問題，ADHOC SQL查詢，流計算，數據挖掘，圖計算完整的生態圈只要掌握Spark,就能夠爲大多數的企業的大數據

2019-10-25 23:54:35

第四部分-推薦系統-數據加工本模塊基於第2節加載到數據倉庫裏的數據做進一步的加工，加工後的數據主要用於模型訓練。前置準備本節我採用Spark on Yarn 來跑作業拓展：Hadoop YARN中內存的設置

2019-10-25 23:54:35

第四部分-推薦系統-實時推薦之實時數據加工把測試集（30%總數據）的數據，懟到 Kafka 消息隊列裏前置準備 Kafka系列一之架構介紹和安裝 Kafka系列三之單節點多Broker部署啓動Kafka [root

2019-10-25 23:54:34

寫在前面在我使用spark對接kudu的過程中，出現如下錯誤： Caused by: org.apache.kudu.client.NoLeaderFoundException: Master config (192.168.1

2019-09-26 22:33:41

MySQL binlog 1.概要 MySQL 的二進制日誌binlog 可以說是MySQL最重要的日誌它記錄了所有的DDL 和DML 語句（除了select）以事件的形式記錄還包含語句所執行所消耗的時間其中MySQL 的

2019-09-26 22:33:20

項目開發流程統一元數據管理的重要性目前集羣上總的數據量是多少？集羣上的每張表有幾個分區？每個分區所佔大小？每個分區有多少記錄？每張表有哪些字段？哪些字段使用比較熱？熱表？熱字段？表之間的血緣關係？表可能是從其餘錶轉換來

2019-09-26 22:33:10

寫在前面有天早上我的一個同事，突然跑來告訴我。我們某張表的自增ID變得很大。類似1173776258468638722 這種。這個當然是不能接受的啊。着手解決然後就開始找問題的原因，一開始我想的是數據庫上的問題，我刪掉不合理

2019-09-26 22:33:10

0.下載rpm包地址：http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.15.0/RPMS/x86_64 package： kudu-1.7.0+cdh5.15.0+

2019-09-26 22:33:10

寫在前面好久沒有更新文章了，今天簡單寫寫源於scala中比較有意思的隱式轉換。在java中，我們如果需要爲某個特定的類新增一個方法，即：功能增強，大致有幾種方式：繼承裝飾器代理（靜態動態）那麼，在scala中，這個

2019-09-16 22:38:14

jvm定義了各個運行時數據區： Run-Time Data Areas 1）The pc Register 2）Java Virtual Machine Stacks 3）Heap 4）Method Area

2019-09-07 02:47:06

MySQL --> 中間件 maxwell 【json】 /canal --> Kafka --> ? -->存儲Hbase/kudu/Cassandra json --> DF 初始化的全量數據怎麼刷？boots

2019-08-29 04:23:21

import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.streaming.kafka.Kaf

2019-08-22 21:57:55

HBase關鍵是Rowkey的設計 shell語句後不跟分號，這點與MySQL相反 /** * 基本操作： * hbase shell 進入hbase console命

2019-08-22 21:57:55

import java.sql.{DriverManager, ResultSet} import kafka.common.TopicAndPartition import kafka.message.MessageAndM

2019-08-22 21:57:55