原创 基於Spark的電影推薦系統(推薦系統~7)

第四部分-推薦系統-實時推薦 本模塊基於第4節得到的模型,開始爲用戶做實時推薦,推薦用戶最有可能喜愛的5部電影。 說明幾點 1.數據來源是 testData 測試集的數據。這裏面的用戶,可能存在於訓練集中,也可能是新用戶。因

原创 基於Spark的電影推薦系統(推薦系統~1)

第四部分-推薦系統-項目介紹 行業背景: 快速:Apache Spark以內存計算爲核心 通用 :一站式解決各個問題,ADHOC SQL查詢,流計算,數據挖掘,圖計算 完整的生態圈 只要掌握Spark,就能夠爲大多數的企業的大數據

原创 基於Spark的電影推薦系統(推薦系統~3)

第四部分-推薦系統-數據加工 本模塊基於第2節加載到 數據倉庫 裏的數據做進一步的加工,加工後的數據主要用於 模型訓練 。 前置準備 本節我採用Spark on Yarn 來跑作業 拓展:Hadoop YARN中內存的設置

原创 基於Spark的電影推薦系統(推薦系統~6)

第四部分-推薦系統-實時推薦之實時數據加工 把測試集(30%總數據)的數據 ,懟到 Kafka 消息隊列裏 前置準備 Kafka系列一之架構介紹和安裝 Kafka系列三之單節點多Broker部署 啓動Kafka [root

原创 Caused by: org.apache.kudu.client.NoLeaderFoundException

寫在前面 在我使用spark對接kudu的過程中,出現如下錯誤: Caused by: org.apache.kudu.client.NoLeaderFoundException: Master config (192.168.1

原创 MySQL binlog淺析

MySQL binlog 1.概要 MySQL 的二進制日誌binlog 可以說是MySQL最重要的日誌 它記錄了所有的DDL 和DML 語句(除了select) 以事件的形式記錄 還包含語句所執行所消耗的時間 其中MySQL 的

原创 統一元數據管理 【SpringBoot+Java+Scala】

項目開發流程 統一元數據管理的重要性 目前集羣上總的數據量是多少? 集羣上的每張表有幾個分區?每個分區所佔大小?每個分區有多少記錄? 每張表有哪些字段?哪些字段使用比較熱?熱表?熱字段? 表之間的血緣關係?表可能是從其餘錶轉換來

原创 mybatis-plus坑之insert方法

寫在前面 有天早上我的一個同事,突然跑來告訴我。我們某張表的自增ID變得很大。類似1173776258468638722 這種。這個當然是不能接受的啊。 着手解決 然後就開始找問題的原因,一開始我想的是數據庫上的問題,我刪掉不合理

原创 Kudu單機安裝 【很簡單】

0.下載rpm包 地址:http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.15.0/RPMS/x86_64 package: kudu-1.7.0+cdh5.15.0+

原创 有趣的隱式轉換【scala】

寫在前面 好久沒有更新文章了,今天簡單寫寫源於scala中比較有意思的隱式轉換。 在java中,我們如果需要爲某個特定的類新增一個方法,即:功能增強,大致有幾種方式: 繼承 裝飾器 代理(靜態動態) 那麼,在scala中,這個

原创 JVM Run-Time Data Areas & 參數相關

jvm定義了各個運行時數據區: Run-Time Data Areas 1)The pc Register 2)Java Virtual Machine Stacks 3)Heap 4)Method Area

原创 MySQL ==> Maxwell ==> Kafka ==> Spark

MySQL --> 中間件 maxwell 【json】 /canal --> Kafka --> ? -->存儲Hbase/kudu/Cassandra json --> DF 初始化的全量數據 怎麼刷?boots

原创 Spark Streaming 整合Kafka的 Offset 管理 【數據零丟失之 checkpoint 方式管理Offset】

import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.streaming.kafka.Kaf

原创 HBase 基本操作

HBase關鍵是Rowkey的設計 shell語句後不跟分號,這點與MySQL相反 /** * 基本操作: * hbase shell 進入hbase console命

原创 數據零丟失 + 僅一次消費數據【終極方案】

import java.sql.{DriverManager, ResultSet} import kafka.common.TopicAndPartition import kafka.message.MessageAndM