原创 數據庫設計那些事兒

邏輯設計 一行數據中的每個屬性值都叫做分量 基於上面幾個實體。畫出他們的ER圖: 一對一 一對多 多對多 邏輯設計中使用的一些規範: 數據庫操作異常與數據冗餘 第一範式: 第二範式: 說白了,就是 聯合主鍵中

原创 枚舉實現單例模式

寫在前面 單例模式定義: 一個類 只能創建一個實例。 使用一個對象來做就不用實例化多個對象!這就能減少我們空間和內存的開銷~ 我們使用靜態類.doSomething()和使用單例對象調用方法的效果是一樣的啊。 沒錯,效果就是一樣的

原创 Docker 環境的各種搭建方法 (系統學習Docker02)

寫在前面 工慾善其事必先利其器 看官網:https://docs.docker.com/install/ Dcoker 在MAC Windows10 CentOS VartualBox Vagrant 之間能夠擦出什麼樣的火花呢?

原创 Linux Root 用戶無敵?

場景引入: [root@spark001 ~]# chmod 755 /etc/hosts chmod: changing permissions of ‘/etc/hosts’: Operation not permitted

原创 Docker 容器數據 持久化(系統學習Docker05)

寫在前面 本來是可以將數據存儲在 容器內部 的。但是存在容器內部,一旦容器被刪除掉或者容器毀壞(我親身經歷的痛,當時我們的大數據平臺就是運行在docker容器內,有次停電後,不管怎樣容器都起不來。以前的同事也沒有將數據映射到外面

原创 死磕Zeppelin~01 【編譯安裝】

1 Zeppelin 介紹 基於 Web網頁 進行 交互式的數據分析 的筆記本,有數據可視化功能。 支持多種語言,比如SQL,Scala等等 zeppelin —> 相當於一個paltform:可插拔式的安裝各個環境、組件進行數據

原创 初探數據平臺

1.Yarn 上面有哪幾種資源調度策略?並且如何配置? Hadoop規模來看 計算資源管理 1)Yarn 動態資源 2)Spark on Yarn 靜態資源調度 動態資源調度 Spark 作業一般跑在集羣資源好的機器上,一般好的

原创 希望一個數據同步,包治百病

原文鏈接:https://www.imooc.com/article/295278 寫在前面 數據同步 是一個髒活,而且是個高風險的活 大多數情況下,應用架構設計不好,引入什麼新存儲

原创 SpringBoot 項目腳手架

寫在前面 之前也一直很少有寫SpringBoot項目相關的文章,今天 準備整理一個我自己初始化SpringBoot項目時的一個腳手架,便於自己後面查閱。因爲SpringBoot的約定大於配置,在整合各個組件的時候,我們僅僅寫很少的

原创 輕量級性能測試工具 wrk

在完成一個接口開發後,在交給測試工程師之前,經常也會想知道,自己寫的這個接口的性能如何呢?吞吐量能達到多少?QPS(query-per-second 每秒處理完的請求數) 能達到多少呢? 常用的性能測試工具,如 Apache ab

原创 Kylin

public class KylinDemoApp { public static void main(String[] args) throws ClassNotFoundException, SQLException

原创 Flume自定義Interceptor

有的時候我們想要對Source的數據做自定義的一些修改操作。 我們主要是通過實現Interceptor 接口來達到我們的目的。 第一步: 我們先使用IDEA創建一個空的maven項目,然後添加一個flume依賴即可。 <d

原创 基於Spark的電影推薦系統(推薦系統~5)

第四部分-推薦系統-離線推薦 本模塊基於第4節得到的模型,開始爲用戶做離線推薦,推薦用戶最有可能喜愛的5部電影。 說明幾點 1.主要分爲兩個模塊。其一是爲 單個隨機用戶 做推薦,其二是爲 所有用戶做推薦,並將推薦結果進行保存

原创 做好以下四點,拒做 “ 空心 ” 程序員

原文鏈接:https://blog.csdn.net/z694644032/article/details/101105115 01、注重原理性知識 現在的互聯網環境下,注重原理性知識學

原创 基於Spark的電影推薦系統(推薦系統~2)

第四部分-推薦系統-數據ETL 本模塊完成數據清洗,並將清洗後的數據load到Hive數據表裏面去 前置準備: spark +hive vim $SPARK_HOME/conf/hive-site.xml <?xml v