原创 calcite物化視圖詳解

概述 物化視圖和視圖類似,反映的是某個查詢的結果,但是和視圖僅保存SQL定義不同,物化視圖本身會存儲數據,因此是物化了的視圖。 當用戶查詢的時候,原先創建的物化視圖會註冊到優化器中,用戶的查詢命中物化視圖後,會直接去物化視圖拿數據(緩存),

原创 深入淺出線性迴歸算法(一)線性迴歸初步介紹

一.從線性迴歸的故事說起相信大家都聽過著名的博物學家,達爾文的大名,而今天這個故事的主人公就是他的表弟高爾頓。高爾頓是一名生理學家,在1995年的時候,他研究了1078對父子的身高,發現他們大致滿足一條公式,那就是Y=0.8567+0.

原创 用數據告訴你,《說好不哭》到底有多好

來了,來了,他來了。9月16日晚上,周杰倫新歌《說好不哭》上線,上線不到兩個小時,單曲數字版銷售額就突破一千萬。截止目前,單單QQ音樂平臺就已經出售772萬張,以單張3塊錢的價格計算,《說好不哭》在QQ音樂平臺銷售額已達到2166萬,上

原创 java併發編程 --併發問題的根源及主要解決方法

文章目錄併發問題的根源在哪緩存導致的可見性線程切換帶來的原子性編譯器優化帶來的有序性主要解決辦法避免共享Immutability(不變性)管程及其他工具 併發問題的根源在哪 首先,我們要知道併發要解決的是什麼問題?併發要解決的是單

原创 【數據挖掘算法系列(一)】k-近鄰(KNN)算法

開言從本篇起,將開始我們的機器學習算法系列文章。機器學習算法的作用不言而喻,是數據挖掘的核心部分也是比較難的一部分。但是別擔心,跟着文章一步步來。現在網上有很多現有的機器學習框架,例如scikit-learn,很方便,直接調用就可以。那

原创 【Elasticsearch 探索之路】(五)搜索相關 Search-API

本節主要講解 Elasticsearch 的 搜索相關功能 Search-API,講解什麼是 URL Search 和 Request Body Search 的語法,對常用的語法都會一一進行詳細介紹。1.Search APISearc

原创 分佈式系統一致性問題與Raft算法(上)

最近在做MIT6.824的幾個實驗,真心覺得每一個做分佈式相關開發的程序員都應該去刷一遍(裂牆推薦),肯定能夠提高自己的技術認知水平,同時也非常感謝MIT能夠把這麼好的資源分享出來。 其中第二個實驗,就是要基於raft算法,實現一

原创 數據的存儲結構淺析LSM-Tree和B-tree

目錄順序存儲與哈希索引SSTable和LSM treeB-Tree存儲結構的比對小結 本篇主要討論的是不同存儲結構(主要是LSM-tree和B-tree),它們應對的不同場景,所採用的底層存儲結構,以及對應用以提升效率的索引。 所謂數據庫,

原创 Spark SQL源碼解析(五)SparkPlan準備和執行階段

Spark SQL原理解析前言: Spark SQL源碼剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源碼解析(二)Antlr4解析Sql並生成樹 Spark SQL源碼解析(三)Analysis階段分析 Spark

原创 Spark RPC框架源碼分析(三)Spark心跳機制分析

一.Spark心跳概述 前面兩節中介紹了Spark RPC的基本知識,以及深入剖析了Spark RPC中一些源碼的實現流程。 具體可以看這裏: Spark RPC框架源碼分析(二)運行時序 Spark RPC框架源碼分析(一)簡述 這一

原创 詳細解析kafka之kafka分區和副本

本篇主要介紹kafka的分區和副本,因爲這兩者是有些關聯的,所以就放在一起來講了,後面順便會給出一些對應的配置以及具體的實現代碼,以供參考~ 1.kafka分區機制 分區機制是kafka實現高吞吐的祕密武器,但這個武器用得不好的話

原创 分佈式系統一致性問題與Raft算法(下)

上一篇講述了什麼是分佈式一致性問題,以及它難在哪裏,liveness和satefy問題,和FLP impossibility定理。有興趣的童鞋可以看看分佈式系統一致性問題與Raft算法(上)。 這一節主要介紹raft算法是如何解決

原创 Scala函數式編程(四)函數式的數據結構 上

這次來說說函數式的數據結構是什麼樣子的,本章會先用一個list來舉例子說明,最後給出一個Tree數據結構的練習,放在公衆號裏面,練習裏面給出了基本的結構,但代碼是空缺的需要補上,此外還有預留的testcase可以驗證。 關注公衆號

原创 Scala函數式編程(四)函數式的數據結構 下

前情提要 Scala函數式編程指南(一) 函數式思想介紹 scala函數式編程(二) scala基礎語法介紹 Scala函數式編程(三) scala集合和函數 Scala函數式編程(四)函數式的數據結構 上 1.List代碼解析

原创 Python 深入淺出支持向量機(SVM)算法

相比於邏輯迴歸,在很多情況下,SVM算法能夠對數據計算從而產生更好的精度。而傳統的SVM只能適用於二分類操作,不過卻可以通過核技巧(核函數),使得SVM可以應用於多分類的任務中。 本篇文章只是介紹SVM的原理以及核技巧究竟是怎麼一