原创 MySQL和PostgreSQL在多表連接算法上的差異

參考文章:MySQL和PostgreSQL在多表連接算法上的差異 我們知道mysql沒有hash join,也沒有merge join,所以在連接的時候只有一種算法nest loop join,nl join使用驅動表的結果集作爲外表到內

原创 spark標籤計算及用戶畫像應用

參考文章:Spark(二)—— 標籤計算、用戶畫像應用 一、標籤計算 數據 86913510 {"reviewPics":[],"extInfoList":null,"expenseList":null,"reviewIndexes":

原创 MySQL 四種事務隔離級別詳解介紹

參考文章:面試問爛的 MySQL 四種隔離級別,看完吊打面試官! 什麼是事務 事務是應用程序中一系列嚴密的操作,所有操作必須成功完成,否則在每個操作中所作的所有更改都會被撤消。也就是事務具有原子性,一個事務中的一系列的操作要麼全部成功,要

原创 Linux批量添加或修改文件後綴名稱

1. 當前及其子目錄下的文件添加後綴.old find . -type f | awk -F "." '{print $2}' | xargs -i -t mv ./{} ./{}.old 2. 將當前及其子目錄下".old"的文件的後

原创 MySQL 四種事務隔離級別詳解介紹(二)

參考文章:MySQL 四種事務隔離級別詳解介紹 事務特性ACID中,隔離性最爲複雜,它指的是事務與事務之間不會互相影響,一個事務的中間狀態不會被其他事務感知。事務的隔離性由低到高分爲:Read uncommitted 、Read comm

原创 SQLite、MySQL與PostgreSQL三個關係數據庫的比較

參考文章:SQLite、MySQL與PostgreSQL三個關係數據庫的比較 關係數據庫管理系統(RDBMS)是世界上使用最廣泛的數據庫管理系統之一。基於Edgar F. Codd發明的關係模型,這些數據庫以表格的形式存儲數據,並允許通過

原创 mysql的索引底層原理詳解

參考文章:mysql的索引底層原理 什麼是索引 概念:索引是提高mysql查詢效率的數據結構。總的一句話概括就是索引是一種數據結構。 數據庫查詢是數據庫的最主要功能之一。設計者們都希望查詢數據的速度能儘可能的快,因此數據庫系統的設計者

原创 Spark2.x RPC解析

參考文章:Spark2.x RPC解析 1、概述 在Spark中很多地方都涉及網絡通信,比如Spark各個組件間的消息互通、用戶文件與Jar包的上傳、節點間的Shuffle過程、Block數據的複製與備份等。Spark 2.0 之後,ma

原创 使用TPC-DS對kudu和impala進行基準測試

參考文章: tpc-ds官網 使用TPC-DS工具生成數據 使用TPC-DS對kudu進行基準測試 tpc-ds測試tidb結果 1. 下載工具 兩種渠道 1.1 官網(建議直接跳過~) 地址:http://www.tpc.org/tpc

原创 TPC-DS介紹

參考文章:TPC-DS介紹 TPC-DS介紹 TPC-DS是一個面向決策支持系統(decision support system)的包含多維度常規應用模型的決策支持基準,包括查詢(queries)與數據維護。此基準對被測系統(Syste

原创 爲什麼MySQL的索引要使用B+樹,而不是其它樹?

參考文章:面試官:爲什麼MySQL的索引要使用B+樹,而不是其它樹?比如B樹? InnoDB的一棵B+樹可以存放多少行數據? 答案:約2千萬 爲什麼是這麼多? 因爲這是可以算出來的,要搞清楚這個問題,先從InnoDB索引數據結構、數據組織

原创 MySQL的事務實現原理

參考文章:MySQL的事務實現原理 1 開篇 事務的目的是要實現可靠性以及併發處理。 可靠性:數據庫要保證當insert或update操作時拋異常或者數據庫crash的時候需要保障數據的操作前後的一致,想要做到這個,需要知道修改之前和修

原创 用戶畫像常用算法

決策樹 1、決策樹,是一種分類算法和迴歸算法(這裏只介紹分類算法) 2、決策樹算法的構建分爲3個部分:特徵的選擇,決策樹的生成,決策樹的剪枝;(主要參考李航的《統計學習方法》第五章)     a、特徵的選擇—-選擇使信息增益最大的特徵;

原创 用戶畫像之Spark ML實現

參考文章:用戶畫像之Spark ML實現 1. Spark ML簡單介紹   Spark ML面向DataFrame編程。Spark的核心開發是基於RDD(彈性分佈式數據集),但是RDD的處理並不靈活,如果做結構化處理,需將RDD轉換成D

原创 java常見隊列及應用詳解

1. java常見隊列: (1) ArrayBlockingQueue:         一個基於數組結構的有界阻塞隊列, FIFO(先進先出)。 (2) LinkedBlockingQueue:         一個基於鏈表結構的阻塞