原创 指標纔是生產力

一、衡量得以感知 人類聰明的地方在於我們的邏輯推演能力,我們通過觀察世界,在大腦中抽象出問題相關的模型,推演出將會發生的事情,然後進行下一步的動作,而不用真的去經歷。 腦子是個好東西,但也無法精確的感知事物,比如我需要挑選合適的櫃子放家裏

原创 從源碼解密spark內存管理

內存不過是計算機分級存儲系統中的靠近cpu的一個存儲介質。 spark運行起來內存裏都存的啥? 如何管理裏面所存的東西? spark用java和scala這樣的jvm語言寫的,沒有像c語言那樣顯式申請釋放內存,如何進行內存的管理的? 我們

原创 文言文編程背後-語言的本質

一、文言文編程 最近github上有個文言文編程火了,效果看起來還比較牛B,看起像是是文言文,讀起來也能明白一定的意思。(可以留言給我索取官網體驗)   上圖代碼比較簡單就是輸出三遍hello world; 是不是讀起來有文言文的樣子也

原创 一文搞懂區塊鏈基本原理

一、架構 認識區塊鏈,讓我們從最開始的比特幣開始。 比特幣本質上來講,是一個全球統一的分佈式賬本,記錄着所有的交易記錄。只要根據你所有的交易記錄,就能知道你現在有多少錢了。 弄一個賬本很簡單,但是要讓全世界都信任這個賬本就很難了,我們來看

原创 一文了解幾十萬年的科技史

最近讀完了吳軍的《全球科技通史》,寫點讀書筆記吧。 一、遠古科技 人類發展到今天,也不過是物競天擇、適者生存的結果而已。大自然的算法就是廣撒網重點捕撈,人類不過是當初無數個隨機數中的一個而已。 人類的初創期還是很艱難,要和其他生物競爭,甚

原创 我做大數據工作這三年

一、初來乍到 三年前,一鍋蓋頭小夥在女朋友的感召下,坐上了140.50塊的綠皮火車花了30多個小時到了上海火車站。這是他20多年來第一次出省,然而等待他的是2個多小時的地鐵,加半個小時的公交。但是有女朋友的陪伴,這都不是事兒。 到上海前

原创 一文了解分形幾何的思想

一、如何測量一條曲線的長度 1.1 一種曲線: 它是由一條直線變成的,將直線均分成三份,中間的一份複製一份,擡起來連接到一起形成一個尖尖。這樣我們就得到了四份直線,然後對每份直線又做同樣的操作,不斷循環下去,最後尖尖會越來越小,就會形成一

原创 flink入門-流式計算概念

一、流式計算的世界觀 1.1 萬物皆流 只要時間不停萬事萬物都沒有靜止。我們所以爲的靜態,不過是流中的一個片段。 意味着流的世界,不在乎所謂的狀態,在乎的是變化,也就是事件的發生,通過事件來表示。 1.2 升維 批量的時代,我們只記錄關鍵

原创 【題目】劃分版圖-有點難

春招的金三銀四呀我們來做個有挑戰性的題目吧 一、題目內容 背景:long time ago,大地上有一些城市和一些道路,城市之間能夠互通的稱爲國家,不同的國家的城市之間是無法相通的。如圖的例子所示就是兩個國家:藍國和紅國: 問題:現在我

原创 spark核心構件之Dependency(依賴)

之前的文章說一個spark任務其實就是一系列rdd構成的有向無環圖(dag),今天我們來看看,spark是如何表示rdd之間的依賴關係建立這個dag的。 一、rdd如何構成dag 上篇文章講到了Partition和Partitioner知

原创 【題目】sql和其他語言的思考方式

sql和其他的語言的思考方式是有很大的區別的。今天我們就出一道現實中遇到的題來看看到底有啥不同。 一、背景&前提假設 背景:有用戶之間加好友的業務存在表user_friend中: user_id friend_uid 00001 0000

原创 【解答】sql和其他語言的思考方式

上次的題目( https://blog.csdn.net/zzzqqq111222/article/details/88081647) 大家都看了嗎,感覺是不是賊簡單,竟然做這種題,簡直侮辱智商,不介意的話我來說下大家心裏是不是這樣解答的

原创 spark核心構件之partitioner

spark 核心思想之一就是數據分區,將數據分成很多個part,一個一個的進行處理這樣的設置達到了以下的目的。 1、實現分佈式 2、可以減少內存佔用 3、還能方便的做任務重跑 4、而且將統一個key的數據聚集到一起,方便join、grou

原创 大數據學習指南

一、大數據的結構 整個大數據體系發展了這麼久,其實包含了太多太多的東西了。按照數據的流程大概分爲以下幾個大的部分     1、 數據通道 傳輸數據用的,將不同數據源的數據導入數據中心,數據中心處理完了之後通過這個通道輸出到其他的不同數據

原创 spark內存管理

內存不過是計算機分級存儲系統中的靠近cpu的一個存儲介質。 spark運行起來內存裏都存的啥? 如何管理裏面所存的東西? spark用java和scala這樣的jvm語言寫的,沒有像c語言那樣顯式申請釋放內存,如何進行內存的管理的? 我們