原创 剖析Hadoop和Spark的Shuffle過程差異(二)

    上一篇博客《剖析Hadoop和Spark的Shuffle過程差異(一)》剖析了Hadoop MapReduce的Shuffle過程,那麼本篇博客,來聊一聊Spark shuffle。     Spark shuffle相對來說更

原创 解析Sharding-Sphere的SQL執行引擎

一、前言     Sharding-JDBC 是一款優秀的分庫分表框架,從3.0開始,Sharding-JDBC更名爲Sharding-Sphere,之前用Sharding-JDBC 2時,對於同庫分表而言,sql執行是串行的,因爲同數

原创 TeaFramework——ORM框架的實現(三)

    上一篇博客詳細描述了SQL佔位符的替換以及SQL的執行過程,對於查詢語句返回的是一個List<CaseInsensitiveMap<String, Object>>,List裏的泛型是一個CaseInsensitiveMap<

原创 TeaFramework——ORM框架的實現(四)

    在本篇博客中,聊聊分頁的問題,對於每一個數據庫,分頁語句都不相同,如:mysql用limit分頁、oracle用rownum分頁等,那麼要實現代碼可以移植到不同數據庫上,必須由框架來統一生成分頁語句。     分頁有兩個步驟,

原创 eclipse擼一發Keras卷積神經網絡對手寫數字識別

一、導讀     1、window10 python環境Anaconda 安裝     2、keras安裝     3、tensorflow安裝     4、eclipse python開發插件PyDev安裝,配置     5、kera

原创 如何利用deeplearning4j中datavec對圖像進行處理

一、導讀     衆所周知圖像是有紅綠藍三種顏色堆疊而成,利用deeplearning對圖像處理,必須把圖像轉化爲張量,每一張圖片由有三維張量組成,三維分別是[depth、height、width],直觀來講,就是用三個矩陣堆疊起來,每

原创 分佈式定時任務框架Elastic-Job的使用

一、前言     Elastic-Job是一個優秀的分佈式作業調度框架。     Elastic-Job是一個分佈式調度解決方案,由兩個相互獨立的子項目Elastic-Job-Lite和Elastic-Job-Cloud組成。     

原创 Spark RDD操作之ReduceByKey

一、reduceByKey作用     reduceByKey將RDD中所有K,V對中,K值相同的V進行合併,而這個合併,僅僅根據用戶傳入的函數來進行,下面是wordcount的例子。 import java.util.Arrays;

原创 ND4J自動微分

一、前言     ND4J從beta2開始就開始支持自動微分,不過直到beta4版本爲止,自動微分還只支持CPU,GPU版本將在後續版本中實現。     本篇博客中,我們將用ND4J來構建一個函數,利用ND4J SameDiff構建函數

原创 一篇文章看懂自然語言處理——word表示技術的變遷(從bool模型到BERT)

一、背景     自然語言處理就是要讓計算機理解人類的語言,至於到目前爲止,計算機是否真的理解的人類的語言,這是一個未知之數,我的理解是目前爲止並沒有懂得人類語言,只是查表給出一個最大概率的迴應而已。那麼自然語言處理(NLP)包括哪些領

原创 通俗話說一說各種Normalization以及用deeplearning4j實現Layer Normalization

一、Normalization是什麼     Normalization一句話概括來說就是用一種辦法,將一組數據壓到均值爲0,方差爲1的正態分佈上去,具體做法是數據集的每一個元素減去均值再除以標準差。公式如下:(請忽略參數g,g的問題很

原创 一篇文章看懂大型網站的架構技巧

一、寫在前面     “架構”一詞,是一個非常大命題,通常很難用語言來描述這個東西,我們先不談“架構“這個詞,我們先來看一些現象。     1、對於真正做實事的開發者來說,通常會有類似的感覺,架構師通常就畫畫ppt,代碼也寫不了,畫的各

原创 剖析Hadoop和Spark的Shuffle過程差異(一)

一、前言     對於基於MapReduce編程範式的分佈式計算來說,本質上而言,就是在計算數據的交、並、差、聚合、排序等過程。而分佈式計算分而治之的思想,讓每個節點只計算部分數據,也就是隻處理一個分片,那麼要想求得某個key對應的全量

原创 DL4J之CNN對今日頭條文本分類

一、數據集介紹     數據來源:今日頭條客戶端     數據格式如下: 6551700932705387022_!_101_!_news_culture_!_京城最值得你來場文化之旅的博物館_!_保利集團,馬未都,中國科學技術館,博物

原创 Spark RDD操作之Map系算子

    本篇博客將介紹Spark RDD的Map系算子的基本用法。     1、map     map將RDD的元素一個個傳入call方法,經過call方法的計算之後,逐個返回,生成新的RDD,計算之後,記錄數不會縮減。示例代碼,將每個