台部落dong

上一篇博客《剖析Hadoop和Spark的Shuffle過程差異（一）》剖析了Hadoop MapReduce的Shuffle過程，那麼本篇博客，來聊一聊Spark shuffle。 Spark shuffle相對來說更

2020-06-16 07:20:08

一、前言 Sharding-JDBC 是一款優秀的分庫分表框架，從3.0開始，Sharding-JDBC更名爲Sharding-Sphere，之前用Sharding-JDBC 2時，對於同庫分表而言，sql執行是串行的，因爲同數

2020-06-16 07:20:07

上一篇博客詳細描述了SQL佔位符的替換以及SQL的執行過程，對於查詢語句返回的是一個List<CaseInsensitiveMap<String, Object>>，List裏的泛型是一個CaseInsensitiveMap<

2020-06-16 07:20:07

在本篇博客中，聊聊分頁的問題，對於每一個數據庫，分頁語句都不相同，如：mysql用limit分頁、oracle用rownum分頁等，那麼要實現代碼可以移植到不同數據庫上，必須由框架來統一生成分頁語句。分頁有兩個步驟，

2020-02-23 03:30:49

一、導讀 1、window10 python環境Anaconda 安裝 2、keras安裝 3、tensorflow安裝 4、eclipse python開發插件PyDev安裝，配置 5、kera

2020-02-23 03:30:49

一、導讀衆所周知圖像是有紅綠藍三種顏色堆疊而成，利用deeplearning對圖像處理，必須把圖像轉化爲張量，每一張圖片由有三維張量組成，三維分別是[depth、height、width]，直觀來講，就是用三個矩陣堆疊起來，每

2020-02-23 03:30:49

一、前言 Elastic-Job是一個優秀的分佈式作業調度框架。 Elastic-Job是一個分佈式調度解決方案，由兩個相互獨立的子項目Elastic-Job-Lite和Elastic-Job-Cloud組成。

2020-02-23 03:30:49

一、reduceByKey作用 reduceByKey將RDD中所有K,V對中，K值相同的V進行合併，而這個合併，僅僅根據用戶傳入的函數來進行，下面是wordcount的例子。 import java.util.Arrays;

2020-02-23 03:30:49

一、前言 ND4J從beta2開始就開始支持自動微分，不過直到beta4版本爲止，自動微分還只支持CPU，GPU版本將在後續版本中實現。本篇博客中，我們將用ND4J來構建一個函數，利用ND4J SameDiff構建函數

2020-02-23 03:30:49

一、背景自然語言處理就是要讓計算機理解人類的語言，至於到目前爲止，計算機是否真的理解的人類的語言，這是一個未知之數，我的理解是目前爲止並沒有懂得人類語言，只是查表給出一個最大概率的迴應而已。那麼自然語言處理（NLP）包括哪些領

2020-02-23 03:30:49

一、Normalization是什麼 Normalization一句話概括來說就是用一種辦法，將一組數據壓到均值爲0，方差爲1的正態分佈上去，具體做法是數據集的每一個元素減去均值再除以標準差。公式如下：（請忽略參數g，g的問題很

2020-02-23 03:30:49

一、寫在前面 “架構”一詞，是一個非常大命題，通常很難用語言來描述這個東西，我們先不談“架構“這個詞，我們先來看一些現象。 1、對於真正做實事的開發者來說，通常會有類似的感覺，架構師通常就畫畫ppt，代碼也寫不了，畫的各

2020-02-23 03:30:49

一、前言對於基於MapReduce編程範式的分佈式計算來說，本質上而言，就是在計算數據的交、並、差、聚合、排序等過程。而分佈式計算分而治之的思想，讓每個節點只計算部分數據，也就是隻處理一個分片，那麼要想求得某個key對應的全量

2020-02-23 03:30:49

一、數據集介紹數據來源：今日頭條客戶端數據格式如下： 6551700932705387022_!_101_!_news_culture_!_京城最值得你來場文化之旅的博物館_!_保利集團,馬未都,中國科學技術館,博物

2020-02-23 03:30:49

本篇博客將介紹Spark RDD的Map系算子的基本用法。 1、map map將RDD的元素一個個傳入call方法，經過call方法的計算之後，逐個返回，生成新的RDD，計算之後，記錄數不會縮減。示例代碼，將每個

2020-02-23 03:30:49