原创 Flink安裝、部署、KafkaSource、SinKToMysql

flink安裝、部署、測試 下載flink安裝包 flink下載地址 https://archive.apache.org/dist/flink/flink-1.5.0/ 因爲例子不需要hadoop,下載flink-1.5.0-bin-s

原创 Waterdrop幫你快速玩轉Spark數據處理

原文地址:https://blog.csdn.net/gaoyingju/article/details/79394729 Waterdrop 項目地址:https://interestinglab.github.io/waterdro

原创 工廠模式

一、設計模式的分類 總體來說設計模式分爲三大類: 創建型模式,共五種:工廠方法模式、抽象工廠模式、單例模式、建造者模式、原型模式。 結構型模式,共七種:適配器模式、裝飾器模式、代理模式、外觀模式、橋接模式、組合模式、享元模式。 行爲型模式

原创 單例模式

單例對象(Singleton)是一種常用的設計模式。在Java應用中,單例對象能保證在一個JVM中,該對象只有一個實例存在。這樣的模式有幾個好處: 1、某些類創建比較頻繁,對於一些大型的對象,這是一筆很大的系統開銷。 2、省去了new操作

原创 如何從根源上解決 HDFS 小文件問題

原文地址:https://www.iteblog.com/archives/2320.html 我們知道,HDFS 被設計成存儲大規模的數據集,我們可以在 HDFS 上存儲 TB 甚至 PB 級別的海量數據。而這些數據的元數據(比如文件由

原创 基於Kafka和ElasticSearch,LinkedIn如何構建實時日誌分析系統?

今天,和跟大家分享我們在用ElasticSearch和Kafka做日誌分析的時候遇到的問題,系統怎麼樣一步一步演變成現在這個版本。你如果想拿ElasticSearch和Kafka來做日誌分析的話,會有一些啓發。全文主要包括以下幾個Topi

原创 互聯網大數據面試題集錦

原文地址:http://hbase.group/article/89 以下面試題都是羣裏小夥伴提供的,現場真題(包含校招題)1.網易大數據面試題 說說項目 Spark哪部分用得好,如何調優 Java哪部分了解比較好 聊聊併發,併發實現方法

原创 美圖個性化推薦的實踐與探索

互 聯網技術將我們帶入了信息爆炸的時代,面對海量的信息,一方面用戶難以迅速發現自己感興趣的信息,另一方面長尾信息得不到曝光。爲了解決這些問題,個性化推薦系統應運而生。美圖擁有海量用戶的同時積累了海量圖片與視頻,通過推薦系統有效建立了用戶

原创 HBase的Region定位爲什麼只需一個META表

Hbase就不介紹了,直入正題。 爲了讓客戶端找到包含特定主鍵的region,Hbase0.96之前提供了兩張特殊的目錄表-ROOT-和.META表,一下簡稱root和meta。 root表用來查詢所有meta表中熱region的位置。

原创 Flink 原理與實現:內存管理

原文地址:https://yq.aliyun.com/articles/57815?spm=a2c4e.11153940.blogrightarea64820.29.71e5167cM5y5cc 摘要: 如今,大數據領域的開源框架(Had

原创 幫你解決垃圾郵件,這家公司還想讓你邊看郵件邊掙錢!

一個解決垃圾郵件的好的思路! 原文地址:https://blog.csdn.net/kXYOnA63Ag9zqtXx0/article/details/82112596 每天上班,第一時間打開郵箱頁面,有多少個小夥伴是跟我一樣痛苦的?  

原创 從將機器學習模型轉化成真正產品和服務中學到的經驗教訓

人工智能依然處於它的幼年時期。今天,只有15%的企業在使用機器學習,但是有30%的企業已經在它們未來的發展路線圖裏包括了機器學習。像Intel的CEO這樣的公衆人物宣稱,每一個企業都應該有一個機器學習的戰略,否則就會有落後的風險。那麼機器

原创 Hive性能優化(全面)

原文地址:https://mp.weixin.qq.com/s/sVtfUFwoAbAyUq93W2M0wA 1.介紹 首先,我們來看看Hadoop的計算框架特性,在此特性下會衍生哪些問題? 數據量大不是問題,數據傾斜是個問題。 j

原创 Flink在唯品會的實踐

本文來自於王新春在2018年7月29日 Flink China社區線下 Meetup·上海站的分享。王新春目前在唯品會負責實時平臺相關內容,主要包括實時計算框架和提供實時基礎數據,以及機器學習平臺的工作。之前在美團點評,也是負責大數據平

原创 HBase最佳實踐-CMS GC調優

原文地址:http://hbasefly.com/2016/08/09/hbase-cms-gc/ HBase發展到當下,對其進行的各種優化從未停止,而GC優化更是其中的重中之重。從0.94版本提出MemStoreLAB策略,Memsto