原创 【kafka】爲什麼快(why‘s kafka so fast)?

大家好我又來了!我先提前說下,本文其實是比較早之前我整理給自己看的,那時候是看到外網有一篇文章說到這個事情,具體作者是誰我已經忘記了(因爲原文已經訪問不了,好像是因爲域名過期了),但是其實大家直接搜索“why's kafka so fas

原创 【spark】使用kryo序列化和壓縮,減少數據緩存和傳輸的大小

 本文其實主要是想說說spark的kryo機制和壓縮! 首先spark官網對於kryo的描述:http://spark.apache.org/docs/latest/tuning.html#data-serialization 官網相關參

原创 【spark】關於spark的shuffle模式的一些見解

我不想說太多源碼層面的東西,然後把詳細方法一個個列出來,其實沒有多大意義(因爲源碼裏有,再者比我講的清晰明白的大有人在,我沒有必要再重複相同的東西),但是我真的花了好大的精力才把這部分看完,我得記錄下,不然會忘掉   一、spark到底有

原创 【spark】on yarn的模式下,如何上傳files並在程序中讀取到?

在使用spark的時候,往往我們需要外部傳入文件,來配合程序做數據處理 那麼這就涉及到,如何傳入,如何獲取(本文討論的是spark on yarn) 講實話,我覺得這個問題挺煩的,我百度了好久(可能我姿勢不對?),各種博客,stacko

原创 【spark】都有哪些級別的容錯或者失敗重試?

哎,我又來寫文章了! 最近在看spark源碼(照着這本書看的《Spark內核設計的藝術架構設計與實現》),想整理一些東西(一些以前面試被問到的在我腦中沒有體系的知識點吧)   一、任務運行中主要的一些重試機制 1、Application級

原创 【spark】Spark Streaming寫HDFS解決小文件問題思考

在實時的需求越來越高的當下,流式處理越來越重要。特別是有些需求,需要流式數據join靜態數據來製造一些大寬表,提供不同維度的分析。 然後往往這些數據我們會寫到hdfs,但是寫到hdfs就會遇到小文件的問題,其實我之前分享過批處理如何解決小

原创 【python】結巴分詞案例(英文詞組識別)

本人菜雞一隻,今天來寫寫結巴分詞! 哇,距離上一次寫文章已經20天過去了,最近這些天還真是挺忙的,主要是上上週到了跑月數據的節點,然後上週原始數據出了問題,我調了一週多才把這個錯誤解決了,還修復了一個隱藏的小bug 在這裏提醒下自己,用

原创 【hive】hive加載json數據和解析json(二)

超久超久沒寫博客了,近來的都是比較雜的臨時活,大家都在喊他的活很急,最要緊,挺令我心煩的,不過有活總比沒活做好吧! 言歸正傳,本文講的是hive解析json格式的數據   最近處理了這麼一份數據,json格式的,其實我之前寫了一篇博客:

原创 【ES】ES中的join方案一(Nested類型,基於6.3版本的java實現)

菜雞一隻,國慶真是玩了好幾天,等到快上班的時候纔開始又學習,找狀態 本文來講講ES中的Join方案! 在數據庫中,join是非常常見的操作! 其實就是將兩張表的數據合併到一起,然後查詢出結果數據,當然最後可能還需要一些過濾,這是數據庫中的

原创 【ES】ES中的join方案二(parent和child的join,基於6.3版本的java實現)

承接上文 【ES】ES中的join方案一(Nested類型,基於6.3版本的java實現):https://blog.csdn.net/lsr40/article/details/102398379 上文說到ES中的join有兩種實現,上

原创 【spark】自定義數據讀取的InputFormat(異常:incorrect data check)

其實大多數場景下,各種大數據框架預定義的InputFormat(數據讀取器)是夠用的,除了一些比較特殊的情況,特殊的數據格式,我們纔會需要自定義讀取數據的方式。 然後有一天,我在接入一個hdfs上gz格式數據的時候,遇到了一個報錯: 仔

原创 【java】線程池概念,如何使用線程池?

菜雞一隻~ 其實我還是知道我自己的水平的,菜是原罪,還是要不斷的學習成長提高啊! 因此我會看看一些亂七八糟的直播啊,博客啊之類的(雖然往往整整2個小時的直播裏,可能就講了15分鐘的重點,不過有時候會提到某項技術,大概的實現方式和適用的

原创 【java】獲取線程池中的線程返回結果,Future和FutureTask的使用

本文會結合Future描述下線程池的使用場景 最近因爲換了工作,新工作需要更多的時間熟悉和上手,所以好久沒有寫文章了! 不過其實也一直有在看一些東西,比如Netty,spark源碼(其實以前有看過,但是太囫圇吞棗忘得差不多了) ,然後想起

原创 【python】爬蟲篇:最後一篇之TF-IDF分類代碼篇(六)

本人菜雞一隻! 本篇文章,主要是記錄《【python】爬蟲篇:通過文章內容使用TF-IDF算法對文章進行分類(五)》中所說的具體代碼,具體處理方向和思路見下文: 【python】爬蟲篇:通過文章內容使用TF-IDF算法對文章進行分類(五)

原创 【Linux】linux中grep(過濾運行日誌)和find的正則用法

本人菜雞一隻,對於正則其實真是菜的摳腳!所以得趕緊記下來,不然下次又忘了!! 遇到了個場景,程序的運行日誌中,有部分信息我們是想要的,需要進行一些基礎的分析。 日誌拿到手上,裏面可能有上萬條日誌,但是我們只需要其中一部分。 處理方式有非常