台部落lsr40

大家好我又來了！我先提前說下，本文其實是比較早之前我整理給自己看的，那時候是看到外網有一篇文章說到這個事情，具體作者是誰我已經忘記了（因爲原文已經訪問不了，好像是因爲域名過期了），但是其實大家直接搜索“why's kafka so fas

2020-07-08 08:30:23

本文其實主要是想說說spark的kryo機制和壓縮！首先spark官網對於kryo的描述：http://spark.apache.org/docs/latest/tuning.html#data-serialization 官網相關參

2020-07-02 19:07:21

我不想說太多源碼層面的東西，然後把詳細方法一個個列出來，其實沒有多大意義（因爲源碼裏有，再者比我講的清晰明白的大有人在，我沒有必要再重複相同的東西），但是我真的花了好大的精力才把這部分看完，我得記錄下，不然會忘掉一、spark到底有

2020-07-01 00:12:05

在使用spark的時候，往往我們需要外部傳入文件，來配合程序做數據處理那麼這就涉及到，如何傳入，如何獲取（本文討論的是spark on yarn）講實話，我覺得這個問題挺煩的，我百度了好久（可能我姿勢不對？），各種博客，stacko

2020-07-01 00:12:04

哎，我又來寫文章了！最近在看spark源碼（照着這本書看的《Spark內核設計的藝術架構設計與實現》），想整理一些東西（一些以前面試被問到的在我腦中沒有體系的知識點吧）一、任務運行中主要的一些重試機制 1、Application級

2020-07-01 00:12:04

在實時的需求越來越高的當下，流式處理越來越重要。特別是有些需求，需要流式數據join靜態數據來製造一些大寬表，提供不同維度的分析。然後往往這些數據我們會寫到hdfs，但是寫到hdfs就會遇到小文件的問題，其實我之前分享過批處理如何解決小

2020-06-19 22:41:31

本人菜雞一隻，今天來寫寫結巴分詞！哇，距離上一次寫文章已經20天過去了，最近這些天還真是挺忙的，主要是上上週到了跑月數據的節點，然後上週原始數據出了問題，我調了一週多才把這個錯誤解決了，還修復了一個隱藏的小bug 在這裏提醒下自己，用

2020-06-19 14:47:55

超久超久沒寫博客了，近來的都是比較雜的臨時活，大家都在喊他的活很急，最要緊，挺令我心煩的，不過有活總比沒活做好吧！言歸正傳，本文講的是hive解析json格式的數據最近處理了這麼一份數據，json格式的，其實我之前寫了一篇博客：

2020-06-19 14:47:55

菜雞一隻，國慶真是玩了好幾天，等到快上班的時候纔開始又學習，找狀態本文來講講ES中的Join方案！在數據庫中，join是非常常見的操作！其實就是將兩張表的數據合併到一起，然後查詢出結果數據，當然最後可能還需要一些過濾，這是數據庫中的

2020-06-19 14:47:55

承接上文【ES】ES中的join方案一（Nested類型，基於6.3版本的java實現）：https://blog.csdn.net/lsr40/article/details/102398379 上文說到ES中的join有兩種實現，上

2020-06-19 14:47:55

其實大多數場景下，各種大數據框架預定義的InputFormat（數據讀取器）是夠用的，除了一些比較特殊的情況，特殊的數據格式，我們纔會需要自定義讀取數據的方式。然後有一天，我在接入一個hdfs上gz格式數據的時候，遇到了一個報錯：仔

2020-06-19 14:47:55

菜雞一隻~ 其實我還是知道我自己的水平的，菜是原罪，還是要不斷的學習成長提高啊！因此我會看看一些亂七八糟的直播啊，博客啊之類的（雖然往往整整2個小時的直播裏，可能就講了15分鐘的重點，不過有時候會提到某項技術，大概的實現方式和適用的

2020-06-19 14:47:55

本文會結合Future描述下線程池的使用場景最近因爲換了工作，新工作需要更多的時間熟悉和上手，所以好久沒有寫文章了！不過其實也一直有在看一些東西，比如Netty，spark源碼（其實以前有看過，但是太囫圇吞棗忘得差不多了），然後想起

2020-06-19 14:47:55

本人菜雞一隻！本篇文章，主要是記錄《【python】爬蟲篇：通過文章內容使用TF-IDF算法對文章進行分類（五）》中所說的具體代碼，具體處理方向和思路見下文：【python】爬蟲篇：通過文章內容使用TF-IDF算法對文章進行分類（五）

2020-06-03 17:39:44

本人菜雞一隻，對於正則其實真是菜的摳腳！所以得趕緊記下來，不然下次又忘了！！遇到了個場景，程序的運行日誌中，有部分信息我們是想要的，需要進行一些基礎的分析。日誌拿到手上，裏面可能有上萬條日誌，但是我們只需要其中一部分。處理方式有非常

2020-06-03 17:39:44