台部落柯廣的博客

1、Flume使用場景（☆☆☆☆☆）線上數據一般主要是落地（存儲到磁盤）或者通過socket傳輸給另外一個系統，這種情況下，你很難推動線上應用或服務去修改接口，實現直接向kafka裏寫數據，這時候你可能就需要flume這樣的系統幫你去做傳

2021-11-15 13:00:25

聽到謂詞下推這個詞，是不是覺得很高大上，找點資料看了半天才能搞懂概念和思想，借這個機會好好學習一下吧。引用範欣欣大佬的博客中寫道，以前經常滿大街聽到謂詞下推，然而對謂詞下推卻總感覺懵懵懂懂，並不明白的很真切。這裏拿出來和大家交流交流。個人

2021-11-10 13:00:30

1、Spark中的HashShufle的有哪些不足？ 1）shuffle產生海量的小文件在磁盤上，此時會產生大量耗時的、低效的IO操作； 2）容易導致內存不夠用，由於內存需要保存海量的文件操作句柄和臨時緩存信息，如果數據處理規模比較大的話，

2021-11-08 13:00:31

目錄1.基於 set2.基於 bit3.基於 HyperLogLog4. 基於bloomfilter 這篇文章主要介紹了Redis實現唯一計數的3種方法分享,本文講解了基於SET、基於 bit、基於 HyperLogLog三種方法,需要的

2021-11-06 13:00:31

目錄一、背景二、算法1. 第一步：排序2. 第二步：第二列與第三列做日期差值3. 第三步:按第二列分組求和4. 第四步：求最大次數三、擴展（股票最大漲停天數）強哥說他發現了財富密碼，最近搞了一套股票算法，其中有一點涉及到股票連續漲停天數的

2021-11-04 13:00:26

1、爲什麼要進行序列化序列化？可以減少數據的體積，減少存儲空間，高效存儲和傳輸數據，不好的是使用的時候要反序列化，非常消耗CPU。 2、Yarn中的container是由誰負責銷燬的，在Hadoop Mapreduce中container

2021-10-30 13:00:33

首發於我的個人博客：Spark面試題（二） 1、Spark有哪兩種算子？ Transformation（轉化）算子和Action（執行）算子。 2、Spark有哪些聚合類的算子,我們應該儘量避免什麼類型的算子？在我們的開發過程中，能避

2021-10-29 13:00:27

1、Hive表關聯查詢，如何解決數據傾斜的問題？（☆☆☆☆☆） 1）傾斜原因：map輸出數據按key Hash的分配到reduce中，由於key分佈不均勻、業務數據本身的特、建表時考慮不周、等原因造成的reduce 上的數據量差異過大。

2021-10-23 13:00:23

提問： mysql的字段，unsigned int(3), 和unsinged int(6), 能存儲的數值範圍是否相同。如果不同，分別是多大？回答：不同，int(3)最多顯示3位無符號整體，int(6)最多顯示6位無符號數。如果你的

2021-10-11 13:00:31

因爲前面Hbase2集羣出現過一次故障，當時花了一個週末才修好，就去了解整理了一些hbase故障的，事故現場可以看前面寫的一篇：Hbase集羣掛掉的一次驚險經歷一. HBCK一致性一致性是指Region在meta中的meta表信息、在線

2021-10-09 13:00:31

假設docker已經安裝好了，如果沒有安裝，可以照着 5分鐘安裝docker教程安裝一下。一. 下載鏡像默認下載最新版本，如果想指定對應版本，可以用冒號後加版本，像這樣mysql:5.7： docker pull mysql:5.7

2021-10-03 13:00:24

目錄行存儲與列存儲行存儲的特點列存儲的特點常見的數據格式TextFileSequenceFileRCfileORCfile格式數據訪問Parquet測試準備測試數據存儲空間大小測試SQL 執行效率總結Hive 壓縮Hive中間數據壓縮最終

2021-09-20 13:00:35

有些時候需要我們去統計某一個hbase表的行數，由於hbase本身不支持SQL語言，只能通過其他方式實現。可以通過一下幾種方式實現hbase表的行數統計工作: 這裏有一張hbase表test:test： hbase(main):009:

2021-06-17 13:00:30

本文首發於：Java大數據與數據倉庫，Flink實時計算pv、uv的幾種方法實時統計pv、uv是再常見不過的大數據統計需求了，前面出過一篇SparkStreaming實時統計pv,uv的案例，這裏用Flink實時計算pv,uv。我們

2021-06-10 13:00:32

數據遷移使用場景冷熱集羣數據分類存儲,詳見上述描述. 集羣數據整體搬遷.當公司的業務迅速的發展,導致當前的服務器數量資源出現臨時緊張的時候,爲了更高效的利用資源,會將原A機房數據整體遷移到B機房的,原因可能是B機房機器多,而且B機房本身

2021-06-10 13:00:32