原创 Flume面試題整理

1、Flume使用場景(☆☆☆☆☆) 線上數據一般主要是落地(存儲到磁盤)或者通過socket傳輸給另外一個系統,這種情況下,你很難推動線上應用或服務去修改接口,實現直接向kafka裏寫數據,這時候你可能就需要flume這樣的系統幫你去做傳

原创 大數據SQL中的Join謂詞下推,真的那麼難懂?

聽到謂詞下推這個詞,是不是覺得很高大上,找點資料看了半天才能搞懂概念和思想,借這個機會好好學習一下吧。 引用範欣欣大佬的博客中寫道,以前經常滿大街聽到謂詞下推,然而對謂詞下推卻總感覺懵懵懂懂,並不明白的很真切。這裏拿出來和大家交流交流。個人

原创 Spark面試題(四)

1、Spark中的HashShufle的有哪些不足? 1)shuffle產生海量的小文件在磁盤上,此時會產生大量耗時的、低效的IO操作; 2)容易導致內存不夠用,由於內存需要保存海量的文件操作句柄和臨時緩存信息,如果數據處理規模比較大的話,

原创 Redis去重方法

目錄1.基於 set2.基於 bit3.基於 HyperLogLog4. 基於bloomfilter 這篇文章主要介紹了Redis實現唯一計數的3種方法分享,本文講解了基於SET、基於 bit、基於 HyperLogLog三種方法,需要的

原创 Hive計算最大連續登陸天數

目錄一、背景二、算法1. 第一步:排序2. 第二步:第二列與第三列做日期差值3. 第三步:按第二列分組求和4. 第四步:求最大次數三、擴展(股票最大漲停天數) 強哥說他發現了財富密碼,最近搞了一套股票算法,其中有一點涉及到股票連續漲停天數的

原创 Spark面試題整理(三)

1、爲什麼要進行序列化序列化? 可以減少數據的體積,減少存儲空間,高效存儲和傳輸數據,不好的是使用的時候要反序列化,非常消耗CPU。 2、Yarn中的container是由誰負責銷燬的,在Hadoop Mapreduce中container

原创 Spark面試題(二)

首發於我的個人博客:Spark面試題(二) 1、Spark有哪兩種算子? Transformation(轉化)算子和Action(執行)算子。 2、Spark有哪些聚合類的算子,我們應該儘量避免什麼類型的算子? 在我們的開發過程中,能避

原创 Hive面試題整理(一)

1、Hive表關聯查詢,如何解決數據傾斜的問題?(☆☆☆☆☆)   1)傾斜原因:map輸出數據按key Hash的分配到reduce中,由於key分佈不均勻、業務數據本身的特、建表時考慮不周、等原因造成的reduce 上的數據量差異過大。

原创 mysql int(3)與int(10)的數值範圍相同嗎?

提問: mysql的字段,unsigned int(3), 和unsinged int(6), 能存儲的數值範圍是否相同。如果不同,分別是多大? 回答: 不同,int(3)最多顯示3位無符號整體,int(6)最多顯示6位無符號數。 如果你的

原创 Hbase修復工具Hbck

因爲前面Hbase2集羣出現過一次故障,當時花了一個週末才修好,就去了解整理了一些hbase故障的,事故現場可以看前面寫的一篇:Hbase集羣掛掉的一次驚險經歷 一. HBCK一致性 一致性是指Region在meta中的meta表信息、在線

原创 docker 安裝 wordpress,通過nginx反向代理,綁定域名,配置https

假設docker已經安裝好了,如果沒有安裝,可以照着 5分鐘安裝docker教程 安裝一下。 一. 下載鏡像 默認下載最新版本,如果想指定對應版本,可以用冒號後加版本,像這樣mysql:5.7: docker pull mysql:5.7

原创 一文徹底搞懂Hive的數據存儲與壓縮

目錄行存儲與列存儲行存儲的特點列存儲的特點常見的數據格式TextFileSequenceFileRCfileORCfile格式數據訪問Parquet測試準備測試數據存儲空間大小測試SQL 執行效率總結Hive 壓縮Hive中間數據壓縮最終

原创 hbase統計表的行數的三種方法

有些時候需要我們去統計某一個hbase表的行數,由於hbase本身不支持SQL語言,只能通過其他方式實現。 可以通過一下幾種方式實現hbase表的行數統計工作: 這裏有一張hbase表test:test: hbase(main):009:

原创 Flink實時計算pv、uv的幾種方法

本文首發於:Java大數據與數據倉庫,Flink實時計算pv、uv的幾種方法 實時統計pv、uv是再常見不過的大數據統計需求了,前面出過一篇SparkStreaming實時統計pv,uv的案例,這裏用Flink實時計算pv,uv。 我們

原创 Hadoop 數據遷移用法詳解

數據遷移使用場景 冷熱集羣數據分類存儲,詳見上述描述. 集羣數據整體搬遷.當公司的業務迅速的發展,導致當前的服務器數量資源出現臨時緊張的時候,爲了更高效的利用資源,會將原A機房數據整體遷移到B機房的,原因可能是B機房機器多,而且B機房本身