原创 大數據開發-Sql-涉及迭代數據的sql問題處理思路

在前面一篇裏面,算法-一個經典sql 題和一個Java算法題 大數據開發-Hive-常用日期函數&&日期連續題sql套路有一道經典sql題目,解決連續問題,本文繼續總結關於連續性的套路,來自於實際生產項目的問題,本文略去其他不重要信息字段,

原创 大數據開發-Spark-拷問靈魂的5個問題

1.Spark計算依賴內存,如果目前只有10g內存,但是需要將500G的文件排序並輸出,需要如何操作? ①、把磁盤上的500G數據分割爲100塊(chunks),每份5GB。(注意,要留一些系統空間!) ②、順序將每份5GB數據讀

原创 大數據開發-Spark-RDD實操案例-http日誌分析

1.在生產環境下,如何處理配置文件 && 表的數據處理 配置文件,或者配置表,一般是放在在線db,比如mysql等關係型數據庫,或者後臺rd直接丟給你一份文件,數據量比起整個離線數據倉庫的大表來說算很小,所以這種情況下,一般的做法是將小表,

原创 機器學習-KMeans算法原理 && Spark實現

不懂算法的數據開發者不是一個好的算法工程師,還記得研究生時候,導師講過的一些數據挖掘算法,頗有興趣,但是無奈工作後接觸少了,數據工程師的鄙視鏈,模型>實時>離線數倉>ETL工程師>BI工程師(不喜勿噴哈),現在做的工作主要是離線數倉,當然前

原创 大數據開發-生產中遇到的10個致命問題

生產環境版本 Hive: 1.2.1, Spark: 2.3.2 1.insert overwrite directory 不會覆蓋數據 注意,生成結果是目錄,生成目錄裏面的不同文件名不會被覆蓋,因此很容易出現數據double或者沒有覆蓋到

原创 機器學習-KNN算法原理 && Spark實現

不懂算法的數據開發者不是一個好的算法工程師,還記得研究生時候,導師講過的一些數據挖掘算法,頗有興趣,但是無奈工作後接觸少了,數據工程師的鄙視鏈,模型>實時>離線數倉>ETL工程師>BI工程師(不喜勿噴哈),現在做的工作主要是離線數倉,當然前

原创 算法-Leetcode幾個雙指針問題

1.搜索插入位置 https://leetcode-cn.com/problems/search-insert-position/ class Solution { public int searchInsert(int[] num

原创 大數據開發-Spark-共享變量之累加器和廣播變量

Spark 累加器與廣播變量 一、簡介 在 Spark 中,提供了兩種類型的共享變量:累加器 (accumulator) 與廣播變量 (broadcast variable): 累加器:用來對信息進行聚合,主要用於累計計數等場景;

原创 算法 - 鏈表操作題目套路

0. 前言 簡單的題目,但是沒有練習過或者背過,可能反而也寫不出來,在面試中往往是在短時間內就寫完,你沒有時間畫圖,沒有時間推演,這些都只能在腦子裏快速完成,有時候拼了很久,覺得還是沒有感覺,即使寫出來了,在過後的一週到一個月照樣會忘記,b

原创 算法 - 如何從股票買賣中,獲得最大收益

作爲一名從副業中已賺取幾個月工資的韭菜,顯然對這類題目很有搞頭,但是實際中往往不知道的是股票的未來價格,所以需要預測,而你的實盤實際上也會反過來影響股票,所以沒人能完整預測股票的走勢,那些從回溯中取的最大值的算法,就是下面的幾種,有必要掌握

原创 大數據開發-Spark-RDD的持久化和緩存

1.RDD緩存機制 cache, persist Spark 速度非常快的一個原因是 RDD 支持緩存。成功緩存後,如果之後的操作使用到了該數據集,則直接從緩存中獲取。雖然緩存也有丟失的風險,但是由於 RDD 之間的依賴關係,如果某個分區的

原创 大數據開發-Spark-閉包的理解

1.從Scala中理解閉包 閉包是一個函數,返回值依賴於聲明在函數外部的一個或多個變量。閉包通常來講可以簡單的認爲是可以訪問一個函數裏面局部變量的另外一個函數。 如下面這段匿名的函數: val multiplier = (i:Int) =>

原创 大數據開發-解決Windows下,開發環境常遇的幾個問題

1.背景 大數據開發的測試環境,很多人不以爲然,其實重複的打包,上傳,測試雖然每次時間大概也就幾分鐘,但是積累起了往往會花費很多的時間,但是一個完整的測試環境在生產環境下往往難形成閉環,拋開堡壘機權限不說,hadoop,hive,spark

原创 大數據開發-Spark-一文理解常見RDD

1.五個基本Properties A list of partitions A function for computing each split A list of dependencies on other RDDs O

原创 大數據開發-Docker-使用Docker10分鐘快速搭建大數據環境,Hadoop、Hive、Spark、Hue、Kafka、ElasticSearch.....

立個坑,教程後續補上,當然這不是最重要的,如果你僅僅想有個環境可以測試,只需要下面 三步 1.git clone https://github.com/hulichao/docker-bigdata ` 2.安裝docker和docker