原创 2022年7月總結

今天,7月31號。爲了給自己一點儀式感。也是希望以後每個月都可以做到一些總結,可以保留下來自己技術學習的路線及思考。整體的目標方向是 可以比較好應對當前工作 工作設計的知識模塊,有各個技術的使用能力,理解能力。可以和同事交流、處理操作。

原创 Spark 提交執行源碼學習

SparkSubmit 執行後,執行環境準備工作 private def runDriver(): Unit = { addAmIpFilter(None, System.getenv(ApplicationConstants.AP

原创 linux 安裝mysql57 客戶端

linux 安裝mysql57 客戶端 使用yum安裝 安裝鏡像 yum localinstall https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm

原创 使用數組模擬隊列Scala

這次使用數組模擬隊列 基本思路是使用head 和tail的雙指針,當添加時候 tail指針向後移動。彈出隊列頭的時候 head指針向後移動。兩個指針範圍內的值就是隊列的內容 這次的隊列有缺陷,就是無法重複利用已經被使用過的位置。下次我們使用

原创 使用環形單向鏈表演示約瑟夫環問題Scala版本

思路 約瑟夫環問題 : 題目是 假設有N個小朋友按順序圍成一圈,每個小朋友都有一個編號,假設從第m個小朋友從1開始報數,報到k的小朋友出圈,從出圈的下一個小朋友繼續報數,重複上面的報數。直到所有的人出圈位置。 求出圈的小朋友的順序是什麼

原创 數據結構-模擬單向鏈表Scala實現

整體思路 今天介紹手動模擬單向鏈表。個人理解的鏈表的結構類似於 拆盒子游戲,表面上看存儲是一個鏈條結構,實際存儲是重複包裝的方式,我們需要實現的刪除,插入,更新 只是在層層盒子中間去掉盒子,增加盒子,該盒子的方式 首先是基本的存儲結構 單向

原创 使用數組實現環形隊列

整體思路解析 上次我們演示了使用數組實現隊列的方式,在結尾處提出了一個問題,因爲我們使用雙指針後移的方式,被彈出隊列的元素依然存在數組中,空間不能被重複利用。 這次我們提出了使用數組和雙指針實現環形隊列的方案。完成資源的利用。 基本思路:

原创 maven指定中央倉庫

國內最好的maven repository 第一步:修改maven根目錄下的conf文件夾中的setting.xml文件,內容如下: <mirrors> <mirror> <id>alimaven</id>

原创 kafka消費者偏移量手動管理-同步提交

kafka消費者偏移量手動管理-同步提交 首先,我們將參數enable.auto.commit參數的值設爲false。不進行自動偏移量提交。進行如下代碼。手動提交偏移量。爲了模擬再均衡或者消費者異常終止的情況出現的偏移量未提交的現象,我們在

原创 大數據任務部署流程

本次主要講解任務部署,從常用配置,到打包發佈。再到任務線上運行,一套全部搞定。 1. 實例代碼 新建一個項目,大部分時間需要依賴外部的jar包,但是在打包時候如果將所有依賴一起打包,最終的結果會很大,在每次上傳服務器和任務修改部署的時候都比

原创 讀書筆記——阿里數據中臺(第二篇:OneData體系1公共層建設)

今天來介紹數據中臺的第二篇,第二篇共分爲三個大部分分別對應的是阿里的數據中臺三大體系(阿里的數據中臺體系架構見上一篇),OneData體系,OneEntity體系,OneService體系,三大體系相輔相成、相互依賴,OneData體系爲基

原创 讀書筆記——阿里數據中臺(第一篇:數據中臺頂層設計)

最近在讀阿里數據中臺的書,因爲要在組內做分享,就多度了幾遍。與阿里大數據實踐之路配合,基本可以看到阿里建設數據中臺的過程,和一些技術細節。做一件有價值的事情就是把自己覺得好的東西分享出來,那麼開始內容 (1)大數據的發展歷程和價值探索 大數

原创 Hive的UDF編程-GenericUDF編程

UDF簡介 在Hive中,用戶可以自定義一些函數,用於擴展HiveQL的功能,而這類函數叫做UDF(用戶自定義函數)。UDF分爲兩大類:UDAF(用戶自定義聚合函數)和UDTF(用戶自定義表生成函數)。在介紹UDAF和UDTF實現之前,我們

原创 Hive的UDF編程-百度座標轉換火星座標

今天介紹一個座標轉換的udf,包括java代碼的編寫的udf函數的創建 1. 編寫Java代碼 打開IDEA,創建項目,導入pom文件,見下面,在Java目錄下創建udf的包,編寫GPSConverter類 <properties

原创 讀書筆記——阿里數據中臺(第二篇:OneData體系2數據資產)

今天介紹OneData體系的第二部分,這部分主要的內容是從成本中心向資源中心轉變的一個過程。這個過程的主要內容是有元數據做底層構建的。核心思想是將存儲和計算成本與數據的價值掛鉤,形成數據資產的概念。簡單的理解可以使價值/成本。本章的介紹方式