原创 !?這都大數據時代了,你居然還不知道Oozie是什麼?

Oozie 概念 Oozie是運行在hadoop平臺上的一種工作流調度引擎,它可以用來調度與管理hadoop任務,如,MapReduce、Pig等。 oozie的組件介紹 workFlow:工作流,定義工作流任務的執行,主要由一

原创 Python SQLAlchemy 簡單的CRUD

大家好,我是練習時長兩年半的大數據練習生,喜歡數學,AI,大數據。 寫博客是爲了總結,分享,自娛自樂。希望寫出的東西會對自己,對別人都有價值! 廢話不多說,現在是個終身學習的時代,開始學習了!奧力給!幹了兄弟們! 是時候展現真正

原创 Python 導入多個包時更漂亮的代碼

本來是這樣的:都擠在一行裏了,瀏覽代碼時看着不方便 from sqlalchemy import create_engine,Integer,String,Column,Float,Boolean,DECIMAL,DateTime

原创 Python Faker 入門大綱總結,建立對Faker的第一印象

大家好,我是練習時長兩年半的大數據練習生,喜歡數學,AI,大數據。 寫博客是爲了總結,分享,自娛自樂。希望寫出的東西會對自己,對別人都有價值! 廢話不多說,現在是個終身學習的時代,開始學習了!奧力給!幹了兄弟們! 是時候展現真正

原创 [入門Git]一文帶你入門Git + Gitee碼雲 + IDEA整合!良心乾貨!

大家好,我是練習時長兩年半的大數據練習生,喜歡數學,AI,大數據。 寫博客是爲了總結,分享,自娛自樂。希望寫出的東西會對自己,對別人都有價值! 廢話不多說,現在是個終身學習的時代,開始學習了!奧力給!幹了兄弟們! 是時候展現真正

原创 Faker 新版本Faker類的用法

大家好,我是練習時長兩年半的大數據練習生,喜歡數學,AI,大數據。 寫博客是爲了總結,分享,自娛自樂。希望寫出的東西會對自己,對別人都有價值! 廢話不多說,現在是個終身學習的時代,開始學習了!奧力給!幹了兄弟們! 是時候展現真正

原创 Oozie 安裝

文章目錄第一步:修改core-site.xml第二步:上傳oozie的安裝包並解壓第三步:解壓hadooplibs到與oozie平行的目錄第四步:創建libext目錄第五步:拷貝依賴包到libext第六步:添加ext-2.2.zi

原创 記人生第1次面試:爬蟲工程師(實習生) [失敗]

大家好,我是練習時長兩年半的大數據練習生,喜歡數學,AI,大數據。 寫博客是爲了總結,分享,自娛自樂。希望寫出的東西會對自己,對別人都有價值! 廢話不多說,現在是個終身學習的時代,開始學習了!奧力給!幹了兄弟們! 是時候展現真正

原创 還不知道SparkSQL中left semi join操作與left join操作的區別?進來一看便知!

leftJoin類似於SQL中的左外關聯left outer join,返回結果以第一個RDD爲主,關聯不上的記錄爲空。 部分場景下可以使用left semi join替代left join: 因爲 left semi join

原创 Python 類的基礎用法

大家好,我是練習時長兩年半的大數據練習生,喜歡數學,AI,大數據。 寫博客是爲了總結,分享,自娛自樂。希望寫出的東西會對自己,對別人都有價值! 廢話不多說,現在是個終身學習的時代,開始學習了!奧力給!幹了兄弟們! 是時候展現真正

原创 Python SQLAlchemy 表的ORM描述

大家好,我是練習時長兩年半的大數據練習生,喜歡數學,AI,大數據。 寫博客是爲了總結,分享,自娛自樂。希望寫出的東西會對自己,對別人都有價值! 廢話不多說,現在是個終身學習的時代,開始學習了!奧力給!幹了兄弟們! 是時候展現真正

原创 Python SQLAlchemy Alembic的使用

大家好,我是練習時長兩年半的大數據練習生,喜歡數學,AI,大數據。 寫博客是爲了總結,分享,自娛自樂。希望寫出的東西會對自己,對別人都有價值! 廢話不多說,現在是個終身學習的時代,開始學習了!奧力給!幹了兄弟們! 是時候展現真正

原创 [BUG記錄]idea創建子MAVEN模塊再remove再delete,再次創建同名子MAVEN模塊就會丟失資源文件夾和造成pom文件失效

1,先在項目下創建一個MAVEN模塊 2, 3,命名爲good0001 4,可以看到這裏是正常的,另外pom文件也可以正常導包 5,接下來remove並delete這個子模塊 6,按照上面的步驟創建一個同名的子模塊

原创 HBase 用Spark導入MySQL數據到HBase

用Spark導入MySQL數據到HBase ​企業中大規模數據存儲於HBase背景: 項目中有需求,要頻繁地、快速地向一個表中初始化數據。因此如何加載數據,如何提高速度是需要解決的問題。 一般來說,作爲數據存儲系統會分爲檢索和存儲

原创 HBase ImportTSV

TSV文件與CSV文件的區別 TSV是Tab-separatedvalues的縮寫,即製表符分隔值。 相對來說CSV,Comma-separatedvalues(逗號分隔值)更常見一些。 ImportTSV功能描述: Import