原创 MapReduce 原理、過程詳解與優化 Yarn Hdfs Mapreduce 三者聯繫

參考文檔 yarn原理 一 Mapreduce Yarn Hdfs三者聯繫 (比喻有不恰當的地方,但更容易理解三者之間的關係) Mapreduce,Yarn,Hdfs三者之間的關係,可以用電腦來進行解釋。大體可以理解爲:windows

原创 Python 玩轉大數據 Mapreduce開發 wordcount

一 介紹 MapReduce 是一種分佈式編程模型,用於處理大規模的數據。用戶主要通過指定一個 map 函數和一個 reduce 函數來處理一個基於key/value pair的數據集合,輸出中間的基於key/value pair的數

原创 python操作hdfs基礎及簡單案例 python3.5 pyhdfs hadoop2.6.4

python操作hdfs基礎及簡單案例 python3.5 pyhdfs hadoop2.6.4 官方文檔 參考文檔 在mac_pro上運行,自己搭建的hadoop集羣,測試之前先要將集羣/etc/hosts文件中域名映射ip關係,追

原创 python pandas 將excell轉爲csv 處理數據日期 替換數據內換行換行 代碼親測可用

pandas 將excell轉爲csv,並且替換掉excell裏面的換行符,處理完日期 業務需求:公司從外部獲取了一份excell文件,需要把文件放到hive裏面,excell裏面有不符合要求的日期格式,並且字段裏面包含換行符,hive識

原创 Python SMTP發送郵件 python2,python3通用

Python SMTP發送郵件 python2,python3通用 業務需求:集羣每天會生成一些統計的excell報表,需要將這些excell報表定時發送到相關郵箱。主要分爲三步 ** 實例化郵件傳輸實例,和郵件服務器建立連接(打開郵箱