原创 Python 將圖片轉化爲 HTML 頁面

PIL 圖像處理庫PIL(Python Imaging Library) 是 Python 平臺的圖像處理標準庫。不過 PIL 暫不支持 Python3,可以用 Pillow 代替,API是相同的。安裝 PIL 庫如果你安裝了 pip 的

原创 python 給一個數組 nums 寫一個函數將 0 移動到數組的最後面,非零元素保持原數組的順序

給一個數組 nums 寫一個函數將 0 移動到數組的最後面,非零元素保持原數組的順序 注意事項1.必須在原數組上操作 2.最小化操作數樣例給出 nums = [0, 1, 0, 3, 12], 調用函數之後, nums = [1, 3,

原创 MapReduce之:大白話講解Map/Reduce原理

Hadoop簡介Hadoop就是一個實現了Google雲計算系統的開源系統,包括並行計算模型Map/Reduce,分佈式文件系統HDFS,以及分佈式數據庫Hbase,同時Hadoop的相關項目也很豐富,包括ZooKeeper,Pig,Ch

原创 用python實現Hive中的UDF函數

簡介 Hive爲我們提供了衆多的內置函數,但是在實際的運用過程中仍然不能滿足我們所有的需求.hive是用java開發的,本身提供了使用java去開發UDF的方式.而這裏我們採用python的方式去實現UDF函數. DEMO實現 我們這裏用

原创 python實現Spark(Hive) SQL中UDF的使用

相對於使用MapReduce或者Spark Application的方式進行數據分析,使用Hive SQL或Spark SQL能爲我們省去不少的代碼工作量,而Hive SQL或Spark SQL本身內置的各類UDF也爲我們的數據處理提供了

原创 MapReduce工作原理圖文詳解

目錄:1.MapReduce作業運行流程2.Map、Reduce任務中Shuffle和排序的過程 正文: 1.MapReduce作業運行流程下面貼出我用visio2010畫出的流程示意圖:   流程分析:1.在客戶端啓動一個作業。2.向J

原创 Hive 查看函數(udf)定義及示例

1、 desc function  split ;返回 split(str, regex) - Splits str around occurances that match regexTime taken: 0.056 seconds 

原创 python 突破酷狗收費音樂下載

前言:    最近很煩,就想着聽聽歌,這時候就突然想起來偶然間聽到的一首歌,在酷狗上搜了下,居然還收費,好吧,心情本來就不好,就拿你開刀吧!介紹:  直接上代碼了,不寫分析過程了,而且也不是什麼大工程,最後會輸出一大堆的結果,需要你自己挑

原创 Hive:Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.FunctionTask Ask

I wrote a test.sql file and ran it with hive. I got the error when hive was parsing to the code(show below):[CODE]: CRE

原创 MapReduce之:詳解shuffle過程

Shuffle過程是MapReduce的核心,也被稱爲奇蹟發生的地方。要想理解MapReduce, Shuffle是必須要了解的。我看過很多相關的資料,但每次看完都雲裏霧裏的繞着,很難理清大致的邏輯,反而越攪越混。前段時間在做MapRed

原创 關於spark RDD trans action算子、lineage、寬窄依賴詳解

這篇文章想從spark當初設計時爲何提出RDD概念,相對於hadoop,RDD真的能給spark帶來何等優勢。之前本想開篇是想總體介紹spark,以及環境搭建過程,但個人感覺RDD更爲重要鋪墊在hadoop中一個獨立的計算,例如在一個迭代

原创 ZooKeeper 原理及其在 Hadoop 和 HBase 中的應用

ZooKeeper是一個開源的分佈式協調服務,由雅虎創建,是Google Chubby的開源實現。分佈式應用程序可以基於ZooKeeper實現諸如數據發佈/訂閱、負載均衡、命名服務、分佈式協調/通知、集羣管理、Master選舉、分佈式鎖和

原创 MapReduce面試題1

簡述MapReduce的流程Mapreduce數據傾斜原因和解決方案https://blog.csdn.net/wypersist/article/details/79797075MapReduce 執行過程分析https://blog.

原创 python max函數中使用key

代碼: a = dict(((1,3),(0,-1),(3,21))) m = max(a, key=a.get) 爲什麼這返回與最大值對應的鍵? 字典“a”是python中的一個可迭代的結構。當您在a中循環使用x時,您將循環使用

原创 Hadoop面試題

1)列出Hadoop集羣的Hadoop守護進程和相關的角色。Namenode:它運行上Master節點上,負責存儲的文件和目錄所有元數據。它管理文件的塊信息,以及塊在集羣中分佈的信息。Datanode:它是一個存儲實際數據的Slave節點