原创 那些最小化centos7安裝圖形化界面的坑

環境:虛擬機下CentOS7: 一、安裝圖形化界面、 一條命令解決:yum -y groupinstall "GNOME Desktop" (雙引號是必須的),早版本中可能是這個名字"GNOME Desktop Environment"

原创 sqoop實例操作及詳細參數解析

1、MySQL數據庫中的數據導入到Hadoop的HDFS: 使用命令: $ sqoop import $ sqoop-import 示例: $ sqoop import \ --connect j

原创 python3字符串字節轉碼相關問題

這得從一張圖片說起: 就長上面這個樣子,對了,不能正常顯示的是中文。 身爲老司機,一看就是字符編碼的問題。 然後果斷檢查輸入數據源什麼編碼,然後自信的.decode()。 然而並沒有什麼卵用,我記錯了?測試一下:

原创 python3將mongodb數據遷移至mysql

新鮮的,IP隱匿,直接貼出代碼: # -*- coding: utf-8 -*- """ Created on Tue Aug 14 14:00:55 2018 @author: admin """ from pymongo

原创 腳本執行命令實例詳解

使用linux不免要用到執行腳本,比如一個文件a.sh,我們有時會見到用. a.sh去執行,有時見到用sh a.sh去執行,或者bash a.sh,或者source a.sh,那麼這兩種執行腳本的方式有什麼區別呢?這個問題也困惑了

原创 常用排序算法python實現

一直捋不清幾個排序,特意花點時間理解一下,有碼有字有動圖,明天補完 1、插入排序: 不斷將待排序中元素一個一個插入一個有序序列中(一般初始爲待排序序列中的第一個元素,且待排序列表和有序列表其實在一個列表),最終

原创 記一次實際sqoop業務的理解(註釋多)

最近梳理一項sqoop業務,整理如下(儘可能詳細註釋,表名,IP,賬戶密碼,以及實際代碼都做了處理,當作demo看完全可以的,可運行): 1、mysql -> hive(創建任務->執行任務) 創建用戶任務腳本createUs

原创 python3操作HDFS

直接貼代碼 # -*- coding: utf-8 -*- """ Created on Thu Aug 9 09:09:56 2018 @author: admin """ from hdfs import Client #

原创 python版MR任務完整過程(附代碼)

將近期寫的MR程序及過程記錄下來。 簡單介紹下環境: hadoop2.6.4 hadoop-streaming-2.6.0.jar 線上python2,線下python3都可以用 首先放上需要的代碼,定製python代碼,很爽

原创 YARN工作全解

首先放張YARN官網的圖便於理解: 講一下YARN的優點(網上一搜一籮筐): 首先要提一下MapReduce1,它只包含JobTracker(協調在集羣上運行的所有作業)和TaskTracker(運行分配的任務並定期向 Jo

原创 事務4種隔離級別實例解析

數據庫事務的隔離級別有4種,由低到高分別爲Read uncommitted 、Read committed 、Repeatable read 、Serializable 。而且,在事務的併發操作中可能會出現髒讀,不可重複讀,幻讀。

原创 查看MySQL,HDFS空間佔用情況

查看所有數據庫大小(通用) select TABLE_SCHEMA, concat(truncate(sum(data_length)/1024/1024,2),' MB') as data_size, concat(trunca

原创 阿里媽媽關鍵詞排序筆試題

說在前面: 兩個小問題:1、沒處理處理編碼問題,建議使用python3,這將不是個問題; 2、結果沒有排序輸出; 其他完全ok,有時間再完善吧。 題目: 阿里媽媽廣告直通車是一個基於關鍵詞(比如,“連衣裙”,“手機”)的競

原创 hadoop服務器節點間免密通信圖文過程

配置hadoop各節點之間免密通信時候,雖然有教程,但還是花費了很多時間,不過做過很多次之後似乎也更加順手了,理解也更清晰了。 在虛擬機上配置玩的,所以全部不打碼了: 首先進入賬戶主目錄: 1、我直接用的root(不建議):

原创 centos7下完全式hadoop集羣搭建

初入數倉坑,搭建hadoop集羣折騰了幾天險些讓我崩潰,好歹是讓我看到了結果: 當然雖然過程坑了點耗費了相當心力,但好處是對配置的理解更明白了些,當然流程更是爛熟於心了。下面就開始總結吧:免密通信就不提了需要的話可以直接戳ht