原创 URLError:

在寫一個簡單小爬蟲時,命令行執行時遇到下面這個錯誤: Traceback (most recent call last): File "E:\Anaconda2\lib\site-packages\boto\utils.py",

原创 centos6.7+python3.5.2安裝scrapy(待修改完善)

在安裝scrapy的前提需要安裝python,pip,setuptools,OpenSSL,lxml 安裝python3.5,pip參考這篇文章 安裝lxml: 安裝之前記得安裝libxslt和libxml yum install l

原创 Hive管理表(內部表)數據加載及JOIN操作

> 數據加載 數據準備: 在本地先創建兩個txt文件: mahao@ubuntu:~$ cat user.txt 1,zhangsan 2,lisi 3,wangwu mahao@ubuntu:~$ cat job.txt

原创 快速開始Spark

基礎 Spark shell提供一個交互式的數據分析工具,可以用來學習API。 啓動python的shell: ./bin/pyspark Spark的最主要抽象是RDD(Resilient Distributed Datase

原创 Mariadb集羣實現部分數據庫不同步的功能

更改每個機器的/etc/my.cnf.d/server.cnf文件: 添加 [server] server-id = 1 replicate-ignore-db=db_name1,db_name2 binlog-ig

原创 Spark SQL,DataFrames and DataSets Guide官方文檔翻譯

Spark SQL是一個結構化數據處理的Spark模塊。 DataSets和DataFrames 一個DataSet是一個分佈式數據集合,類似於RDDs。可以構建於JVM對象,並用函數式transformation(map,flatMap

原创 Lateral View語法

語法 lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* 數據準備 假設我們有一張表pageAds,它

原创 Hive僞分佈模式安裝

1、安裝和配置 可以通過下載壓縮包來安裝一個穩定版的Hive,也可以下載源碼進行編譯。 1.1 運行HiveServer2和Beeline 1.2要求 java1.7+,官網推薦1.8 Hadoop2.x 1.3安裝Hive的穩定版 下

原创 Mariadb配置文件優化參數(僅供參考)

[client]#password= your_passwordport= 3306         socket= /tmp/mysql.sock!includedir /opt/local/mysql/wsrep# The MySQL

原创 pyspark命令行打印日誌問題

在使用spark-submit運行工程jar包時常常會出現一下兩個問題: 1.在程序中手打的log(如print(“***testRdd.count=”+testRdd.count())常常會因被下一個Job的執行日誌覆蓋掉而

原创 Hive分桶表及抽樣查詢

抽樣查詢 對於非常大的數據集,用戶不需要全部查詢的結果,只需要一個代表性的查詢結果時,可以通過對錶進行分桶抽樣。 Hive分桶表 先介紹一下Hive桶。 桶是比表或分區更爲細粒度的數據範圍劃分。針對某一列進行桶的組織,對列值哈希

原创 Spark中的aggregate和aggregateByKey的區別及疑惑

aggregate(zeroValue,seq,comb,taskNums) 將初始值和第一個分區中的第一個元素傳遞給seq函數進行計算,然後將計算結果和第二個元素傳遞給seq函數,直到計算到最後一個值。第二個分區中也是同理操作。

原创 Linux下修改PATH變量

PATH環境變量的設置方法: 方法一:用戶主目錄下的.profile或.bashrc文件(推薦) 登錄到你的用戶(非root),在終端輸入: $ sudo gedit ~/.profile(or .bashrc) 可以在此

原创 CentOS7.2下MariaDB的安裝

centos7.2安裝mariadb集羣: 1、關閉SELinux: 先查看SELinux狀態:/usr/sbin/sestatus -v,如果SELinux status: enabled,說明是開啓狀態,修改/etc/seli

原创 excel 查找/替換 回車鍵

excel 查找/替換 回車鍵 操作如下: 首先 ctrl +f 在”查找內容“中輸入回車鍵的組合 2.1 如果是筆記本電腦,右下角不是數字鍵盤的那種 光標放入“查找內容” 按下 ctrl與j; 2.2 如果用的是大鍵盤的話,就