原创 hive的order by語句分析
Hive中的order by跟傳統的sql語言中的order by作用是一樣的,會對查詢的結果做一次全局排序,所以說,只有hive的sql中制定了order by所有的數據都會到同一個reducer進行處理(不管有多少map
原创 提取URL地址中的域名與端口
import urllib proto, rest = urllib.splittype("http://blog.csdn.net/djd1234567") print proto,rest host, rest =
原创 ipconfig指令的使用指南
ipconfig——當使用IPConfig時不帶任何參數選項,那麼它爲每個已經配置了的接口顯示IP地址、子網掩碼和缺省網關值。 ipconfig /all——當使用all選項時,IPConfig能爲DNS和WINS服務器顯示它已配置且所要
原创 Hive中的數據庫(Database)和表(Table)
在前面的文章中,介紹了可以把Hive當成一個“數據庫”,它也具備傳統數據庫的數據單元,數據庫(Database/Schema)和表(Table)。 本文介紹一下Hive中的數據庫(Database/Schema)和表(Table)的基
原创 hive優化策略之控制map數和reduce數
我們可以通過控制map和reduce的數量來平衡資源達到優化程序的目的。 一、map數量 map的數量與你輸入的文件個數和大小有關,你可以通過set dfs.block.size;來查看集羣設置的文件塊大小,該參數不能自定義修改。 hiv
原创 linux lsof使用詳解,查看進程使用的文件、恢復刪除文件
lsof簡介lsof(list open files)是一個列出當前系統打開文件的工具。在linux環境下,任何事物都以文件的形式存在,通過文件不僅僅可以訪問常規數據,還可以訪問網絡連接和硬件。所以如傳輸控制協議 (TCP) 和用戶數據報
原创 hive什麼時候會使用本地的mapreduce
如果在hive中運行的sql本身數據量很小,那麼使用本地mr的效率要比分佈式的快很多。 //開啓本地mr set hive.exec.mode.local.auto=true; //設置local mr的最大輸入數據量,當輸入數據量
原创 Hive:ORC與RC存儲格式之間的區別
一、定義 ORC File,它的全名是Optimized Row Columnar (ORC) file,其實就是對RCFile做了一些優化。據官方文檔介紹,這種文件格式可以提供一種高效的方法來存儲Hive數據。它的設計目標是來克
原创 Spark:Yarn-cluster和Yarn-client區別與聯繫
我們都知道Spark支持在yarn上運行,但是Spark on yarn有分爲兩種模式yarn-cluster和yarn-client,它們究竟有什麼區別與聯繫?閱讀完本文,你將瞭解。 Spark支持可插拔的集羣管理模
原创 Python集合類型的操作---set
python的set和其他語言類似, 是一個無序不重複元素集, 基本功能包括關係測試和消除重複元素. 集合對象還支持union(聯合), intersection(交), difference(差)和sysmmetric differen
原创 Pycharm 5.0 and Pycharm 2016 的破解
安裝軟件之後,調整時間到2050年,然後申請三十天試用,之後退出pyCharm,然後將時間調成回來就ok了。 點贊 收藏 分享 文章舉報 djd已經存在 發佈了490 篇原創
原创 HTML URL 編碼
下面是用 URL 編碼形式表示的 ASCII 字符(十六進制格式)。 十六進制格式用於在瀏覽器和插件中顯示非標準的字母和字符。 URL 編碼 - 從 %00 到 %8f ASCII Value URL-encode AS
原创 抓取csdn博客的所有文章url
輸入博客的主域名,就可以抓取這個博客所有的文章編號。 # -*- coding:utf8 -*- import string import urllib2 import re import time import random cl
原创 域名、IP地址、URL關係
域名是個文字形式記錄的IP地址 IP地址是計算機在網絡中的門牌號! URL是網頁地址 例如1: http://zhidao.baidu.com/question/14674128.html 是URL zhidao.baidu.
原创 SecureCRT rz 上傳文件失敗問題
有時候使用rz上傳大文件會失敗,以爲文件越大到最後最容易亂碼 下次只需要 使用 rz -be 就可以了,將以ascill編碼勾選。 -a, –ascii -b, –binary 用binary的方式上傳下載,不解釋字符爲ascii -e,