原创 hive的order by語句分析

    Hive中的order by跟傳統的sql語言中的order by作用是一樣的,會對查詢的結果做一次全局排序,所以說,只有hive的sql中制定了order by所有的數據都會到同一個reducer進行處理(不管有多少map

原创 提取URL地址中的域名與端口

import urllib proto, rest = urllib.splittype("http://blog.csdn.net/djd1234567") print proto,rest host, rest =

原创 ipconfig指令的使用指南

ipconfig——當使用IPConfig時不帶任何參數選項,那麼它爲每個已經配置了的接口顯示IP地址、子網掩碼和缺省網關值。 ipconfig /all——當使用all選項時,IPConfig能爲DNS和WINS服務器顯示它已配置且所要

原创 Hive中的數據庫(Database)和表(Table)

在前面的文章中,介紹了可以把Hive當成一個“數據庫”,它也具備傳統數據庫的數據單元,數據庫(Database/Schema)和表(Table)。 本文介紹一下Hive中的數據庫(Database/Schema)和表(Table)的基

原创 hive優化策略之控制map數和reduce數

我們可以通過控制map和reduce的數量來平衡資源達到優化程序的目的。 一、map數量 map的數量與你輸入的文件個數和大小有關,你可以通過set dfs.block.size;來查看集羣設置的文件塊大小,該參數不能自定義修改。 hiv

原创 linux lsof使用詳解,查看進程使用的文件、恢復刪除文件

lsof簡介lsof(list open files)是一個列出當前系統打開文件的工具。在linux環境下,任何事物都以文件的形式存在,通過文件不僅僅可以訪問常規數據,還可以訪問網絡連接和硬件。所以如傳輸控制協議 (TCP) 和用戶數據報

原创 hive什麼時候會使用本地的mapreduce

如果在hive中運行的sql本身數據量很小,那麼使用本地mr的效率要比分佈式的快很多。 //開啓本地mr set hive.exec.mode.local.auto=true;  //設置local mr的最大輸入數據量,當輸入數據量

原创 Hive:ORC與RC存儲格式之間的區別

一、定義   ORC File,它的全名是Optimized Row Columnar (ORC) file,其實就是對RCFile做了一些優化。據官方文檔介紹,這種文件格式可以提供一種高效的方法來存儲Hive數據。它的設計目標是來克

原创 Spark:Yarn-cluster和Yarn-client區別與聯繫

        我們都知道Spark支持在yarn上運行,但是Spark on yarn有分爲兩種模式yarn-cluster和yarn-client,它們究竟有什麼區別與聯繫?閱讀完本文,你將瞭解。   Spark支持可插拔的集羣管理模

原创 Python集合類型的操作---set

python的set和其他語言類似, 是一個無序不重複元素集, 基本功能包括關係測試和消除重複元素. 集合對象還支持union(聯合), intersection(交), difference(差)和sysmmetric differen

原创 Pycharm 5.0 and Pycharm 2016 的破解

安裝軟件之後,調整時間到2050年,然後申請三十天試用,之後退出pyCharm,然後將時間調成回來就ok了。 點贊 收藏 分享 文章舉報 djd已經存在 發佈了490 篇原創

原创 HTML URL 編碼

下面是用 URL 編碼形式表示的 ASCII 字符(十六進制格式)。 十六進制格式用於在瀏覽器和插件中顯示非標準的字母和字符。 URL 編碼 - 從 %00 到 %8f ASCII Value URL-encode AS

原创 抓取csdn博客的所有文章url

輸入博客的主域名,就可以抓取這個博客所有的文章編號。 # -*- coding:utf8 -*- import string import urllib2 import re import time import random cl

原创 域名、IP地址、URL關係

域名是個文字形式記錄的IP地址  IP地址是計算機在網絡中的門牌號! URL是網頁地址 例如1: http://zhidao.baidu.com/question/14674128.html 是URL zhidao.baidu.

原创 SecureCRT rz 上傳文件失敗問題

有時候使用rz上傳大文件會失敗,以爲文件越大到最後最容易亂碼 下次只需要 使用 rz -be 就可以了,將以ascill編碼勾選。 -a, –ascii -b, –binary 用binary的方式上傳下載,不解釋字符爲ascii -e,