原创 window和linux換行符處理

換行方式 在早期的打印機時代,開始新的一行要佔用兩個字符的時間。如果到了一行的結尾處,你要快速回到新的一行的開頭,需要打印針頭在紙面上飛快地掠過,常常會在紙面上留下污點。解決這個問題的辦法就是,用兩個字符:一個字符<Return>來移到

原创 遠程調試Hadoop

在調研JobTracker等異常問題時經常需要遠程debug以實現單步跟蹤。相對於打印日誌,遠程調試更方面更快捷,信息也更全面。這裏列出遠程調試的基本步驟。 1、配置jvm選項啓用遠程debug Hadoop的所有deamon啓動都

原创 sqoop 從 hive 導到mysql遇到的問題

周海漢/文 2013.8.22 環境 hive 版本hive-0.11.0 sqoop 版本 sqoop-1.4.4.bin__hadoop-1.0.0 從hive導到mysql mysql 表: mysql> desc

原创 git克隆SSL報錯

錯誤:正克隆到 'dotfiles'... fatal: unable to access 'https://github.com/sontek/dotfiles.git/': SSL certificate problem, verif

原创 GNU Parallel

GNU Parallel 它是什麼? 指南 預備 parallel >= version 20130814 abc-file def-file abc0-file abc_-file tsv_file.tsv num30000 nu

原创 Hadoop工作流引擎之Oozie3.3.2

Hadoop工作流引擎之Oozie3.3.2 介紹 Oozie是一個由Yahoo開發,用於運行Hadoop工作流的開源工作流引擎。作爲一個Java Web程序,它運行在Java Servlet容器中,如Tomcat,並且使用數

原创 Python正則表達式指南

Python正則表達式指南 本文介紹了Python對於正則表達式的支持,包括正則表達式基礎以及Python正則表達式標準庫的完整介紹及使用示例。本文的內容不包括如何編寫高效的正則表達式、如何優化正則表達式,這些主題請查看其他教

原创 HBase shell commands

HBase shell commands As told in HBase introduction, HBase provides Extensible jruby-based (JIRB) shell as a feature t

原创 MapReduce源碼淺析

Thanks @讀程序的手藝人

原创 Phoenix(sql on hbase)簡介

Phoenix(sql on hbase)簡介 介紹: Phoenix is a SQL skin over HBase delivered as a client-embedded JDBC driver targeting

原创 Lateral View語法

Lateral View語法 lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* fromClause: FR

原创 Hadoop工作流引擎之JobControl

Hadoop工作流引擎之JobControl Hadoop自帶的工作流控制主要包括依賴關係組合式(JobControl)MapReduce和鏈式(Chain)MapReduce兩類。 PS:需要注意的是目前由於Hadoop有新舊兩套AP

原创 hive 結合執行計劃 分析 limit 執行原理

在hive查詢中要限制查詢輸出條數, 可以用limit 關鍵詞指定,如 select columnname1 from table1 limit 10; 這樣hive將輸出符合查詢條件的10個記錄,從根本上說, hive是hadoop提

原创 Oozie配置說明

Oozie配置說明 Oozie數據庫配置,修改oozie-site.xml文件     <property>         <name>oozie.db.schema.name</name>         <value>oozie<