原创 mysql執行外部sql文件的命令

方法一 使用cmd命令執行(windows下,unix或Linux在的其控制檯下)【MySQL的bin目錄】\mysql –u用戶名 –p密碼 –D數據庫<【sql腳本文件路徑全名】,示例:D:\mysql\bin\mysql –uro

原创 論述flume中batchSize,capacity,transactionCapacity參數之間的關係

舉例: a1.sources = r1 a1.sinks = k1 a1.channels = c1 ##source a1.sources.r1.

原创 hadoop streaming 按字段排序與輸出分割詳解

1.默認情況 在Hadoop streaming的默認情況下,是以”\t”作爲分隔符的。對於標準輸入來說,每行的第一個”\t” 以前的部分爲key,其他部分爲對應的value。如果一個”\t”字符沒有,則整行都被當做key。這個 2

原创 Python集合(set)類型的操作

python的set和其他語言類似, 是一個無序不重複元素集, 基本功能包括關係測試和消除重複元素. 集合對象還支持union(聯合), intersection(交), difference(差)和sysmmetric differe

原创 Hadoop-Streaming實戰經驗及問題解決方法總結

看到一篇不錯的Hadoop-Streaming實戰經驗的文章,裏面有大部分的情景都是自己實戰中曾經遇到過的。特意轉載過來,感謝有心人的總結。 目錄 Join操作分清join的類型很重要… 啓動程序中key字段和partitio

原创 CentOS修改ulimit(最大進程數和最大文件打開數)

ulimit -n和-u可以查看Linux的最大進程數和最大文件打開數。 臨時方法: 爲了優化linux性能,可能需要修改這個最大值。臨時修改的話ulimit -n 204800就可以了,重啓後失效。 永久生效的方法: 修改

原创 打印rdd

###統計wordcount單詞,並打印出來 valsplitfile=sc.textFile("/a.txt") valwordcounts=splitfile.flatMap(x=>x.split("\t")).map(word=>(

原创 python中的jieba分詞使用手冊

jieba“結巴”中文分詞:做最好的 Python 中文分詞組件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Pyth

原创 flume與kafka

摘要: (1)kafka和flume都是日誌系統。kafka是分佈式消息中間件,自帶存儲,提供push和pull存取數據功能。flume分爲agent(數據採集器),collector(數據簡單處理和寫入),storage(存儲器)三部

原创 Hbase表數據的導入和導出

轉載自:http://blog.csdn.net/javajxz008/article/details/61173213 Hbase沒有提供類似於hive根據已有表的建表建表語句,如在hive中創建一個和已有表表結構完全一樣的表可執行

原创 hbase版本對應的hadoop版本

X: 不支持  ;   S:support 支持; NT:not test (沒有測試)   HBase-0.94.x HBase-0.98.x (Support for Hadoop 1.1+ is deprecated.)

原创 hadoop中mapred.tasktracker.map.tasks.maximum的設置

目前,我們郵件的一部分log已經遷移到Hadoop集羣上 並由Hive來執行相關的查詢 hadoop中默認的mapred.tasktracker.map.tasks.maximum設置是2 也即:每一個tasktracker同時運行的ma

原创 這些都是曾經被人瞧不起,現在卻讓人高攀不起的5位明星!!

剛畢業的佟麗婭被前輩帶去見趙寶剛導演,不料趙寶剛直接來了句:你長成這樣怎麼當演員?還嫌棄她沒有星相,很難成名。但讓人沒想到的是,憑藉《宮鎖心玉》《北京愛情故事》... 王俊凱:王俊凱13歲參加過河南衛視《你最有才》,演唱《囚鳥》

原创 龍哥,流淚,尊嚴

成龍從小不願意唸書,6歲被送去戲曲學院練功。不太富裕的父母爲賺錢,遠走澳洲。在成龍的記憶中,戲曲學院那塊地毯從沒換過,上面有各種東西……剩菜、剩飯、師傅的痰漬。當然,還有自己的淚。 剛進戲曲學院,所有人要求要剃成小光頭,成龍這一光就是

原创 倒排索引和正排索引

正排索引(正向索引) 正排表是以文檔的ID爲關鍵字,表中記錄文檔中每個字的位置信息,查找時掃描表中每個文檔中字的信息直到找出所有包含查詢關鍵字的文檔。 正排表結構如圖1所示,這種組織方法在建立索引的時候結構比較簡單,建立比較方便且易