原创 python字符編碼

簡書這篇寫的不錯 https://www.jianshu.com/p/53bb448fe85b

原创 Hadoop streaming相關筆記

1、設置分隔符 我們知道,Hadoop streaming框架默認情況下會以’/t’作爲分隔符,將每行第一個’\t’之前的部分作爲key,其餘內容作爲value,如果沒有’\t’分隔符,則整行作爲key;這個key/tvalue對又作爲r

原创 Markdown編輯

歡迎使用Markdown編輯器寫博客 本Markdown編輯器使用StackEdit修改而來,用它寫博客,將會帶來全新的體驗哦: Markdown和擴展Markdown簡潔的語法 代碼塊高亮 圖片鏈接和圖片上傳 LaTex數學公式 UM

原创 awk命令相關

1、awk對多文件進行同時處理時的方法 本地執行方式一 awk -F '\t' 'FILENAME~"name1"{...}FILENAME~"name2"{....}' 本地執行方式二 awk -F '\t' '{if(match(FI

原创 LSA算法相關

https://blog.csdn.net/brink_compiling/article/details/76237871 暫時保留下這篇,等看完後再自己寫一篇

原创 hadoop權威指南(第三版)讀書筆記

本書筆記根據Hadoop權威指南第三版中文版進行整理 第二章 1、hadoop的輸出路徑不應該存在,否則報錯,爲什麼? 答:目的是爲了防止數據的意外丟失,如果不小心覆蓋了原有的文件,則是非常惱人的。 2、Hadoop爲什麼要自定義序列