原创 Spark1.3.0新特性概覽

 自2013年3月面世以來,Spark SQL已經成爲除Spark Core以外最大的Spark組件。除了接過Shark的接力棒,繼續爲Spark用戶提供高性能的SQL on Hadoop解決方案之外,它還爲Spark帶來了通用、高效

原创 文件右鍵添加自定義選項

最近使用sublime text 3發現特別不好用的一點就是打開文件的時候右鍵沒有  sublime text 3選項,讓人無比糾結,所以在註冊

原创 centos shell命令行只顯示-bash-4.1#不顯示用戶和路徑解決方法

 今天一不小心打了home目錄刪除命令,雖然最後因爲種種原因沒有刪掉,但是home目錄下很多文件和目錄都被刪了,而且命令行也不顯示當前用戶和路徑了。 下面對其重新設置,需要設置兩個文件:~/.bashrc和~/.bash_prof

原创 vim快捷鍵整理

 一、移動光標 1、左移h、右移l、下移j、上移k 2、向下翻頁ctrl + f,向上翻頁ctrl + b 3、向下翻半頁ctrl + d,向上翻半頁ctrl + u 4、移動到行尾$,移動到行首0(數字),移動到行首第一個字

原创 Windows下使用sbt打造Intellij Idea環境下Spark源碼閱讀環境

1. 在windows下搭建 Spark源碼閱讀環境的準備 Spark源碼是有Scala語言寫成的,目前,IDEA對Scala的支持要比eclipse要好,大多數人會選在在IDEA上完成Spark平臺應用的開發。因此,Spark源碼閱

原创 倒排索引實現

簡介:參考文章: 輸入輸出: 輸入: a.txt: hadoop hello world hello test test hadoop b.txt: test world hello world test hadoop 輸出: ha

原创 倒排索引基礎知識

 1.單詞——文檔矩陣        單詞-文檔矩陣是表達兩者之間所具有的一種包含關係的概念模型,圖3-1展示了其含義。圖3-1的每列代表一個文檔,每行代表一個單詞,打對勾的位置代表包含關係。                    

原创 Linux格式化並重新加載磁盤

        今天在用fio做完centos系統IO對比測試後,發現個嚴重的問題,用df工具查看磁盤,發現經過fio寫操作的磁盤容量變成了這樣:          瞬間就有一種不好的感覺,果然,經過多方查證,是由於磁盤反覆進行寫操作導

原创 Hadoop2.6.0 + zookeeper集羣環境搭建

前提:已安裝好centos6.5操作系統                                             hadoop HA(QJM)集羣配置規劃 IP Hostname 備註 192.168.10

原创 No FileSystem for scheme: hdfs

          最近幾個項目模塊要從hadoop1升級到hadoop2,不過在修改的過程中出現了一些問題,其中一個問題就是在使用 FileSystem fs = FileSystem.get(conf);調用hdfs時報錯,具體報錯信

原创 Not implemented by the DistributedFileSystem FileSystem implementation

        同樣是在將模塊升級到hadoop2的過程中,在intellij idea中好不容易更換了一大堆jar包,修改了一些代碼,提交到集羣終於能跑了!但是在偶然間用eclipse導出jar提交卻報了以下的錯誤信息: 說是找不到d

原创 win8.1中部分軟件輸入中文顯示問號問題

      最近新買了電腦,預裝了正版win8.1,不過在今天發現一些軟件輸入中文時會變成問號(xshell、RTX等),這種坑爹,之前另一臺機用win8.1用了快兩年都沒這問題!在網上搜索了好久都沒發現問題出在哪兒,最後看到在一個博客裏

原创 java和scala分別實現WordCount

        WordCount作爲大數據領域的經典範例,如同HelloWorld在程序設計中的地位一樣,是一個入門程序。在此使用並行化處理介紹WordCount程序過程。 1. 實例描述 輸入(txt): Hello Wo

原创 Intellij idea使用java編寫並執行spark程序

        初學使用Intellij idea編寫spark程序。由於公司要求用java編寫,但網上基本又是用scala來寫spark程序(雖然確實用scala來寫比java好很多),摸索之後決定把整個流程記錄下來. 開發環境: In

原创 hive綁定本地mysql爲元數據庫

突然想起來之前寫過一篇關於將hive元數據庫從默認的本地derby更改爲綁定到遠程mysql的文章,在雲筆記裏面翻了一下發現還真在,現在分享給各位~~ 環境: 操作系統:Centos6.5 mysql:5.6 hive:0.13.1