原创 hadoop程序開發實踐——簡單程序

本篇在hadoop上實踐了幾個hadoop程序。 分別是:詞頻統計(wordcount)、數據去重、數據排序、平均成績、單表關聯、多表關聯、倒排索引。 對hadoop程序的運行機制,特別是mapreduce的運行過程、接口規範、shuff

原创 海量數據的KNN分類、Kmeans聚類

針對海量數據,如何進行KNN分類和聚類,比如10萬行的數據。 本篇給出基本思路,具體實現未介紹。 問題:如何對海量數據(5000萬行)進行分類 分析:進行分類的前提是,已經有相同格式數據分類完畢;接下來,是如何將新的海量數據(5000行

原创 spark程序解析——WordCount

本篇解析spark的詞頻統計源程序代碼。 java源碼如下: </pre><pre name="code" class="java">package sparkTest; import java.util.Arrays; impor

原创 spark中協同過濾算法分析

spark的MLlib是其機器學習算法庫。 其中協同過濾算法叫做ALS,交替最小二乘法。 下面對算法思路和執行代碼進行分析。 算法思想: 1、對於用戶、商品、評分構成的打分矩陣。一般來說是稀疏的矩陣,因爲用戶沒有對所有商品打分,很多地方

原创 算法模型好壞、評價標準、算法系統設計

算法模型好壞的評價通用標準: 1、解的精確性與最優性。基於正確性基礎上。 2、計算複雜度,時間成本。 3、適應性。適應變化的輸入和各種數據類型。 4、可移植性。 5、魯棒性。健壯性。 魯棒性(robustness)就是系統的健壯性。它

原创 基於maven創建spark工程、調試並運行

建立spark工程有兩種方式:java工程、maven工程。 由於maven管理jar包很方便,本篇基於maven構建spark工程。 spark支持四種語言:scala、java、python、R。 其中scala是基於java的語言

原创 spark第一個簡單示例的源碼解讀

本篇解讀spark官方文檔上的第一個shell示例程序。 解讀spark程序必須具備scala基礎知識,關於scala基礎參考文章1. 完整代碼如下: scala> val textFile = sc.textFile("file:/

原创 mapreduce程序開發及僞分佈式調試小結

在eclipse上編寫好mapreduce程序後,就可以調試程序。 調試有兩種方式,本地、hdfs. 博主只有一臺電腦,因此用僞分佈式模擬遠程hdfs。 問題一:輸入的input、output位置 默認情況下,輸入的input、outp

原创 127.0.0.1、192.168.0.111、本機地址、URL

127.0.0.1是本機地址(就是本地的另一種表示形式,只不過用這種形式表達)。 不管本地是否連上網絡,本機都具備這個地址。 主要用於測試,ping 127.0.0.1時,不聯網也能通。 這個地址一定是指本機。 192.168.0.11

原创 面試題小結二

題一:求數組中最長遞增子序列。 利用動態規劃解題。 java源碼如下:package test; public class LongestSubArray { public static int getLongestSubArray(

原创 sparkPi源碼解析

在ubuntu的eclipse系統上,基於maven建立了第一個spark程序sparkPi,順利執行正確結果。 現在對sparkPi源碼進行解析,藉此熟悉spark java API,爲後面基於java的spark編程做準備。 spa

原创 linux下zip文件、7z文件的解壓和壓縮

linux下zip文件的解壓命令:unzip;壓縮命令:zip。具體參考文章1。 linux下7z文件的解壓命令:7za x;壓縮命令:7za a。具體參考文章2. 注意: 1、linux默認情況下沒有安裝7z文件的解壓縮命令,需要安裝。

原创 hadoop編程遇到的jvm問題爲內存不夠的解決辦法

在ubuntu系統下開發hadoop程序時,遇到幾個問題,小結如下。 問題:內存不足,報錯:There is insufficient memory for the Java Runtime Environment to continu

原创 面試題小結

一、求平面點集中,離所有點距離和最小的點座標和距離值。 問題的關鍵是: 1、距離定義 2、找出某個新的點座標,離所有已知點距離和最近 3、用計算機實現。 此問題類似於機器學習中的迴歸問題。 當我們用一條直線擬合離散點時,也會用距離和最小評

原创 spark基礎知識

預備知識 1、如果要跑spark例子程序,最好配置環境變量時,加入如下內容。 省區頻繁輸入調用jar包。 注意不同的spark版本,對應路徑不同。 2、修改配置文件(這裏針對standalone模式) host文件: Master(Ma