台部落qq_23617681

本篇在hadoop上實踐了幾個hadoop程序。分別是：詞頻統計（wordcount）、數據去重、數據排序、平均成績、單表關聯、多表關聯、倒排索引。對hadoop程序的運行機制，特別是mapreduce的運行過程、接口規範、shuff

2020-06-19 14:53:31

針對海量數據，如何進行KNN分類和聚類，比如10萬行的數據。本篇給出基本思路，具體實現未介紹。問題：如何對海量數據（5000萬行）進行分類分析：進行分類的前提是，已經有相同格式數據分類完畢；接下來，是如何將新的海量數據（5000行

2020-06-19 13:43:31

本篇解析spark的詞頻統計源程序代碼。 java源碼如下： </pre><pre name="code" class="java">package sparkTest; import java.util.Arrays; impor

2020-02-20 15:29:09

spark的MLlib是其機器學習算法庫。其中協同過濾算法叫做ALS，交替最小二乘法。下面對算法思路和執行代碼進行分析。算法思想： 1、對於用戶、商品、評分構成的打分矩陣。一般來說是稀疏的矩陣，因爲用戶沒有對所有商品打分，很多地方

2020-02-20 15:29:09

算法模型好壞的評價通用標準： 1、解的精確性與最優性。基於正確性基礎上。 2、計算複雜度，時間成本。 3、適應性。適應變化的輸入和各種數據類型。 4、可移植性。 5、魯棒性。健壯性。魯棒性（robustness）就是系統的健壯性。它

2020-02-20 15:29:09

建立spark工程有兩種方式：java工程、maven工程。由於maven管理jar包很方便，本篇基於maven構建spark工程。 spark支持四種語言：scala、java、python、R。其中scala是基於java的語言

2020-02-20 15:29:08

本篇解讀spark官方文檔上的第一個shell示例程序。解讀spark程序必須具備scala基礎知識，關於scala基礎參考文章1. 完整代碼如下： scala> val textFile = sc.textFile("file:/

2020-02-20 15:29:08

在eclipse上編寫好mapreduce程序後，就可以調試程序。調試有兩種方式，本地、hdfs. 博主只有一臺電腦，因此用僞分佈式模擬遠程hdfs。問題一：輸入的input、output位置默認情況下，輸入的input、outp

2020-02-20 15:29:08

127.0.0.1是本機地址（就是本地的另一種表示形式，只不過用這種形式表達）。不管本地是否連上網絡，本機都具備這個地址。主要用於測試，ping 127.0.0.1時，不聯網也能通。這個地址一定是指本機。 192.168.0.11

2020-02-20 15:29:08

題一：求數組中最長遞增子序列。利用動態規劃解題。 java源碼如下：package test; public class LongestSubArray { public static int getLongestSubArray(

2020-02-20 15:29:08

在ubuntu的eclipse系統上，基於maven建立了第一個spark程序sparkPi，順利執行正確結果。現在對sparkPi源碼進行解析，藉此熟悉spark java API，爲後面基於java的spark編程做準備。 spa

2020-02-20 15:29:08

linux下zip文件的解壓命令：unzip；壓縮命令：zip。具體參考文章1。 linux下7z文件的解壓命令：7za x；壓縮命令：7za a。具體參考文章2. 注意： 1、linux默認情況下沒有安裝7z文件的解壓縮命令，需要安裝。

2020-02-20 15:29:08

在ubuntu系統下開發hadoop程序時，遇到幾個問題，小結如下。問題：內存不足，報錯：There is insufficient memory for the Java Runtime Environment to continu

2020-02-20 15:29:08

一、求平面點集中，離所有點距離和最小的點座標和距離值。問題的關鍵是： 1、距離定義 2、找出某個新的點座標，離所有已知點距離和最近 3、用計算機實現。此問題類似於機器學習中的迴歸問題。當我們用一條直線擬合離散點時，也會用距離和最小評

2020-02-20 15:29:08

預備知識 1、如果要跑spark例子程序，最好配置環境變量時，加入如下內容。省區頻繁輸入調用jar包。注意不同的spark版本，對應路徑不同。 2、修改配置文件（這裏針對standalone模式） host文件： Master(Ma

2020-02-20 15:29:08