原创 spark DAGScheduler、TaskSchedule、Executor執行task源碼分析

摘要 spark的調度一直是我想搞清楚的東西,以及有向無環圖的生成過程、task的調度、rdd的延遲執行是怎麼發生的和如何完成的,還要就是RDD的compute都是在executor的哪個階段調用和執行我們定義的函數的。這些都非常的基礎和困

原创 基於牛頓冷卻定律的時間衰減函數模型

摘要牛頓冷卻定律數學模型一般都是用來與時間有關的衰減的模型上,比如隨着時間的變化,用戶對某一個品類商品的衰減過程變化,用戶在投票過程中對票數衰減過程的模擬等基本原理都是建立在牛頓冷卻定律的基礎之上,增加相應的邊界條件,從而得到適合自己應用場

原创 sparkSQL實戰詳解

摘要          如果要想真正的掌握sparkSQL編程,首先要對sparkSQL的整體框架以及sparkSQL到底能幫助我們解決什麼問題有一個整體的認識,然後就是對各個層級關係有一個清晰的認識後,才能真正的掌握它,對於sparkSQ

原创 模糊c均值聚類和k-means聚類的數學原理

摘要這篇博客是從一個網上下載的資料關於模糊c均值聚類和k-means均值聚類的數學方法衍生而來。我下載的那個文章討論的不是很清楚,還有一些錯誤的地方,有些直接給了結果,但是中間的數學推導沒有給出,我感覺中間的數學推導應該是最精華的地方,上網

原创 機器學習相關的庫和工具

本文彙編了一些機器學習領域的框架、庫以及軟件(按編程語言排序)。C++計算機視覺CCV —基於C語言/提供緩存/核心的機器視覺庫,新穎的機器視覺庫OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,並支持W

原创 sparkSQL的整體實現框架

這篇博客的目的是讓那些初次接觸sparkSQL框架的童鞋們,希望他們對sparkSQL整體框架有一個大致的瞭解,降低他們進入spark世界的門檻,避免他們在剛剛接觸sparkSQL時,不知所措,不知道該學習什麼,該怎麼看。這也是自己工作的一

原创 EM算法的數學原理

摘要        EM算法主要分爲兩個步驟:E-step和M-step,主要應用在概率模型中。機器學習中,概率模型在進行參數估計時,我們主要應用的是最大似然估計,所以在對EM算法進行討論時,是離不開最大似然估計的。EM算法主要是用來解決那

原创 k-means算法原理以及數學知識

摘要在大數據算法中,聚類算法一般都是作爲其他算法分析的基礎,對數據進行聚類可以從整體上分析數據的一些特性。聚類有很多的算法,k-means是最簡單最實用的一種算法。在這裏對k-means算法的原理以及其背後的數學推導做一些詳細的介紹,並討論

原创 python經常出現的字符編碼問題詳解

     python在進行字符串處理或者通過open函數讀取文件時,經常會出現編碼的錯誤:UnicodeDecodeE-rror: 'ascii' codec can't decode byte 0xe6 in position 0: o

原创 ubuntu14.04環境下hadoop2.7.0配置+在windows下遠程eclipse和hdfs的調用

本教程是在三臺電腦上部署的hadoop正式環境,沒有建立用戶組,而是在當前用戶下直接進行集羣的部署的,總結如下:1、三個節點的主機電腦名爲:192.168.11.33 Master,192.168.11.24 Slaver2,192.168

原创 DataSet數據集在使用sql()時,無法使用map,flatMap等轉換算子的解決辦法

摘要我們在使用spark的一個流程是:利用spark.sql()函數把數據讀入到內存形成DataSet[Row](DataFrame)由於Row是新的spark數據集中無法實現自動的編碼,需要對這個數據集進行編碼,才能利用這些算子進行相關的

原创 從另一個視角看待邏輯迴歸

摘要邏輯迴歸是用在分類問題中,而分類爲題有存在兩個比較大的方向:分類的結果用數值表是,比如1和0(邏輯迴歸採用的是這種),或者-1和1(svm採用的),還有一種是以概率的形式來反應,通過概率來說明此樣本要一個類的程度即概率。同時分類問題通過

原创 sparkSQL中cache的若干問題

摘要 sparkSQL在使用cache緩存的時候,有時候緩存可能不起作用,可能會發出緩存是假的吧的感慨。現在我們就把這個問題說道說道。問題 場景描述 當我們通過spark進行統計和處理數據時,發現他是延遲計算的,如果一個應用中出現多個act