原创 【特徵工程】特徵工程技術與方法

引言 在之前學習機器學習技術中,很少關注特徵工程(Feature Engineering),然而,單純學習機器學習的算法流程,可能仍然不會使用這些算法,尤其是應用到實際問題的時候,常常不知道怎麼提取特徵來建模。 特徵是機器學習系

原创 【機器學習基礎】梯度提升決策樹

引言 上一節中介紹了《隨機森林算法》,該算法使用bagging的方式作出一些決策樹來,同時在決策樹的學習過程中加入了更多的隨機因素。該模型可以自動做到驗證過程同時還可以進行特徵選擇。 這一節,我們將決策樹和AdaBoost算法結

原创 【聚類分析】聚類算法初階引入

1 聚類分析基本概念 聚類分析將數據劃分成有意義或有用的簇。如果目標是劃分成有意義的組,則簇應當捕獲數據的自然結構。 聚類分析是一種分類的多元統計分析方法。按照個體或樣品的特徵將它們分類,使同一類別內的個體具有儘可能高的同質性(

原创 【python】python中的多態與duck typing

python與鴨子類型 調用不同的子類將會產生不同的行爲,而無須明確知道這個子類實際上是什麼,這是多態的重要應用場景。而在python中,因爲鴨子類型(duck typing)使得其多態不是那麼酷。 鴨子類型是動態類型的一種風格

原创 【Linux】使用update-alternatives命令進行版本的切換

引言 在Debian系統中,我們可能會同時安裝有很多功能類似的程序和可選配置,可能會出現同一軟件的多個版本並存的場景。比如像是一些編程語言工具,一些系統中自帶的是python2.6,而現在python2.7和python3.4使用

原创 【scikit-learn】網格搜索來進行高效的參數調優

 內容概要¶ 如何使用K折交叉驗證來搜索最優調節參數如何讓搜索參數的流程更加高效如何一次性的搜索多個調節參數在進行真正的預測之前,如何對調節參數進行處理如何削減該過程的計算代價 1. K折交叉驗證回顧¶ 交叉驗證的過程 選擇K的

原创 【Akka】在併發程序中使用Future

引言 在Akka中, 一個Future是用來獲取某個併發操作的結果的數據結構。這個操作通常是由Actor執行或由Dispatcher直接執行的. 這個結果可以以同步(阻塞)或異步(非阻塞)的方式訪問。 Future提供了一種簡單

原创 【Akka】Akka中actor的生命週期與DeathWatch監控

Actor的生命週期 在Actor系統中的路徑代表一個“地方”,這可能被一個存活着的的actor佔用着。最初,路徑(除了系統初始化角色)是空的。當actorOf()被調用時,指定一個由通過Props描述給定的路徑角色的化身。一個a

原创 【Akka】Actor引用

Actor系統的實體 在Actor系統中,actor之間具有樹形的監管結構,並且actor可以跨多個網絡節點進行透明通信。 對於一個Actor而言,其源碼中存在Actor,ActorContext,ActorRef等多個概念,它

原创 【Akka】Actor模型探索

Akka是什麼 Akka就是爲了改變編寫高容錯性和強可擴展性的併發程序而生的。通過使用Actor模型我們提升了抽象級別,爲構建正確的可擴展併發應用提供了一個更好的平臺。在容錯性方面我們採取了“let it crash”(讓它崩潰)

原创 【機器學習中的數學】基函數與函數空間

引言 在學習線性迴歸模型的時候就會遇到基函數,可能我們會遇到多項式基函數、高斯基函數、sigmoid基函數,當然在高等數學和信號系統中還經常會碰到傅里葉基。有時候,不禁要問,這些基函數爲什麼這麼設計?這些基函數的作用是什麼? 後

原创 【Spark Core】從作業提交到任務調度完整生命週期淺析

引言 這一小節我們將就之前寫的幾篇博文,從提交Job,到Stage劃分,到任務分發,再到任務的執行,這一完整過程做一系統的回顧。在這一過程中理清思路,明確幾篇文章中涉及到的調度關係和邏輯關係。 Spark作業提交到執行過程 上

原创 【機器學習基礎】決策樹算法

引言 在之前的兩節博文《混合和裝袋》和《自適應提升》中,我們已經有現成的一堆假設g在手中,我們還如何將這些g混合起來,得到更好的分類器。 混合方式可以分爲三種情況: 把g看做是同等地位,通過投票或者平均的方式將它們合起來,稱

原创 【python】locals()、globals()與名字空間

名字空間 Python使用叫做名字空間的東西來記錄變量的軌跡。名字空間只是一個字典,它的鍵字就是變量名,字典的值就是那些變量的值。實際上,名字空間可以象Python的字典一樣進行訪問。 在一個Python程序中的任何一個地方,都

原创 【機器學習技術】高斯過程初探

概述 高斯過程是基於統計學習理論和貝葉斯理論發展起來的一種機器學習方法,適於處理高維度、小樣本和非線性等複雜迴歸問題,且泛化能力強,與神經網絡、支持向量機相比,GP具有容易實現、超參數自適應獲取、非參數推斷靈活以及輸出具有概率意義