原创 【machine learning】GMM算法(Python版)

本文參考CSDN大神的博文,並在講述中引入自己的理解,純粹理清思路,並將代碼改爲了Python版本。(在更改的過程中,一方面理清自己對GMM的理解,一方面學習了numpy的應用,不過也許是Python粉指數超標才覺得有必要改(⊙o⊙))

原创 【machine learning】regularization

一、機器學習範式 1、按數據類型劃分(帶標籤與否)   這是從樣本的數據進行劃分,現實中大部分屬於半監督學習,並且大部分數據是沒分類好的。 監督學習: 例子: 分類        e.g. 文本分類  垃圾郵件過濾  搜索結果 

原创 【machine learning】KMeans算法(Python版)

一、概述 剛開始想要學習LDA主題模型的建模方法,學習的過程中發現應用到了EM算法,所以還是打算由淺及深地進行,發現EM算法雖然簡單隻有E步和M步的不斷迭代,但其應用卻很廣泛,比較有名的有GMM算法和本博文要將的KMeans算法。作爲數據

原创 學習感悟

社會篇 走過2014,看得很多是互聯網如何在顛覆各個行業。以下說的都是感悟,可能有些無序,多多包含。 無論是做科研也好,投入社會工作也罷,在做以互聯網技術爲核心的技術學習時,都要有一個目標,做出爲社會認可的有價值的“產品”,並間接體現爲金

原创 網絡搜索引擎簡介

網絡搜索引擎簡介 一、傳統信息檢索回顧 傳統信息檢索文檔集的搜索有三種基本的計算機輔助技術:布爾模型、向量空間模型和概率模型。這些模型發展與20世紀60年代,直到2000年6月,便存在3500種不同的搜索引擎技術,並且大多數搜索引擎仍然依

原创 HPC集羣平臺搭建概念

  在本文之前,我建議先看完這篇文章:Linux高性能計算集羣 – Beowulf集羣   一、搭建集羣中可能會遇到的問題 1.集羣設計/佈局的一大難點就是網絡,各家有各家的策略,一般圍繞Beowulf變型。 2.軟件的部署缺乏實操調試

原创 【machine learning】KNN算法

適逢學習機器學習基礎知識,就將書中內容讀讀記記,本博文代碼參考書本Machine Learning in Action(《機器學習實戰》)。 一、概述   kNN算法又稱爲k近鄰分類(k-nearest neighbor classif

原创 HPC性能測試

一、介紹   說到高性能計算,一般都是利用搭建集羣配合加速卡做並行計算實現。但用相同的硬件實現更快的方法,那就是做測試了。比較有名的就是Linpack測試了,Linpack現在在國際上已經成爲最流行的用於測試高性能計算機系統浮點性能的be

原创 machine learning概述

一、機器學習是什麼? 1、概述 a、機器學習是一個比較泛的概念 b、是不是會覺得機器學習和人工智能,數據挖掘講的東西很像? (1)機器學習是人工智能的一個子方向 (2)機器學習是數據挖掘的一種實現方式 c、數據挖掘的三種方式 (1)數據庫

原创 python進行文檔抽取與解析的簡單實現

一、前文 之前被叫去做網絡爬蟲,爬取新浪新聞的url,標題,內容和評論,不過在需求上有點改變,主要是評論的間隔被要求有‘\t’的分割,比如將 <comment> 2014-12-10 18:53:20    1004400533   遺棄