原创 普利策獎《哥德爾、埃舍爾、巴赫——集異璧之大成》

普利策獎《哥德爾、埃舍爾、巴赫——集異璧之大成》                           書名:集異璧之大成(Godel,Escher,Bach——an Eternal Golden Braid) 作者:侯世達(Do

原创 PRML讀書會第三章 Linear Models for Regression

大家好,我負責給大家講講 PRML的第3講 linear regression的內容,請大家多多指教,羣主讓我們每個主講人介紹下自己,赫赫,我也說兩句,我是 applied mathematics + computer science的

原创 Python實現貝葉斯推斷及其互聯網應用:拼寫檢查

貝葉斯推斷及其互聯網應用:拼寫檢查 作者: 阮一峯 日期: 2012年10月16日 使用Google的時候,如果你拼錯一個單詞,它會提醒你正確的拼法。 比如,你不小心輸入了seperate。 Google告訴

原创 【scikit-learn】Python分類實例

引入 一個機器可以根據照片來辨別鮮花的品種嗎?在機器學習角度,這其實是一個分類問題,即機器根據不同品種鮮花的數據進行學習,使其可以對未標記的測試圖片數據進行分類。這一小節,我們還是從scikit-learn出發,理解基本的分類原則,多動

原创 譜聚類算法原理介紹

1. 譜聚類 給你博客園上若干個博客,讓你將它們分成K類,你會怎樣做?想必有很多方法,本文要介紹的是其中的一種——譜聚類。聚類的直觀解釋是根據樣本間相似度,將它們分成不同組。譜聚類的思想是將樣本看作頂點,樣本間的相似度看作帶權的邊,從而將

原创 聚類算法實踐經驗彙總

所謂聚類,就是將相似的事物聚集在一起,而將不相似的事物劃分到不同的類別的過程,是數據分析之中十分重要的一種手段。比如古典生物學之中,人們通過物種的形貌特徵將其分門別類,可以說就是一種樸素的人工聚類。如此,我們就可以將世界上紛繁複雜

原创 隱馬爾可夫模型(HMM)攻略

隱馬爾可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些學者發表在一系列的統計學論文中,隨後在語言識別,自然語言處理以及生物信息等領域體現了很大的價值。平時,經常能接觸到涉及 HMM 的

原创 機器學習算法與Python實踐之邏輯迴歸(Logistic Regression)

機器學習算法與Python實踐之(七)邏輯迴歸(Logistic Regression) [email protected] http://blog.csdn.net/zouxy09 機器學習算法與Python實踐這個系列主要是參

原创 Python 文本分類:使用scikit-learn 機器學習包進行文本分類

閱 我做的項目是對評論進行有用性(helpfulness)分類,把評論分成有用和沒用兩類。在之前已經有使用機器學習方法進行情感分類了,現在是提取各種可能影響評論有用性的特徵之後對文本進行分類。 我分析的數據是手機商品評

原创 AdaBoost算法介紹

    Adaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。其算法本身是通過改變數據分佈來實現的,它根據每次訓練集之中每個樣本的分類

原创 機器學習中的範數規則化之(一)L0、L1與L2範數

機器學習中的範數規則化之(一)L0、L1與L2範數        今天我們聊聊機器學習中出現的非常頻繁的問題:過擬合與規則化。我們先簡單的來理解下常用的L0、L1、L2和核範數規則化。最後聊下規則化項參數的選擇問題。這裏因爲篇幅比較龐

原创 編輯距離 、最長公共子串、最長公共子序列以及最長遞增子序列

0 、前言 動態規劃就是把一個大的問題拆分成幾個類似的子問題,通過求解子問題來獲得最終的結果,常採用遞歸的方法。由於遞歸的方法中會重複地計算相同的子問題,使得效率較低。爲減少重複計算相同子問題的時間,引入一個數組,把所有子問題的解存放於該

原创 初始Hive —— 深入淺出學Hive

  第一部分:Hive簡介 什麼是Hive •Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供類SQL查詢功能。 •本質是將SQL轉換爲MapReduce程序    第二部分:爲什

原创 譜聚類算法(Spectral Clustering)

譜聚類算法(Spectral Clustering) 譜聚類(Spectral Clustering, SC)是一種基於圖論的聚類方法——將帶權無向圖劃分爲兩個或兩個以上的最優子圖,使子圖內部儘量相似,而子圖間距離儘量距離較遠

原创 Python學習之set()集合

python的set和其他語言類似, 是一個無序不重複元素集, 基本功能包括關係測試和消除重複元素. 集合對象還支持union(聯合), intersection(交), difference(差)和sysmmetric differen