原创 算法導論:3 分治法

1 分治法 算法思想: 將一個問題劃分爲若干個子問題。 遞歸的解決每一個子問題。 將子問題的解合併成爲整個大問題的解。   2 歸併排序 算法思想: 將一個數組分爲兩個子數組。 遞歸的對每一個子數組進行排序。 合併兩個有序子數組。 時間複

原创 算法導論:4 快排及隨機化算法

1 快速排序 1.1 快速排序原理 快速排序算法採用的分治算法,因此對一個子數組進行快速排序的三個步驟爲: (1)分解:數組被劃分爲兩個(可能爲空)子數組]和,給定一個樞軸,使得中的每個元素小於等於,中的每個元素大於等於,下標是在劃分過程

原创 算法導論:1算法分析--python實現

  1 插入排序(Insert Sort) 1.1 插入排序原理 最壞時間:輸入逆序。    比較次數:(n+2)(n-1)/2 移動次數:(n+4)(n-1)/2   平均時間:輸入規模爲n時,所有可能輸入的期望時間。換一種說法,每

原创 樸素貝葉斯算法

1 數學知識 貝葉斯定理: 特徵條件獨立假設:   2 樸素貝葉斯 2.1 算法原理 輸入空間: 輸出空間:y={C1,C2,…,CK}。 訓練集:T={(x1,y1),(x2,y2),…,(xN,yN)}。 對於每個實例,其P(X,

原创 分詞算法

本次實驗內容是基於詞典的雙向匹配算法的中文分詞算法的實現。 正向最大匹配算法 先設定掃描的窗口大小maxLen(最好是字典最長的單詞長度),從左向右取待切分漢語句的maxLen個字符作爲匹配字段。查找詞典並進行匹配。若匹配成功,則將這

原创 TextRank 文本摘要抽取

TextRank是受到Google的PageRank的啓發,通過把文本分割成若干組成單元(單詞、句子)並建立圖模型, 利用投票機制對文本中的重要成分進行排序, 僅利用單篇文檔本身的信息即可實現關鍵詞提取、文本摘要抽取。 PageRank

原创 算法導論:2 漸進符號、遞歸及解法

1 漸進符號 1.1 符號 存在常數與,對所有的,滿足 。的複雜度最多與一個數量級,即小於等於。 例: 宏 出現在公式中的集合符號(如)表示集合中的某一個函數,而不是集合整體。 例1: 直觀理解:表示了一個誤差界限,即主要是由構成的

原创 幾種數據標準化方法

 數據的標準化(normalization)是將數據按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除數據的單位限制,將其轉化爲無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。 1 min-ma

原创 拼寫糾錯

拼寫糾錯(Spelling Correction),又稱拼寫檢查(Spelling Checker),往往被用於文字處理軟件、輸入法和搜索引擎。   1 拼寫錯誤類型: 1)None-word拼寫錯誤 指詞本身就不合法,如錯誤的將“gir

原创 相似度計算方法

1 皮爾遜相關係數 Pearson 相關係數是用協方差除以兩個變量的標準差得到的,雖然協方差能反映兩個隨機變量的相關程度(協方差大於0的時候表示兩者正相關,小於0的時候表示兩者負相關),但其數值上受量綱的影響很大,不能簡單地從協方差的數值

原创 關聯規則(Association Rules)

1 前言 關聯規則反映一個事物與其他事物之間的相互依存性和關聯性,是數據挖掘的一個重要技術,用於從大量數據中挖掘出有價值的數據項之間的相關關係。 本篇的Apriori算法主要是基於頻繁集的關聯分析。其主要目的就是爲了尋找強關聯規則。 常見

原创 編輯距離(Edit Distance)

編輯距離(Minimum Edit Distance,MED),由俄羅斯科學家 Vladimir Levenshtein 在1965年提出,也因此而得名 Levenshtein Distance。Levenshtein Distance

原创 機器學習之Softmax Regression

  在多分類任務中,通常會用到Softmax,在神經網絡中,如果問題是分類模型(即使是CNN或者RNN),一般最後一層是Softmax Regression。它的工作原理是將可以判定爲某類的特徵相加,然後將這些特徵轉化爲判定是這一類的概率

原创 邏輯迴歸(Logistic Regression)

目錄 一、邏輯迴歸模型的構建 二、邏輯迴歸的損失函數 三、損失函數求解 四、sklearn實現邏輯迴歸 邏輯迴歸是一種分類算法 ,通過對訓練樣本的學習,找到一個超平面 WX+b=0 將正負兩類樣本分開。 sigmoid function的

原创 深度學習的weight initialization

TLDR (or the take-away)Weight Initialization matters!!! 深度學習中的weight initialization對模型收斂速度和模型質量有重要影響!在ReLU activation f