原创 機器學習基礎小結

分類器的設計就是在給定訓練數據的基礎上估計其概率模型P(Y|X)。監督學習方法又分生成方法(Generative approach)和判別方法(Discriminative approach),所學到的模型分別稱爲生成模型(Gen

原创 Leetcode(4)-Two Sum

01.Two Sum //LeetCode, Two Sum hash存儲每個數字的下標 class Solution { public: vector<int> twoSum(vector<int> &nums, int tar

原创 學習筆記(4)-社區發現評價指標

目前使用的主要有:Q(Modulartiy),Jaccard指數與Fsame值,NMI也是常用指標。 c語言實現: //當i和J屬於同一個社團時,E函數等於l,否則等於0. 故只需計算同一社區的函數值 double Modular

原创 學習筆記(1)-數據挖掘及其應用淺談

剛剛結束數據挖掘的課程,對數據挖掘的理論與算法有了一定的瞭解,藉此報告的機會對數據挖掘知識進行一些梳理,並對現有工作中數據挖掘的應用和存在的問題進行討論。 一、數據挖掘知識彙總(簡介): 數據挖掘是數據庫知識發現(英語:Kno

原创 文本分類學習筆記(4)- LR模型

LR分類器實現,多分類的softmax模型: #coding=utf-8 from scipy import sparse,io from sklearn.linear_model import LogisticRegressio

原创 文本分類學習筆記(3)- 特徵提取

特徵提取TF-IDF值的兩種方法,結果保存在.mat文件中: 1、人工分詞,每類取3000合併 #人工分詞,每類取3000合併 def load_files(directory,prefix=None,postfix=None)

原创 Leetcode(6) - easy

7.Reverse Integer My Submissions Question Reverse digits of an integer. Example1: x = 123, return 321 Example2:

原创 學習筆記(3)-重疊社區發現Copra算法

應師兄要求,閱讀了有關重疊社區發現的文章Finding overlapping communities in networks by label propagation,文中提出了一種基於LPA的擴展算法COPRA,可以用於重疊社

原创 kaggle實戰之Titanic(2)-分類器的選擇與實現

數據讀取和交叉驗證:分別使用了LR分類,決策樹和隨機森林 但出現一個問題是在交叉驗證中提升的準確率在提交後並無提升,有待考證 經過試驗,隨機森林的效果要好一些但不穩定,LR又比決策樹稍高,但僅是在改數據和處理方法下的結論。

原创 學習筆記(2)-標籤傳播算法僞代碼實現

算法名稱:社區發現中的標籤傳播算法(LPA) 算法輸入:無向無權圖鄰接矩陣AdjacentMatrix,節點個數VerticeNum 算法輸出:存儲節點標籤的分類數組Community //初始化每個節點的標籤 For i

原创 kaggle實戰之Titanic (1)-預處理

由數據挖掘的知識可知,數據預處理包括: (1) 數據清理:填寫缺失值,光滑噪聲數據等等。 (2) 數據集成:將多個數據源合成一個數據源。此處只有1個csv文件,過 (3) 數據變換:平滑聚集,數據概化等。 (4) 數據

原创 Leetcode(3)-Summary Ranges

228 Summary Ranges For example, given [0,1,2,4,5,7], return [“0->2”,”4->5”,”7”]. class Solution { //此處將頭尾格式化爲字

原创 文本分類學習筆記(6)- 貝葉斯

貝葉斯分類器: 先驗概率P(c)= 類c下單詞總數/整個訓練樣本的單詞總數 類條件概率P(tk|c)=(類c下單詞tk在各個文檔中出現過的次數之和+1)/(類c下單詞總數+|V|) V是訓練樣本的單詞表(即抽取單詞,單詞出現

原创 自然語言處理基本知識小結

1.什麼是NLP? 人與人、人與計算機交互中的語言問題。 能力模型,通常是基於語言學規則的模型,建立在人腦中先天存在語法通則這一假設的基礎上,認爲語言是人腦的語言能力推導出來的,建立語言模型就是通過建立人工編輯的語言規則集來模

原创 Leetcode(5)-Add two numbers

2 Add two numbers 模擬手工加和的過程即可,結構體中提供了構造函數;需要注意的是兩個鏈表可能不等長,需要分別處理剩下的位數,還有最高位加和可能存在進位也需處理。 /** * Definition for sin