原创 文本挖掘 - 文檔模型

文檔模型,主要針對的是如何把文檔數字化、向量化,最終可以利用這些文檔來建立模型。當前文檔模型主要包括三類:布爾模型,向量空間模型,概率模型。 1. 布爾模型 每個詞在文檔中出現則記爲1,否則記爲0。這樣就可以將每一篇文章都轉化爲向量,這種

原创 ImageNet - 1000種物體對應編號

n01440764 魚 n01443537 魚 n01484850 魚 n01491361 魚 n01494475 魚 n01496331 魚 n01498041 魚 n01514668 雞 n01514859 雞 n01518878

原创 劍指offer - 第四題

在一個二維數組中,每一行都按照從左到右遞增的順序排序。每一列都按照從上到下遞增的順序排序。請完成這樣一個函數,輸入這樣的一個二維數組和一個整數,判斷數組中是否含有該整數。 1 2 8 9 2 4 9 12 4

原创 Windows+Python3.6.0(Anaconda3)+OpenCV3.2.0安裝配置

注:本次安裝因爲我要配的這個筆記本是win7(32bit)的,所以安裝中軟件版本的選擇就是按32位走的,我之前在win10(64bit)也裝過,實際中這個教程的方法對於win7還是win10,32位又或是64位系統是通用的,軟件版本按需

原创 機器學習 - 決策樹實現

1. 決策樹原理篇 ID3算法:http://blog.csdn.net/zk_j1994/article/details/74066406 C4.5算法:http://blog.csdn.net/zk_j1994/article/det

原创 xgboost參數詳解

XGBoost參數 在運行XGboost之前,必須設置三種類型成熟:general parameters,booster parameters和task parameters: General parameters:參數控制在提升(b

原创 大話數據結構 - 順序表

線性表就是0個或多個數據元素的有限序列; 元素之間存在順序, 除開頭結尾之外, 每個元素有且僅有一個前驅元素, 後繼元素。線性表的順序存儲叫做順序表,簡單的說就是對數組進行封裝,使得更好的滿足需求。 1. 線性表的順序存儲結構線性表的順序

原创 數據挖掘競賽 - 猜你喜歡

datacastle上的一道推薦算法競賽(這裏是地址和數據),由於最近想整理和彙總最常用的推薦算法。因此乾脆就把這個競賽拿出來實戰一下。 1. 賽題 & 數據解析 本次比賽是一個名副其實的推薦算法大賽,在本次比賽中,我們提供了一個商品網

原创 數據挖掘 - 集體智慧編程 - 尋找獨立特徵

集體智慧編程第十章尋找獨立特徵:在數據集未明顯標註的情況下,尋找數據集的潛在特徵,比如SVD分解U,V矩陣都存在隱空間。 1. NMF 從數據中提取重要特徵的技術被稱爲非負矩陣分解(NMF)。 假設我們手上有一個對多篇文章進行單詞計數信

原创 數據挖掘 - 主題模型

機器學習系統設計 - 主題模型LDA 點贊 收藏 分享 文章舉報 KeeJee 發佈了139 篇原創文章 · 獲贊 141 · 訪問量 45萬+ 他的留言板

原创 劍指offer - 第三題

1. 題目介紹 《劍指offer》第3題 - 找出數組中重複的數字 在一個長度爲n的數組裏所有的數字都在0~n-1之間, 數組可能存在重複數字, 找出這個數組中重複的數字中的任意一個; 比如輸入長度爲7的數組{2, 3, 1, 0, 2

原创 機器學習 - 集體智慧

最近看區塊鏈方面的課外書,發現集體智慧這個詞出現非常頻繁,以前讀《集體智慧編程》也覺得這個名字很奇怪,似懂非懂。 Netflix 是一家在線租片兒的公司, 並且更具用戶過去租片的行爲來進行推薦, 他懸賞100萬美元去獎勵第一個把租片成功

原创 文本挖掘 - 分詞

分詞即對詞語進行劃分。 分詞的基本方法包括:最大匹配法,最大概率分詞法,最短路徑分詞法(最小切分法)。其中最大匹配法、最短路徑法屬於機械式分詞法,最大概率分詞法屬於基於統計的分詞方法。 分詞的難點:分詞歧義,未登錄詞識別(冷啓動) 1.

原创 大話數據結構 - 棧與隊列

大話數據結構第四章:棧與隊列;棧、隊列以及鏈表同屬線性表。 棧:先進後出;因此棧是隻允許在表尾進行插入和刪除的。進指壓棧,出指彈棧。 隊列:先進先出,與排隊一樣,先進先出,先到先得。 1. 棧 1.1 棧 棧是限定僅在表尾進行插入和刪除

原创 大話數據結構 - 鏈表

1. 順序表的缺陷線性表的順序存儲結構有致命的缺陷, 由於地址的連續性, 插入和刪除都需要移動大量的元素。其次是在C、C++等語言中,數組的長度有限,這可能帶來極大的不便。2. 鏈表 - 線性表的鏈式存儲結構鏈表爲了擺脫順序表的缺陷, 從