原创 算法課筆記系列(二)—— 貪心算法

貪心算法就是一種非常直觀的算法,對於一個問題,只關心它目前最優的解決方案,不考慮未來的發展。但往往,這種只考慮現在的算法就是最優的算法。第一步將問題分爲可分的一步一步,第二步對每一步進行當前的最優計算,第三部將得到的結果最優,往往是得到的

原创 算法課筆記系列(八)——NP問題及其計算複雜性

本週的內容是NP問題,NP的全稱是Non-deterministic Polynomial,即多項式複雜程度的非確定性問題。百度上對NP的解釋是,P/NP問題是在理論信息學中計算複雜度理論裏至今沒有解決的問題。通俗的說,是將不可知的問題轉

原创 算法課筆記系列(五)—— 圖(Part1)

半期後開始的第一個算法是圖。這部分內容蠻多的,老師也講的很快。所以寫作業之前還是先梳理一下。這部分會分爲兩次課,這是第一部分。 首先是圖裏最簡單和經典的深度優先搜索(Depth-FirstSearch)和廣度優先搜索(Breadth-Fi

原创 Spherical Hashing解讀

Spherical Hashing是一種二進制編碼嵌入技術,不同於現存的許多哈希技術,都是使用超平面來將數據點分離到兩個不同的集合,並根據它們每一個點被分配到的集合,分配兩個不同的二進制編碼(+1或者-1),該技術使用一種超球面來分割數據

原创 MNIST數據集的gist特徵提取(含全部實例代碼下載地址)

這些天處理圖像檢索的一些benchmark數據集,今天處理了MNIST數據集,並對其進行了特徵的提取。我的方法可能不一定是最優,但是按照這樣的步驟來做,得到了我最後想要的特徵數據結果。需要的朋友可以參考下。 (MNIST數據集介紹官網:

原创 Ubuntu 14.04 64bit SparkR安裝部署

要安裝SparkR,首先需要安裝好hadoop和Spark,這個安裝前面兩篇已經引用了詳細的教程。 值得注意的是,jdk也要確保安裝正確,並且有一個默認的版本(如果安裝過多個不同版本的jdk),可以通過sudo update-altern

原创 python數據分析與挖掘學習筆記(7)-交通路標自動識別實戰與神經網絡算法

這一節主要涉及神經網絡算法,由此展開交通路標自動識別的應用。 交通路標的自動識別其實就是一個分類問題。對於分類問題,我們有很多的方法來實現,比如KNN,貝葉斯等。關鍵點在於圖片轉文本。本節採用人工神經網絡算法來進行識別。 人工神經網絡(A

原创 圖像聚類-K均值聚類

最近做的一個東西跟這個相關,本來希望是用深度學習對於沒有標籤的圖像數據進行分類,但是通常情況下,深度學習是對有標籤的數據進行學習,目的是用來自動提取特徵,代替傳統的手工提取特徵。因此,比較容易想到,對於無標籤又需要分類的圖像數據,可以嘗試

原创 正則表達式基礎教程

以前沒怎麼好好使用過正則表達式,但是總聽到。現在系統性的學習一下,發現其實用處很大。有時候使用正則表達式處理字符串之後會使得問題簡化很多。 正則表達式是一個用來描述或匹配一些列符合某個句法規則的字符串的單個字符串。 應用舉例: 防止SQ

原创 Spark快速安裝與簡單入門_Ubuntu14.04 64bitx

Apache Spark 是一個新興的大數據處理通用引擎,提供了分佈式的內存抽象。Spark 正如其名,最大的特點就是快(Lightning-fast),可比 Hadoop MapReduce 的處理速度快 100 倍。此外,Spark

原创 圖像聚類-譜聚類

最近做的一個東西跟這個相關,本來希望是用深度學習對於沒有標籤的圖像數據進行分類,但是通常情況下,深度學習是對有標籤的數據進行學習,目的是用來自動提取特徵,代替傳統的手工提取特徵。因此,比較容易想到,對於無標籤又需要分類的圖像數據,可以嘗

原创 Ubuntu 14.04 + Caffe配置記錄(CPU模式,無GPU,無Cuda)

對於使用深度學習進行圖像處理,Caffe是一個不錯的框架選擇。但是安裝起來,並不是如想象中容易,稍不注意就會出錯。 網上關於Ubuntu14.04下配置Caffe的資料很多,但是總是要自己親自配置才能獲得自己的心得。 從操作系統的版本轉換

原创 數據挖掘十大經典算法

十大經典算法 1)C4.5 決策樹是一種依託決策而建立起來的一種樹。是一種預測模型,代表的是一種對象屬性與對象值之間的一種映射關係。每一個節點代表一個對象,樹中的每一個分叉路徑代表某個可能的屬性值,而每一個葉子節點則對應從根節點到該葉子節

原创 python數據分析與挖掘學習筆記(6)-電商網站數據分析及商品自動推薦實戰與關聯規則算法

這一節主要涉及到的數據挖掘算法是關聯規則及Apriori算法。 由此展開電商網站數據分析模型的構建和電商網站商品自動推薦的實現,並擴展到協同過濾算法。 關聯規則最有名的故事就是啤酒與尿布的故事,非常有效地說明了關聯規則在知識發現和數據挖掘

原创 python數據分析與挖掘學習筆記(3)_小說文本數據挖掘part2

接上一節。 注:本文的所有路徑都才用的是相對路徑,讀者請自行換成自己的絕對路徑,保證文件可讀取。 要進行文本挖掘,需要引入gensim這個工具包,需要用到其中的語料庫,模型,相似度等包。 from gensim import corpo