原创 《Algorithms》第八章課後習題8.10題解

題目: 通過泛化/推廣證明NP完全問題。對於下面每一個問題,必須使用這些問題是這一章出現過的某個NP完全問題的推廣的方式來證明一下問題的NP完全。 (a) 子圖同構:給定無向圖G和H作爲輸入,如何G是不是H的子圖,如果是,返

原创 Python爬蟲庫學習筆記-requests

安裝 (1)利用pip安裝,命令行直接輸入pip install requests (2)利用easy_install安裝,命令行直接輸入easy_install requests 基本請求 (1)requests庫提供h

原创 Python爬蟲實踐筆記(三)

網頁式登錄的無線網絡重連–本質 註釋:事實上這個程序就是在連接了某個無線網之後,登錄該無線網指定的頁面,然後就可以正常上網了。跟爬蟲的連接和登錄網頁的本質是一樣的,只是需要分析一下請求和響應數據,以至於能夠實現重連。 第一步:分

原创 Python爬蟲實踐筆記(二)

無登錄百度貼吧的帖子 基本步驟: ①分析url ②獲取頁面 ③提取信息 ④文本處理 ⑤寫入文件 備註: 基本框架跟筆記(一)很相似,只是多了很多細節需要處理,所以這裏着重描述細節的處理。 第一步:分析url (1)像段子、貼吧

原创 《統計學習》筆記(2)-- EM算法

EM算法 (1)EM算法是一種迭代算法,用於含有隱變量的概率模型參數的極大似然估計,或極大後驗概率估計。 (2)EM算法的每次迭代由兩步組成:E步,求期望;M步,求極大。所以這一算法稱爲期望極大算法,簡稱EM算法。 (3)觀

原创 Python基本數據統計

基本的數據處理過程 (1)數據收集 (2)數據整理 (3)數據描述 (4)數據分析 便捷數據獲取 (1)使用matplotlib的finance包中的API可以獲取一些財經網站(如雅虎)的財經數據。 (2)使用pyth

原创 Python爬蟲學習筆記--MySQLdb模塊

mysql數據庫和MySQLdb模塊相關問題 下載與安裝 (1)首先,python要使用數據庫不是僅僅安裝相應的模塊就行的,安裝的模塊,例如這裏的MySQLdb模塊只是一個訪問mysql數據庫的接口。所以還是必須要下載一個數據庫的

原创 Minimum Number of Arrows to Burst Balloons

Leetcode-Algorithm-Greedy-452 題目: There are a number of spherical balloons spread in two-dimensional space. For ea

原创 Python高級數據處理與可視化

聚類分析Cluster (1)聚類分析主要使用kmeans算法,kmeans算法的主要有兩個步驟:①隨機定義K個數據點爲聚類中心,並根據觀測數據到K個數據點的距離將所有的觀測數據分配給這K個聚類中心;②調整K個聚類中心的位置到分

原创 Best Time to Buy and Sell Stock

Leetcode-Algorithm-DP-121 題目: Say you have an array for which the ith element is the price of a given stock on day

原创 Queue Reconstruction by Height

Leetcode-Algorithm-Greedy-406 題目: Suppose you have a random list of people standing in a queue. Each person is des

原创 Python爬蟲庫學習筆記-BeautifulSoup

BeautifulSoup引入 (1)Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔爲用戶提供需要抓取的數據。 (2)Beautiful So

原创 Python爬蟲實踐筆記(一)

無登錄爬取糗事百科段子 第一步:獲取頁面源碼 (1)先確定我們要爬取的頁面的url,然後通過頁面的開發者工具查看需要發送的headers信息。這裏,糗事百科需要我們添加User-Agent這個頭文件信息,不然建立連接會失敗的。

原创 《統計學習》筆記(1)-- 提升方法Adaboost

提升方法的基本思路 (1)基本思想:對於一個複雜任務來說,將多個專家的判斷進行適當的綜合所得出的判斷,要比其中任何一個專家單獨的判斷好。 (2)強可學習、弱可學習、概率近似正確PAC學習框架。 (3)在PAC學習的框架下,

原创 隨機森林的原理與實現

隨機森林的基本描述: 由於單一的決策樹一般都會有過擬合的問題,因此一些研究人員通過特定的方式構建多個決策樹的方法來增加模型中的偏差(bias),從而解決模型過擬合的問題。由於在構建樹的過程中使用了一些隨機化的方法,而且又包括了很多的樹,因