原创 正則表達式基礎+進階

在學習正則表達式的時候找到了一篇不錯的文章。相比於其他文章只是簡單的羅列和較爲含混的思路,這篇文章對正則表達式的基礎與較爲深入的部分都有較好的講解,在原頁面也有作爲教學實例的例子鏈接,能通過實際的操作來加深印象。 原標題:揭開正則表達式的

原创 一個Bangumi.tv的爬蟲

對爬蟲的學習也有一段時間了,但由於要應付校內實習和秋招大潮,爬蟲學習的進度也有所停滯。在校內實習期間抽空看了下scrapy的視頻教程,對用scrapy開發爬蟲也有了一定的瞭解,自己也嘗試“套用”scrapy進行了一些爬取工作,其中也包括使

原创 《機器學習實戰》代碼片段學習5 AdaBoost元算法

svm那一章看的太吃力…先緩緩,回頭再收拾它( 簡介 基於同一分類器多個不同實例的兩種計算方法:bagging與boosting Bagging:從原始數據集選擇S次後得到S個新數據集的一種技術,將某個學習算法串行作用於每個數據集就得到了

原创 《機器學習實戰》代碼片段學習6 k均值聚類與二分k均值聚類

概述: 本章開始進入無監督學習的內容。聚類方法將相似的對象分到同一個簇中。 簇識別:“簇識別給出聚類結果的含義。假定有一些數據,現在將相似數據歸到一起,簇識別會告訴我們這些簇到底都是些什麼。聚類與分類的最大不同在於,分類的目標事先已知,而

原创 個人向的前端的坑坑窪窪的記錄(2)

彈出模塊框的實現 項目要讓用戶能自行選擇在展示頁面需要展示的內容,基本思路爲用複選框列出一些屬性讓用戶選擇,用戶選擇完畢後能將所選的屬性提交後臺處理。此處考慮與原來配置界面的整合,選擇了將其放在彈出的模態框中實現。在實際實現的過程中選擇使

原创 《機器學習實戰》代碼片段學習1 k-近鄰算法

最近開始系統的做一些機器學習方面的學習,選中了圖靈程序設計叢書的《機器學習實戰》作爲教材。 開發環境上個人選擇了集成了python2.7與各類數據分析相關的python包的Anaconda4.4。 k-means算法 概述 “簡單地說,k

原创 《機器學習實戰》代碼片段學習2 決策樹

決策樹 概述 決策樹可以根據對輸入特徵屬性的層層篩選選定數據所屬的類。決策樹能直觀的展示數據的結構層次,利於理解。“…決策樹可以使用不熟悉的數據集合,並從中提取出一系列規則,在這些機器根據數據創建規則時,就是機器學習的過程。” “優點:計

原创 常用正則表達式

在此蒐集一些網絡上總結的有用的正則表達式,以備日後需要用到的時候查詢使用。需要注意的是表達式不是一成不變的,很多時候不能照抄、需要改寫表達式以適應實際情況,比如現在國內手機號已經開放了198、166、174號段,以下的匹配手機號的正則表達

原创 利用爬蟲和Django+echarts建立自己的動畫人氣統計小站

開發環境:Django版本1.11.4,python版本3.6.0 Django後臺的準備 新建項目 如何安裝django就不多說了,安裝好之後打開cmd,輸入django-admin.py startproject Anime,新建An

原创 《機器學習實戰》代碼片段學習4 Logistic迴歸

知識儲備: Logistic迴歸進行分類的主要思想:根據現有數據對分類邊界線建立迴歸公式,以此進行分類。訓練分類器時的做法就是尋找最佳擬合參數,使用的是最優化算法。 數學基礎: Sigmoid函數:一種階躍函數,用於接受所有的輸入然後預

原创 Python爬蟲爬取知乎用戶信息+尋找潛在客戶

【Python應用】尋找社交網絡中的目標用戶 這是我們學校的軟件工程課程設計的題目,要求自行編寫爬蟲或者利用開放的API獲取新浪微博、知乎等社交網站的用戶信息,利用數據挖掘的相關算法進行分析, 從大規模的用戶羣體中, 分別找出其中具有海淘

原创 個人向的前端的坑坑窪窪的記錄(1)

這段時間在幫忙做一個前端界面,由於自己前端幾乎是從零開始,在此記錄一些鼓搗過程中的一些坑坑窪窪,一方面算是對前端知識的一些零散的記錄,另一方面也能反省一下自己的學習方法。在具體實現的時候使用了較爲流行且對新手友好的bootstrap框架和

原创 《機器學習實戰》代碼片段學習3 樸素貝葉斯

知識儲備: 貝葉斯決策核心思想:選擇具有最高概率的決策。 貝葉斯準則: 利用貝葉斯準則我們可以交換條件概率中的條件與結果。 樸素貝葉斯假設:1.每個特徵相互獨立。2.每個特徵同等重要。 樸素貝葉斯分類器的優缺點: 優點:在數據較