原创 集體智慧編程 第二章 匹配商品

我們在前面學習瞭如何爲指定人員尋找品味相近的人,以及如何向其推薦商品。但是如果我們想了解哪些商品是彼此相近的,應該如何做? 匹配商品 比如我們去淘寶,點擊某個商品的時候,側面總會給我們推薦一些類似商品。這是如何做到的呢? 首先我們要將之

原创 集體智慧編程 第二章 提供推薦

我們要知道在購物網站中,如何構建一個系統,用以尋找具有相同品味的人,並根據他人的喜好自動給出推薦。 一個協作型過濾算法通常的做法是對一大羣人進行搜索,並從中找到與我們品味相近的一小羣人。算法會對這些人所偏愛的其他內容進行考察,並將它們組合

原创 爬蟲MOOC 第一週 入門

Python網絡爬蟲與信息提取 講師:嵩天 第一步 安裝測試Request庫 # -*- coding:utf-8 -*- import requests r = requests.get("http://www.baidu.co

原创 第三章 決策樹 3.1決策樹構造

http://cn.akinator.com/  “神燈猜名人”這個遊戲很多人都玩過吧,問很多問題,然後逐步猜測你想的名人是誰。決策樹的工作原理與這個類似,輸入一系列數據,然後給出遊戲答案。決策樹也是最經常使用的數據挖掘算法。書上給了一個

原创 第二章 K-近鄰算法 及 約會網站配對

2.1 K-近鄰算法概述 K-近鄰算法應該就是一個分類算法。採用測量不同特徵值之間的距離方法進行分類。 優點:精度高、對異常值不敏感、無數據輸入假定。 缺點:計算複雜度高、空間複雜度高。 適用範圍:數值型和標稱型。 書中舉了一個電影分

原创 爬蟲MOOC 第二週 入門

首先下載Beautiful Soup 4,然後解壓安裝,記得安裝代碼是 python setup.py install 這裏要說明一點!!!很重要,我吃了一個多小時的虧。 我把文件命名爲 bs4.py 這時候如果要from bs4 im

原创 第十章 10.2 提高聚類性能 10.3 二分K-均值算法

上一節提到,在K-均值聚類中的簇的數目K是一個用戶預先定義的參數,那麼用戶如何才能知道 K 的選擇是不是正確?如何才能知道生成的簇比較好呢? 在包含簇分配結果的矩陣中保存着每個點的誤差,即該點到簇質心的距離平方值。下面要做的就是利用該誤差

原创 使用Anaconda3的Docker鏡像

原創 作者:你們大衛 假設本地 Ubuntu 服務器已經安裝好了Docker,這裏講述一下如何開始運行Anaconda3的Docker鏡像:   1. 搜索鏡像 搜索我們想要的anaconda鏡像: docker search anac

原创 第三章 決策樹 3.2 使用 Matplotlib 註解繪製樹形圖

上節學習瞭如何從數據集中創建樹,但是字典的表示形式非常不易於理解,而且直接繪製圖形也比較困難,這一節我們將使用 Matplotlib庫 來創建樹形圖。 3.2.1 Matplotlib註解 Matplotlib提供了一個註解工具 ann

原创 爬蟲MOOC 第三週 實戰

首先我們要理解什麼是正則表達式 Regular Expression 簡稱 RE,就是所謂的正則表達式。 正則表達式很好用,關鍵就是 簡潔 ! 比如,例子1: 'PY' 'PYY' 'PYYY' 'PYYYY' .... 'PYYYYY

原创 第十章 k-均值算法 10.4 對地圖上的點進行聚類

將地圖上的點進行聚類,安排交通工具抵達這些簇的質心,然後步行到每個簇內地址。 這裏我們直接用給出的文件進行操作,跳過10.4.1節。 添加代碼: def distSLC(vecA, vecB): # 返回地球表面兩點之間的距離

原创 第一章 機器學習基礎

        這一章主要講的是機器學習基礎,包括什麼是“機器學習”?機器學習的一些術語等等。         1.3 講了機器學習的主要任務,主要解決分類問題和迴歸問題,這兩者又屬於“監督學習”的範疇。與之對應的是“無監督學習”,這類

原创 Head First SQL 第二章

P53: SELECT 語句、更好的 SELECT: 在數據庫裏面有非常多的信息,我們要搜索,應該使用如下句式 SELECT * FROM my_contacts WHERE first_name = ‘Anne’; 這樣會返回所有

原创 第二章 K-近鄰算法 及 手寫識別系統

這一節主要是手寫識別數字系統的搭建。實際訓練數據在 trainingDigits 裏面,大約2000個例子。 爲了使用之前 2.2 的分類器,要把圖像格式化處理爲一個向量,32*32 變成 1* 1024。 首先寫一個 img2vecto

原创 集體智慧編程 第三章 發現羣組

第三章是第二章的擴展,引入了“數據聚類”的概念,這是一種用以尋找緊密相關的事、人或觀點,並將其可視化的方法。 聚類(data intensive)時常被用於數據量很大的應用中。本章第一個例子將對博客用戶所討論的話題,以及特殊詞綴進行考察。