原创 sklearn初步學習

安裝 要求: Python (>= 2.6 or >= 3.3), NumPy (>= 1.6.1), SciPy (>= 0.9). 首先在安裝numpy和scipy包。在保證有這兩個包的情況下,使用如下命令即可

原创 Scrapy 學習

Scrapy安裝 在Windows cmd中輸入命令: pip install scrapy 就會自動下載安裝Scrapy。等待安裝完成就能使用。也可以在cmd中輸入以下命令,來查看是否安裝成功: scrapy -h 這個

原创 Python爬蟲基礎-3

urllib2內容擴充 urlopen返回的應答對象response(或者HTTPError實例)有兩個很有用的方法info()和geturl() geturl() 很有用!返回獲取的真實的URL,因爲urlopen(或者open

原创 Python爬蟲基礎-2

異常處理問題 當urlopen不能夠處理一個req時,產生urlError。不過通常的Python APIs異常如ValueError,TypeError等也會同時產生。HTTPError是urlError的子類,通常在特定HTT

原创 python中關於時間變量的處理

時間在python中有3中存儲方法: 1.str 2.float 3.struct tuple(time.struct_time 或 datetime.datetime) #time.struct_time形如:

原创 python pickle, cPickle 模塊

cPickle可以對任意一種類型的python對象進行序列化操作,比如list,dict,甚至是一個類的對象等。 import cPickle as pickle 方法: 1.pickle.dump(data, file) 將py

原创 xgboost 安裝

作爲使用python進行機器學習的有力工具,在windows平臺上的安裝如下: 下載git git地址 git bash 安裝完成後,打開git bash,在命令行中依次輸入: git clone --recursive http

原创 Python爬蟲基礎-5(正則表達式)

正則表達式基礎 Python支持的正則表達式元字符和語法: 語法 語法 說明 表達式實例 完整匹配的字符串 字符 一般字符 匹配自身 abc abc . 匹配除換行符”\n”之外的任意字符 a.c abc

原创 python-struct模塊

需要處理二進制數據時使用,例如在socket發送、接受的數據中。因爲在網絡通信中,數據先被打包成結構體(struct)類型,再被打包成二進制字符串流來進行傳輸。所以數據需要打包和拆包。struct模塊的功能就是在python字符串與c結構

原创 python-json模塊

編碼Encode方法 將 Python 對象編碼成 JSON 字符串 import json data = { 'a': 'a', 'b': 'b', 'c': 7, 'd': 'hello', } e

原创 python-類屬性及方法

屬性 __dict__ 維護類或實例中所有的成員。 class SubStrClass(str): a = 1 def __init__(self): self.b = 2 def mypri

原创 python time 模塊

1.time.clock() 該函數有兩個功能: 1.在第一次調用的時候,返回的是程序運行的實際時間; 2.以第二次之後的調用,返回的是自第一次調用後,到這次調用的時間間隔. 在win32系統下,這個函數返回的是真實時間(wal

原创 Python爬蟲基礎-1

一、URL URL(Uniform Resource Locator),統一資源定位符。採用URL可以用一種統一的格式來描述各種信息資源,包括文件、服務器的地址和目錄等。 URL的一般格式爲(帶方括號[]的爲可選項): protoco

原创 Python爬蟲基礎-4

urllib2使用細節 Proxy 的設置 urllib2 默認會使用環境變量 http_proxy 來設置 HTTP Proxy。如果想在程序中明確控制 Proxy 而不受環境變量的影響,可以使用代理。 簡單的代理: import u