原创 06Python爬蟲---正則表達式05之實戰

實例1:匹配.com或.vn後綴的URL網址 import re string = "<a href='http://www.baidu.com'>百度首頁</a>" pattern = "[a-zA-Z]+://[^/s]*[.

原创 05Python爬蟲---小結

(1) Urllib是 Python提供的一個用於操作URL的模塊,在 Python2X中,有 Urllib也有Urllib2庫,在 Python3x中 urllib2合併到了 urllib中,我們爬取網頁的時候,經常需要用到這個

原创 07Python爬蟲---Cookie實戰

一、什麼是Cookie   我們在瀏覽器中,經常涉及到數據的交換,比如你登錄郵箱,登錄一個頁面。我們經常會在此時設置30天內記住我,或者自動登錄選項。那麼它們是怎麼記錄信息的呢,答案就是今天的主角cookie了,Cookie是由H

原创 08Python爬蟲---正則和Cookie小結

(1)有時我們在進行字符串處理的時候,希望按自定義的規則進行處理,我們將這些規則稱爲模式。可以用正則表達式來描述這些自定義規則,正則表達式也稱爲模式表達式。 (2)在 Python中,一般我們會使用re模塊實現 Python正則表

原创 前端學習OneDay--JS ES6之let和const

一、ECMAScript 和 JavaScript 的關係 ECMAScript 和 JavaScript,前者是後者的規格,後者是前者的一種實現。ES6 這個詞的原意,就是指 JavaScript 語言的下一個版本 二、let

原创 Linux修改固定IP和查看網關命令

一、修改固定IP   設置固定IP的方法很多,大家都知道虛擬機上網有三種模式:bridged、host-only和NAT, 其中NAT模式對應VMnet8虛擬網絡,host-only模式對應VMnet1虛擬網絡,bridged模式

原创 02Python爬蟲---瀏覽器的模擬Headers屬性

import urllib.request #導入包 使用urlopen()訪問有些網站時會出現403錯誤,禁止訪問的錯誤,這就需要爬蟲模擬成瀏覽器 一、使用build_opener()修改報頭 1、注意urlopen()不支持

原创 06Python爬蟲---正則表達式02之元字符

  元字符表 符號 含義 . 匹配除換行符以外的任意字符 ^ 匹配字符串的開始位置 $ 匹配字符串的結束位置 * 匹配0次、1次或者多次前面的原子 ? 匹配0次或1次前面的原子 + 匹配1次或多次前

原创 10Python爬蟲---爬蟲實戰之糗事百科段子

目的:獲取糗事百科段子 思路: 1、爬取網頁 2、然後根據正則爬取出 關鍵內容 3、根據關鍵內容 再用正則匹配出 對應的用戶名和內容 4、循環賦值進行輸出 源碼: import urllib.request import

原创 06Python爬蟲---正則表達式03之模式修正_貪婪模式與懶惰模式

一、修正模式 符號 含義 I 匹配時忽略大小寫 M 多行匹配 L 做本地化識別匹配 U 根據Unicode字符及解析字符 S 讓.匹配包括換行符,即用了該模式修正後,”.”匹配就可以匹配任意的字符了

原创 06Python爬蟲---正則表達式04之常用表達式

常用的正則表達式函數 re.match()函數、re.search()函數、全局匹配函數、re.sub()函數 一、re.match()函數 從源字符串的起始位置匹配一個模式 格式re.match(pattern, stri

原创 09Python爬蟲---爬蟲實戰之京東圖片

目的:獲取京東手機頁面的圖片 1、打開京東首頁(www.jd.com),選擇對應的”手機/運營商/數碼”分類,並進入“手機”子分類 鏈接地址:https://list.jd.com/list.html?cat=9987,

原创 06Python爬蟲---正則表達式01之原子

原子:正則表達式中最基本的組成單位,每個正則表達式中至少包含一個原子,原子有以下幾類 (1)普通字符作爲原子 (2)非打印字符作爲原子 (3)通用字符作爲原子 (4)原子表 (1)普通字符作爲原子 import re patt

原创 Python數據挖掘06--淘寶網數據處理

淘寶數據:第一列標題,第二列鏈接,第三列價格,第四列評論 所用到數據sql文件點擊下載 一、數據預處理   數據預處理指的是對數據進行初步處理,把髒數據處理掉,否則很容易影響最終結果。 常見的的預處理包括: 1、缺失值處

原创 Python數據挖掘05--詞雲(wordcloud)找出老九門中熱門詞語

注意 window系統安裝wordcloud模塊時可能會出現需要安裝C++等錯誤,此時使用https://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy網站的whl自己進行安裝將不會再報錯