python爬蟲

原創

2018-08-24 23:19

python2.7爬蟲

有幾點需要注意的地方：

1、正則表示的方法match、search、findall，使用方法都不一樣

match:只匹配整個字符串第一個字母，如果第一個字母沒有匹配到則返回none
search:查找整個文章但是隻返回最後一個結果
findall:查詢整個文章返回全部結果

2、中文查找

下載的頁面需使用unicode轉碼後方可進行查找
錄入的中文符號需要在字符串前加u表明是unicode纔可以查找使用

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib2
import urllib
import re
if __name__ == '__main__':
  resp=urllib2.urlopen("http://www.weizhang8.cn/Article/9.html")
  content=resp.read()
  content=unicode(content,'utf-8')
#  print content 
  m=re.findall(u'[\(（](.)[\)）]',content)
  if m :
    for i in m :
      print i

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Go學習-環境

環境系統：Ubuntu 4.8.2安裝命令sudo apt-get install golang查看安裝版本cll@cll-virtual-machine:~$ go version go version go1.2.1 linux/am

2020-07-08 12:24:18

關於Centos 7下Gitlab服務器的搭建，遷移，完全刪除與修改root密碼

wget 用於從外網上下載插件 wget -V 檢查系統中是否已經安裝wget，安裝命令：yum -y install wget。安裝vim編輯器安裝命令：yum install vim -y。一、添加GitLab鏡像源並安裝g

2020-07-07 22:26:30

樹莓派無網線無顯示器遠程連接vnc

配置wifi連接方法非常簡單，首先在SD卡的根目錄下添加一個名爲 wpa_supplicant.conf的文件，然後在該文件內添加以下的內容 ctrl_interface=DIR=/var/run/wpa_supplicant GRO

2020-07-07 07:37:15

Python-在Mac下的環境搭建

訪問http://www.jetbrains.com/ 建議最好翻牆，不然訪問速度很慢。最近紅杏無法使用，建議使用行雲vpn 操作步驟如下 1.下拉到網站最下方，選取 2.下載並安裝 3.打開PyCharm

2020-07-07 01:29:29

docker 之安裝卸載、mysql、redis、mongo、服務的運行

Docker docker 安裝卸載環境： cent os Linux version 3.10.0-693.2.2.el7.x86_64 ([email protected]) 安裝 # step

2020-07-06 19:07:37

OROCOS之KDL（1）—— windows環境搭建篇

文章目錄0. 說明1. 依賴庫的版本查看2. 環境配置3. 測試注意：以下配置有缺陷，非完美支持，留坑待填，請繞道 0. 說明 IDE環境：Qt 5.12 編譯器：MinGW 系統：Windows 10 之前有網友說這

2020-07-06 01:04:06

android環境搭建問題

直接上問題改了hosts文件了。是203.208.46.146 但是這回沒有用了。由於工作需要我新了一個eclipse luna版的。不知道是不是這個版本的問題。然後選擇去下一個adt離線安裝包。但是安裝過程中又卡在了C

2020-07-04 04:38:13

域名服務的工作流程

## 域名服務的工作流程比如我們向www.baidu.com發出請求，執行流程則是： 1，C:\Windows\System32\drivers\etc \hosts文件中去尋找域名和i

2020-07-04 00:06:58

HTML和CSS歸檔基礎知識

HTML和CSS歸檔基礎知識前端好久沒看找了資料歸檔了下，HTML和CSS基本東西，深入請下載***w3cschool.CHM*** 1，HTML基本標籤 <!DOCTYPE

2020-07-04 00:06:58

幽冥傳奇

JAVA環境添加 setx /M JAVA_HOME “D:\YM-cnmmm.com\bl20166\Java\jdk1.8.0_144” setx /M CLASSPATH “.;%%JAVA_HOME%%\lib\dt.ja

2020-07-04 00:06:58

設置虛擬機網絡

虛擬機還原默認設置，橋接模式橋街到物理網卡 Windows虛擬機先自動獲取一下IP，能上網以後，在設置固定IP，就可以了

2020-07-03 14:28:53

mac搭建java web，android studio環境

1:mac搭建java web環境下載j dk 安裝，下載eclipse 安裝；對應的mac版本；（上官網http://www.oracle.com/technetwork/java/javase/downloads/index-jsp

2020-07-03 07:29:37

jyphon 環境變量配置

Jyphon 是基於java平臺python 的一種實現官網： http://www.jython.org/ 可以從官網下載 jyphon 安裝下載 jython Installer ,下載之後是一個j

2020-07-02 07:31:59

用ngrok穿透內網訪問windows

Scenario 想在上課的時候用筆記本（Windows）遠程回實驗室的臺式機（Windows）工作，TeamViewer 莫名崩掉，尋求另一個方案。有時只要用 ssh 就行，遠程桌面也行。 jupyter notebook/la

2020-06-29 15:36:44

人生苦短,Python當歌

人生苦短Python當歌-入門教程開始學習Python編程，首先就得把Python安裝到你的電腦裏。安裝後，你會得到Python解釋器（就是負責運行Python程序的），一個命令行交互環境，還有一個簡單的集成開發環境。工欲善其

2020-06-28 07:23:07

24小時熱門文章

最新文章

最新評論文章