爬取智聯招聘信息並且存入數據庫

任務爬取智聯頁面的招聘信息並且存入數據庫。

由於是初次嘗試這裏選擇了固定的頁面存入數據庫。

首先確定需要爬取的頁面

http://sou.zhaopin.com/jobs/searchresult.ashx?jl=全國

%2B廣東&p=###

### 這裏填寫爬取的頁面，後期在程序裏面自己選擇。

首先我們打開頁面http://sou.zhaopin.com/jobs/searchresult.ashx?jl=全國

%2B廣東&p=1 查看信息，我們選擇谷歌瀏覽器來幫助篩選。如圖

我們發現我們需要的東西位置在 newlist 類下面

我們利用BS4 來解析和分析頁面。

resp = requests.get(start_yemian_html,headers=headers)

soup = bs(resp.text,"html.parser")

#獲取工作地點

place=soup.find_all(attrs={"class":"newlist"})

for i in place:

#工作名稱

zwmcold1 = i.find(attrs={"class":"zwmc"}).get_text()

zwmc2 = zwmcold1.replace("\n"," ")

zwmc3 = zwmc2.replace(" ","")

因爲這樣獲取的zwmcold1 有空格和空行所以用replace來替換掉，這樣就獲得了最後的zwmc3（職位名稱）。同樣的道理我們可以這樣獲取工作地點，工資水平已經公司名稱，

#公司名稱

gsmc1 = i.find(attrs={"class":"gsmc"}).get_text()

gsmc = gsmc1.replace("\n"," ")

#職位薪水

zwxz1 = i.find(attrs={"class":"zwyx"}).get_text()

zwxz = zwxz1.replace("\n"," ")

#工作地點

gzdd1 = i.find(attrs={"class":"gzdd"}).get_text()

gzdd = gzdd1.replace("\n"," ")

好了。以上我們已經用最簡單的方法抓取了智聯的招聘信息，下面我們需要把這些信息放入數據庫裏面。

我們首先定義一個數據庫的方法：

def writetosjk(zwmc3,gsmc,zwxz,gzdd):

#創建數據庫鏈接

conn =pymysql.connect(host="127.0.0.1",port=3306,user="root",passwd="zfno11",db="job",charset='utf8')

#創建遊標

#for i in range(1,10):

sql = '''insert into job

(jobname,comname,salary,jobplace)

values(%s, %s, %s, %s)'''

cursor = conn.cursor()

try:

cursor.execute(sql,(zwmc3,gsmc,zwxz,gzdd))

#提交，不然無法保存新建或者修改的數據

except MySQLdb.Error:

print("數據庫執行語句異常")

finally:

conn.commit()

#關閉遊標

cursor.close()

conn.close()

由於我們已經知道了我們需要抓取的信息，以及要存儲的信息，所以這裏方法的參數已經寫死，

zwmc3,gsmc,zwxz,gzdd 到時候我們調用方法，直接傳遞工資名稱，公司名稱，職位名稱，工作地點。

下面就是完整的代碼：

import pymysql

import re

import requests

import urllib

import bs4

from urllib import request

from bs4 import BeautifulSoup as bs

#數據庫定義

def writetosjk(zwmc3,gsmc,zwxz,gzdd):

#創建數據庫鏈接

conn =pymysql.connect(host="127.0.0.1",port=3306,user="root",passwd="zfno11",db="job",charset='utf8')

#創建遊標

#for i in range(1,10):

sql = '''insert into job

(jobname,comname,salary,jobplace)

values(%s, %s, %s, %s)'''

cursor = conn.cursor()

try:

cursor.execute(sql,(zwmc3,gsmc,zwxz,gzdd))

#提交，不然無法保存新建或者修改的數據

except MySQLdb.Error:

print("數據庫執行語句異常")

finally:

conn.commit()

#關閉遊標

cursor.close()

conn.close()

#第一步，獲取頁面信息並且保存信息

def get_info_save():

choice=int(input("爬取特定頁面或者頁面範圍爬取 1 特定頁面，2指定頁面範圍"))

if choice == 1:

start_yemian=input("請輸入爬去的頁數")

start_yemian_html="http://sou.zhaopin.com/jobs/searchresult.ashx?jl=全國%2B廣東&p="+start_yemian

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36"}

resp = requests.get(start_yemian_html,headers=headers)

soup = bs(resp.text,"html.parser")

#獲取工作地點

place=soup.find_all(attrs={"class":"newlist"})

# place=soup.find_all(attrs={"class":"newlist_list_content"})

for i in place:

#工作名稱

zwmcold1 = i.find(attrs={"class":"zwmc"}).get_text()

zwmc2 = zwmcold1.replace("\n"," ")

zwmc3 = zwmc2.replace(" ","")

#公司名稱

gsmc1 = i.find(attrs={"class":"gsmc"}).get_text()

gsmc = gsmc1.replace("\n"," ")

#職位薪水

zwxz1 = i.find(attrs={"class":"zwyx"}).get_text()

zwxz = zwxz1.replace("\n"," ")

#工作地點

gzdd1 = i.find(attrs={"class":"gzdd"}).get_text()

gzdd = gzdd1.replace("\n"," ")

writetosjk(zwmc3,gsmc,zwxz,gzdd)

else:

start_yemian=input("請輸入開始爬去的頁數")

end_yemian=input("請輸入結束爬去的頁數")

count=int(start_yemian)

while count<= int(end_yemian):

start_yemian_html="http://sou.zhaopin.com/jobs/searchresult.ashx?jl=全國%2B廣東&p="+str(count)

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36"}

resp = requests.get(start_yemian_html,headers=headers)

soup = bs(resp.text,"html.parser")

#獲取工作地點

place=soup.find_all(attrs={"class":"newlist"})

# place=soup.find_all(attrs={"class":"newlist_list_content"})

for i in place:

#工作名稱

zwmcold1 = i.find(attrs={"class":"zwmc"}).get_text()

zwmc2 = zwmcold1.replace("\n"," ")

zwmc3 = zwmc2.replace(" ","")

#公司名稱

gsmc1 = i.find(attrs={"class":"gsmc"}).get_text()

gsmc = gsmc1.replace("\n"," ")

#職位薪水

zwxz1 = i.find(attrs={"class":"zwyx"}).get_text()

zwxz = zwxz1.replace("\n"," ")

#工作地點

gzdd1 = i.find(attrs={"class":"gzdd"}).get_text()

gzdd = gzdd1.replace("\n"," ")

writetosjk(zwmc3,gsmc,zwxz,gzdd)

print("第 %s 頁爬取完畢並且存入數據庫"%(count))

count+=1

注意可能存在的問題:

我們可以查詢到網頁頁面的編碼，一般爲UTF-8。我們把數據存入數據庫的時候。，默認的數據庫（MYSQL）編碼爲Latin1，不支持中文。所以要把編碼改爲UTF-8，我這邊修改了UTF-8編碼還是報錯：

最後百度發現問題，UTF8暫用3個字節空間。移動設備上有些標籤符號。暫用4個字節空間，所以需要把編碼改爲UTF8MB4

sudo find / -name my.cnf 找到配置文件（使用配置文件修改更快）

在原文中添加以下內容：（mysql和client是原來配置文件裏面沒有的需要自己手動添加）

[client] default-character-set = utf8mb4 [mysql]default-character-set = utf8mb4 [mysqld]character-set-client-handshake = FALSEcharacter-set-server = utf8mb4collation-server = utf8mb4_unicode_ci init_connect='SET NAMES utf8mb4'

最後解決。

OK 接下來測試下程序

爬取智聯招聘信息並且存入數據庫

【SQL進階】CASE語句的使用

npm error Cannot read properties of null (reading 'isDescendantOf')

SHELL

sed

grep

AWK基礎

hostname

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結