python爬蟲抓取51cto博客大牛的文章保存到MySQL數據庫

原創

2018-09-12 06:09

腳本實現：獲取51cto網站某大牛文章的url，並存儲到數據庫中。

#!/usr/bin/env python
#coding:utf-8
from  bs4  import  BeautifulSoup
import urllib
import re
import MySQLdb
k_art_name = []
v_art_url = []
db = MySQLdb.connect('192.168.115.5','blog','blog','blog')
cursor = db.cursor()
for page in range(1,5):
page = str(page)
url = 'http://yujianglei.blog.51cto.com/all/7215578/page/'  + page
request = urllib.urlopen(url)
response = request.read()
response = unicode(response,'GBK').encode('UTF-8')
soup = BeautifulSoup(response,'html.parser')
a_tag = soup.find_all(href=re.compile("^/\d{7,}/\d{7,}$"))
for i  in a_tag:
art_name = i.string
art_url  = 'http://yujianglei.blog.51cto.com' + i['href']
k_art_name.append(art_name)
v_art_url.append(art_url)
if  len(k_art_name) == len(v_art_url):
number1 = len(k_art_name)
number2 = len(v_art_url)
for j in range(number1):
a = k_art_name[j]
b = v_art_url[j]
print a,b
sql = '''INSERT   INTO    blog_51cto  (art_name,art_url)  VALUES ("%s","%s")'''   %(a,b)
try:
cursor.execute(sql)
db.commit()
except Exception, e:
print e
db.rollback()
else:
print   'k_art_name:',   len(k_art_name)
print   'v_art_url:' ,   len(v_art_url)
cursor.close()
db.close()


# insert  into  blog_51cto   (art_name,art_url)  VALUES ("oracle 手動歸檔、自動歸檔、歸檔位置、歸檔進程","http://yujianglei.blog.51cto.com/7215578/1560485")
#CREATE DATABASE blog;
#CREATE TABLE `blog_51cto` (
#   `id` int(11) NOT NULL AUTO_INCREMENT,
#   `art_name` varchar(500) DEFAULT NULL,
#   `art_url` varchar(500) DEFAULT NULL,
#   PRIMARY KEY (`id`)
# ) ENGINE=InnoDB AUTO_INCREMENT=1609 DEFAULT CHARSET=utf8;

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python爬蟲抓取51cto博客大牛的文章保存到MySQL數據庫

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

MySQL備份和恢復實戰

線上Nginx部署實戰

python爬蟲抓取51cto博客大牛的文章保存到本地excel文件

ZABBIX 之python腳本郵件報警配置

zabbix監控elasticsearch集羣

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結