Python爬取貼吧內容-南華大學貼吧爲例

# -*-encoding:utf-8 -*-
#---------------------------------------  
#   程序:南華大學貼吧獲取器  
#   作者:ZZC  
#   日期:2017-03-21  
#   語言:Python 3.6
#   功能:爬取南華大學貼吧標題的內容。
#---------------------------------------  


import requests
from bs4 import BeautifulSoup
import re 


def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status() #檢測狀態
        print(r.encoding+"  "+r.apparent_encoding)
        #r.encoding = r.apparent_encoding
        return r.text
    except:
        return "getHTMLText"


def getTitleList(url):
    html = getHTMLText(url)
    soup = BeautifulSoup(html,'html.parser')
    #尋找符合條件的ul
    ul = soup.find_all('ul',attrs={'class':'threadlist_bright j_threadlist_bright'})
    count = 0
    print("第一頁")
    for i in ul:
        liTop = i.find_all('li',attrs={'class':' j_thread_list thread_top j_thread_list clearfix'})
        print("有"+str(len(liTop))+"個置頂帖")
        print("-------------------------------------")
        for j in liTop:
            count = count + 1
            getMessage(count, j, 0)
        liList = i.find_all('li',attrs={'class':' j_thread_list clearfix'})
        print("-------------------------------------")
        print("有"+str(len(liList))+"個普通帖")
        print("-------------------------------------")
        for j in liList:
            count = count + 1
            getMessage(count,j,1)


def getMessage(count,j,top):
    huifu = j.find('span', attrs={'class': 'threadlist_rep_num center_text'})
    title = re.findall(r'<a .*?href="/p/\d{10}".*?>(.*?)</a>', str(j))
    author = j.find('span', attrs={'class': 'frs-author-name-wrap'})
    createTime = j.find('span', attrs={'class': 'pull-right is_show_create_time'})
    content = ""
    if top == 1:
        divCon = j.find('div', attrs={'class': 'threadlist_abs threadlist_abs_onlyline '})
        content = divCon.string.lstrip()
    print(count)
    print("標題:" + title[0])
    print("作者:" + author.string)
    print("時間:" + createTime.string)
    print("回覆次數:" + huifu.string)
    print("內容:"+ content)
def main():
    url = 'http://tieba.baidu.com/南華大學'
    getTitleList(url)




#-------- 程序入口處 ------------------  
main()












運行結果:
UTF-8  ISO-8859-2
第一頁
有2個置頂帖
-------------------------------------
1
標題:『南華大學2017年租房、尋租交易專貼』
作者:打人就是蛋疼
時間:1-1
回覆次數:356
內容:
2
標題:《跳蚤市場》南華大學吧二手交易及兼職信息貼【2017年】
作者:打人就是蛋疼
時間:1-1
回覆次數:627
內容:
-------------------------------------
有48個普通帖
-------------------------------------
3
標題:機械專業的大佬
作者:wx854295296
時間:3-17
回覆次數:30
內容:
4
標題:南華複試
作者:This王道
時間:3-21
回覆次數:10
內容:27號去南華複試,安全工程,請問我應該去哪個區複試?離衡陽東站遠嗎?複試難不難?有沒有了解的解答
        
5
標題:在南華上了幾年大學的學長學姐們,你們放小假都會去哪裏玩啊?
作者:說謊的天真
時間:17:59
回覆次數:23
內容:求推薦 
        
6
標題:好久不見你還好嗎
作者:life風中奇葩
時間:11:47
回覆次數:6
內容:好久不見你還好嗎原諒我不能回答你所好奇的問題我只知道你一切安好便好 
        
7
標題:求spss分析大神
作者:Twinkie647
時間:19:52
回覆次數:0
內容:吧裏有沒有會spss問卷分析的朋友??價格好商量 
        
8
標題:這場雨還要下多久?
作者:伊人何時歸丶
時間:12:06
回覆次數:22
內容:
9
標題:自己在北京當兵,想找個醫學類的對象,講真,只想衡陽本地的
作者:wangya2019
時間:3-9
回覆次數:171
內容:
10
標題:寢室自力更生的蘑菇
作者:沒心沒肺不糾結
時間:2016-11
回覆次數:204
內容:hhhhh 沒想到凳子放在廁所居然長蘑菇了,有誰要買的嗎~野生的,天然無添加的, 
        
11
標題:衡陽城區170萬人以後住在哪,去哪購物、休閒…… 都在這了!
作者:新衡陽新石市
時間:19:50
回覆次數:0
內容:新湖南新聞客戶端 > 湖南 > 衡陽 [衡陽] 衡陽城區170萬人以後住在哪,去哪購物、休閒…… 都在這了!
        
12
標題:肉友召集帖
作者:人有姸媸
時間:2-26
回覆次數:36
內容:南華的肉友們,來吧,互相傷害吧 
        
13
標題:有沒有同學想養狗狗
作者:安雨言永不言敗
時間:3-20
回覆次數:9
內容:價格好說,狗狗健康,只要你對它好。聯繫電話18684837500
        
14
標題:招個兼職小夥伴。
作者:射你一箭
時間:15:26
回覆次數:4
內容:活簡單,輕鬆 
        
15
標題:未來的小學妹
作者:Dwyan_
時間:2-16
回覆次數:69
內容:現在高三 美術生 想具體瞭解瞭解南華的情況 有小哥哥小姐姐解答一下嗎 
        
16
標題:請問南華大學得研究生好考嗎
作者:萌微博名勳3鹿
時間:2016-07
回覆次數:33
內容:我是南華畢業的,考本校研究生會容易些嗎,哪個專業比較容易考呢,本校研究生留校任職(帶編)可能
        
17
標題:爲什麼校外住宿不能減免住宿費呀
作者:獅子淺岡未緒
時間:17:09
回覆次數:4
內容:反正也沒有住,而且學院查晚歸名單裏又沒有我名字,牀鋪還被同學給佔了,這無疑加重了考研學子的負
        
18
標題:誰知道南華本部哪裏有租正裝的?
作者:看不見出口的海
時間:18:32
回覆次數:1
內容:
19
標題:中交隧道工程局北京分公司春招
作者:野蠻丶珊珊
時間:18:18
回覆次數:2
內容:中交隧道工程局北京分公司簡介 中交隧道工程局有限公司北京分公司,隸屬於中交隧道工程局有限公司,
        
20
標題:轉眼就要畢業
作者:有可可丶
時間:14:32
回覆次數:4
內容:大四,在簽約公司實習快一個月了,以前沒有來貼吧看過,現在沒在學校,只能在這裏看看同學們生活,
        
21
標題:想養只貓
作者:請叫我翅客
時間:3-20
回覆次數:17
內容:RT,我畢業了,定居衡陽,父母也來,我媽想養只貓 有沒有免費的奶貓可以送我養的,大了就算了,怕它
        
22
標題:【小王子】講真,我真的不是水
作者:叫我暖貼小王子
時間:2-23
回覆次數:53
內容:我只想看看有沒有超過我的 順便再交個PY啊 
        
23
標題:衡陽如何打造“湘南地區中心城市”?本社邀您發表高見
作者:新衡陽新石市
時間:11:15
回覆次數:2
內容:衡陽如何打造“湘南地區中心城市”?本社邀您發表高見 來源:衡陽日報 編輯:王丹   五條途徑歡迎
        
24
標題:大概這就是變態吧
作者:小胖不寂寞
時間:2016-11
回覆次數:105
內容:
25
標題:這老哥玩的啥啊?還自帶騎兵了
作者:南華外交部長
時間:09:32
回覆次數:16
內容:猜出來算我輸                    設使貼吧無有孤,不知幾人賣鞋,幾人開車。 
        
26
標題:頭髮護理與營養
作者:小姜妃
時間:3-21
回覆次數:3
內容:1.正常的頭髮 數量:10萬根左右 頭髮的生長:每月生長1cm左右 掉髮:每日30~80根 2.頭髮的組成 基本成分:角質蛋
        
27
標題:想問一下今年的核單招
作者:ゝ淡寫紅塵
時間:09:50
回覆次數:20
內容:宜賓812的,今年還有核單招。想問一下具體情況,比如試題難易,報考人數,收分什麼的。謝謝啦
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章