python爬虫--实战豆瓣电影TOP250

原創

2020-04-30 18:57


import  requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36'}


def get_detail_urls(url):
    resp = requests.get(url, headers=headers)
    # print(resp.text)

    # 获取详情页面的url
    html = resp.text
    soup = BeautifulSoup(html, 'lxml')
    lis = soup.find('ol', class_='grid_view').find_all('li')
    detail_urls = []
    for li in lis:
        detail_url = li.find('a')['href']
        # print(detail_url)
        detail_urls.append(detail_url)
    return detail_urls

def parse_detail_url(detail_url,f,page):

    # 解析详情页面内容
    resp = requests.get(detail_url, headers=headers)
    # print(detail_url)
    html = resp.text
    soup = BeautifulSoup(html, 'lxml')
    # 获取电影的名字
    name = list(soup.find('div', id='content').find('h1').stripped_strings)
    name = ''.join(name)
    # print(name)
    try:
        # 导演
        director = list(soup.find('div', id='info').find('span').find('span', class_='attrs').stripped_strings)
        director = ''.join(director)
        # print(director)
        # 编剧
        screenwriter = list(soup.find('div', id='info').find_all('span')[3].find('span', class_='attrs').stripped_strings)
        screenwriter = ''.join(screenwriter)
        # print(screenwriter)
        # 演员
        actor = list(soup.find('span', class_='actor').find('span', class_='attrs').stripped_strings)
        actor = ''.join(actor)
        # print(actor)
        # 评分
        score = soup.find('strong', class_='ll rating_num').string
        print(score)
        f.write('{},{},{},{},{}\n'.format(name,director,screenwriter,actor,score))
    except Exception as e:
        print('第{}页，{},{}获取失败'.format(page,name,detail_url))

def main():
    base_url = 'https://movie.douban.com/top250?start={}&filter='
    # 创建Top250.csv文件，并用来存放数据
    with open('Top250.csv','a',encoding='utf-8') as f:
        # 第一页参数为0，第二页为25.。。。。。
        for x in range(0,226,25):
            # 获取网页上真实的页数
            page = 1+x/25
            print('正在获取第%d页的数据'%page)
            url = base_url.format(x)
            detail_urls = get_detail_urls(url)
            for detail_url in detail_urls:
                parse_detail_url(detail_url,f,page)




if __name__ == '__main__':
    main()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python爬虫--实战豆瓣电影TOP250

Power Automate Desktop 安装完，登录后老是提示one driver 错误

再谈23种设计模式（3）：行为型模式（学习笔记）

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

Numpy基礎知識總結

Django基礎知識隨筆

騰訊雲-英文識別(本地圖片)

python爬蟲--實戰英雄聯盟LOL壁紙下載

python爬蟲--實戰豆瓣電影TOP250

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結