时隔几个月终于对_下厨房_下手咯！！！

下厨房-菜谱

为何现在动手呢?

说来话长，由于本人不怎么会做菜，基本也不做菜，所以迟迟没去看，纯属练练手没别的意思
有做菜需求，或是喜欢做菜的朋友，请用浏览器访问下厨房. 请支持正版

主要库名

requests
lxml
fake_useragent

思路

二次解析

下面奉上完成代码 ps:不要随便使用，以免对他人和自己造成困扰

完整的python代码

# -*- coding: utf-8 -*-
"""
 @Time : 2020/6
 @File : XiaChuFang.py 
 @Software: PyCharm
"""
import os
import requests
from lxml import etree
from fake_useragent import UserAgent
import time


class kitchen(object):
    u = 0

    def __init__(self):
        self.url = "https://www.xiachufang.com/explore/?page={}"

        # 使用 UserAgent 库 生成不同的 请求头 ‘User-Agent’
        ua = UserAgent(verify_ssl=False)
        for i in range(1, 50):
            self.headers = {
                'User-Agent': ua.random,
            }

    def get_page(self, url):
        """
        发送请求  获取响应
        :param url:
        :return:
        """
        res = requests.get(url=url, headers=self.headers)
        html = res.content.decode("utf-8")
        return html

    def parse_page(self, html):
        """
        解析数据
        :param html:
        :return:
        """
        parse_html = etree.HTML(html)
        image_src_list = parse_html.xpath('//li/div/a/@href')
        for i in image_src_list:
            url = "https://www.xiachufang.com/" + i

            html1 = self.get_page(url)  # 对具体链接发起请求
            parse_html1 = etree.HTML(html1)

            num = parse_html1.xpath('.//h2[@id="steps"]/text()')[0].strip()
            ingredients = parse_html1.xpath('.//td//a/text()')
            self.u += 1
            food_info = '''
第 %s 种

菜 名 : %s
原 料 : %s
下 载 链 接 : %s
=================================================================
                    ''' % (str(self.u), num, ingredients, url)

            # 判断 下厨房菜谱.doc 文件是否存在 不存在则创建
            filename = "./下厨房菜谱.doc"
            if not os.path.exists(filename):
                os.system(r"cd.>{}".format(filename))

            f = open('./下厨房菜谱.doc', 'a', encoding='utf-8')
            f.write(str(food_info))
            print(str(food_info))
            f.close()

    def main(self):
        start_page = int(input("起始页:"))
        end_page = int(input("终止页:"))
        for page in range(start_page, end_page + 1):
            url = self.url.format(page)
            html = self.get_page(url)
            self.parse_page(html)
            time.sleep(1.4)
            print("====================================第 %s 页 爬 取 成 功====================================" % page)


if __name__ == '__main__':
    imageSpider = kitchen()
    imageSpider.main()

觉得还可以请点个👍哟

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

时隔几个月终于对_下厨房_下手咯！！！

下厨房-菜谱

为何现在动手呢?

主要库名

思路

完整的python代码

如何基于surging跨网关跨语言进行缓存降级

2024合集

程序员天天 CURD，怎么才能成长，职业发展的思考(2)

移位操作搞定两数之商

教你用Perl实现Smgp协议

如何通过前端表格控件在10分钟内完成一张分组报表？

win11关闭自动检测病毒删文件

通用代码生成器简介

lightdb 单机模式下数据库平移

千兆宽带实际网速能到达多少？

Linux（Cent OS）基礎型常用命令-主命令

C#編程之Linq-語言集成查詢_基礎篇

如何運行 GitHub 上下載的 Vue 項目

MS SQL Server 數據庫（基礎篇）

CSharp(C#)語言_第五章（類和繼承）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結