数据采集 - 1688公开信息采集案例展示

一、背景：

一个做展会的小伙伴儿找到我，希望能帮他采集某一类目的1688厂家信息，然后邀请他们参加展会。

二、设计思路如下：

采用 Python3 语言编码 , 工具 PyCharm;
模仿真实用户登录1688，使用Selenium + Google Chrome + chromedriver.exe；

备注1：Google Chrome + chromedriver.exe版本对应参考链接：https://blog.csdn.net/lildkdkdkjf/article/details/106871954

备注2：Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。

对1688的超频次访问限制策略，采用sleep等待重试的策略解决。
以excel表格的形式保存结果。

三、功能实现：

关键代码

 def get_url_list(self):
        beginPage = 1
        while beginPage < 100:
            try:
                httpDone = ('http://s.1688.com/company/company_search.htm?n=y&netType=1,11&encode=utf-8&keywords=%s&beginPage=%d') % (
                           self.keyword_encode, beginPage)

                print("parsettt 页码", beginPage, httpDone)
                self.browser.get(httpDone)
                nodes = self.browser.find_elements_by_xpath('//a[@class="list-item-title-text"]')
                if len(nodes) == 0:
                    print("parsettt 未找到节点------------------", beginPage)
                    if self.browser.page_source.find("滑动一下马上回来") >=0 :
                        seconds = random.randint(self.min_seconds, self.max_seconds)
                        print("parsettt sleep s，程序被限制，滑动一下马上回来 ", seconds, beginPage)
                        time.sleep(seconds)
                        continue
                    else :
                        print("parsettt 结束 exit---------------------", beginPage)
                        break
                else:
                    self.url_list = []
                    print("parsettt 找到节点----------------", len(nodes), len(self.url_list))
                    for node in nodes:
                        url = node.get_attribute('href')
                        title = node.get_attribute('title')
                        # 去重处理
                        if url not in self.url_list:
                            self.url_list.append(url)

                    for url in self.url_list:
                        self.save_gys_info(url)

                beginPage = beginPage + 1
                print("////////////////////////////////////////")
            except Exception as e:
                print("error", e)
                time.sleep(30)

配置文件

{
    "chrome": "",
    "chromedriver": "chromedriver.exe",
    "keyword": "服装",
    "min_seconds": 600,
    "max_seconds": 720
}

结果展示

四、总结

节前实现了这个功能，交付给了小伙伴儿，他很满意，因为他节省了时间和精力去做更有创造力的事情。

本次分享结束，欢迎讨论！QQ微信同号： 6550523

本文章仅供技术交流，不得商用，不得转载，违者必究。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

数据采集 - 1688公开信息采集案例展示

一、背景：

二、设计思路如下：

三、功能实现：

关键代码

配置文件

结果展示

四、总结

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Python 潮流周刊#51：用 Python 绘制美观的图表

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

ECharts - 19. echarts-liquidfill 水球圖

數據採集 - 獲取【一品威客】最新發布需求，並實時通知用戶案例四

數據採集 - 獲取【oschina】最新發布需求，並實時通知用戶案例三

數據可視化：基於 Echarts + Python 實現的動態實時大屏範例五

數據可視化：基於 Echarts + Python 實現的動態實時大屏範例六

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結