爬蟲 - 台部落

爬蟲

原創

2019-02-22 18:23

# -*- coding: utf-8 -*-
import codecs
import csv
import requests
from bs4 import  BeautifulSoup

def getHTML(url):
    r=requests.get(url)
    return r.content

#jiexi
def openHTML(html):
    soup=BeautifulSoup(html,'html parser')
    body=soup.body

    company_middle=body.find('div',attrs={'class':'middle'})
    company_list_ct=company_middle.find('div',attrs={'class':'list-ct'})

    company_list=[]

    for company_ul in company_list_ct.find_all('url',attrs={'class':'company-list'}):
        for company_li in company_ul.find_all('li'):
            company_url=company_li.a['href']
            company_info=company_li.get_text()
            company_list.append([company_info.encode('gbk'),company_url.encode('gbk')])

    return company_list

def WriteCSV(file_name,data_list):
    with codecs.open(file_name,'wb') as f:
        writer=csv.writer(f)
        for data in data_list:
            writer.writerow=(data)


url='http://www.cninfo.com.cn/cninfo-new/information/companylist'
html=getHTML(url)
data_list=openHTML(html)
WriteCSV('result.csv',data_list)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

nginx安裝第三方模塊

我的友情鏈接

saltstack常用命令

ansible組件

爬蟲

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結