在做html解析時,遇到了需要將html的<table> 標籤轉成需要的形式。
這裏是轉成 (' 增持方式 ', ' 競價交易 ') 這種形式。
接下來的代碼是可以處理可變長的table,思路很簡單,可以根據自己的需求封裝成函數,或者修改。
from bs4 import BeautifulSoup
html = """
目標html的只包含表格的文本
"""
soup = BeautifulSoup(html, 'lxml')
data_list = []
namelist=[]
for idx, tr in enumerate(soup.find_all('tr')):
if idx != 0:
tds = tr.find_all('td')
values=[w.text for w in tds]
# print(list(values))
ans=zip(namelist,values)
data_list.append(ans)
else:
templist=(tr.find_all("td"))
namelist=[w.text for w in templist]
# print(namelist)
for data in data_list:
print(list(data))