BeautifulSoup 中去掉 獲取文本內容


Data

>>> type(ips)
<class 'bs4.element.Tag'>
>>> print ips
<p>64.158.31.142:3128 美國 科羅拉多州布隆菲爾德市Level3通信公司<br/>42.104.84.107:8080 印度  非大陸<br/>110.37.216.6:8080 巴基斯坦  非大陸<br/>54.70.50.55:3128 美國 新澤西州(Merck公司)<br/>182.253.121.33:8080 印度尼西亞  非大陸<br/></p>

Code

>>> type(ips.find_all(text=True))
<class 'bs4.element.ResultSet'>
>>> res = ips.find_all(text=True)
>>> for str in res:
    print str

117.4.136.145:8080 越南  非大陸
188.166.83.6:1080 俄羅斯  非大陸
138.197.157.44:1080 美國  非大陸
83.56.123.0:3128 西班牙  非大陸
183.89.210.22:8080 泰國  非大陸
111.62.243.64:80 中國 移動

or

>>> for str in ips.descendants:
    if type(str) == type(ips):
        None
    else:
        print str.string

117.4.136.145:8080 越南  非大陸
188.166.83.6:1080 俄羅斯  非大陸
138.197.157.44:1080 美國  非大陸
83.56.123.0:3128 西班牙  非大陸
183.89.210.22:8080 泰國  非大陸
111.62.243.64:80 中國 移動

參考

1. Beautifulsoup文檔

2. 知乎網友方法

3. arsing unclosed <br> tags with BeautifulSoup

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章