用Python3練習XPath語法

原創

2018-08-22 08:36

最近隔壁的童鞋在學習爬蟲中重要的一步：XPath語法。可惜在線測試（比如https://www.bejson.com/testtools/xpath/）的腳本可能有問題？利用“/@xx”獲取屬性的時候失敗，所以就用Python3寫了一個小腳本，用來做練習。

目前還有兩個小問題，一是無法使用etree的parse函數自己讀取文件，二是無法在輸入字符串中使用雙引號。目測不會再繼續更新。

#!/usr/bin/python3
# -*- coding: utf-8 -*-

from lxml import etree
import sys


if __name__ == '__main__':
    if len(sys.argv) == 2:
        filename = sys.argv[1]
    else:
        filename = input("Please input a filename which includes xml/html content: ")
    try:
        file = open(filename, 'r')
        data = file.read()

        html = etree.HTML(data)
        # html = etree.parse(filename)

        while True:
            xpath = input("XPath: ").strip()
            if xpath == '*':
                print("By.")
                break
            try:
                html_data = html.xpath(xpath)
                for item in html_data:
                    if type(item) == etree._ElementUnicodeResult:
                        print(item)
                    elif type(item) == etree._Element:
                        print(item.tag, item.attrib)
                    else:
                        print(item, type(item))
            except Exception as err:
                print("發生了一個錯誤！")
                print(err)
    except:
        print("文件不存在或不可讀！")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

用Python3練習XPath語法

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

關於接口協議，你必須要知道這些！

FolkMq v1.4.6 發佈（可以內嵌的消息中間件）

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

01 穩定性（一）如何應對事故並做好覆盤？

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

京東面試：如何進行JVM調優？

Stream流常用方法總結

apktool修改“戰網安全令”實現雙開（國服亞服共存）

jQuery/JavaScript 計算字符串顯示寬度/高度

Ubuntu編譯安裝Cocos2d-x遇到“對‘libiconv*’未定義的引用”的問題

截止至2018/5/18可用的在Ubuntu16.04上llvm+compiler-rt+clang+clang-extra+libcxx+libcxxabi+lld編譯安裝的方法

用Python3練習XPath語法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結