python網絡數據採集-單選按鈕、複選框和其他輸入

       顯然,並非所有的網頁表單都只是一堆文字字段和一個提交按鈕。HTML標準裏提供了大量可用的表單字段:單選按鈕、複選框和下拉選框等。在HTML5裏面,還有其他控件,向滾動條(範圍輸入字段),郵箱、日期等。自定義的JavaScript字段可謂無所不能,可以實現取色器(Colorpicker)、日曆以及開發者能想到的任何功能。

       無論表單的字段看起來多麼複雜,仍然有兩件事是需要關注的:字段名稱和值。字段名稱可以通過查看源代碼尋找name屬性輕易獲得。而字段的值有時會比較複雜,有可能在表單提交之前通過JavaScript生成的。取色器就是一個比較奇怪的表單字段,它可能會用類似#F03030這樣的值。

       如果你不確定一個輸入字段值的數據格式,有一些工具可以跟蹤瀏覽器正在通過網站發出或接受的GET或POST請求的內容。之前提到過,跟蹤GET請求效果最好也是最直接的手段就是查看網站的URL。如果URL的鏈接如下所示:

http://domainname.com?thing1=foo&thing2=bar
你就明白了請求就是下面這種表單:

<form method="GET" action="someProcessor.php">
<input type="someCrazyInputType" name="thing1" value="foo"/>
<input type="anotherCrazyInputType" name="thing2" value="bar"/>
<input type="submit" value="Submit"/>
</form>
對應的Python參數是:

{'thing1':'foo','thing2':'bar'}

       如果你遇到了一個看着比較複雜的POST表單,並且想看瀏覽器向服務器傳遞了那些參數,最簡單的方法就是用Chrome瀏覽器的審查元素(inspector)或開發者工具查看。

       Chrome瀏覽器的開發者工具可以在菜單中通過更多工具->開發者工具打開(快捷鍵F12)。它提供了瀏覽器與網站交互時產生的所有請求細節,是一種查看請求參數的好方法。



發佈了105 篇原創文章 · 獲贊 238 · 訪問量 16萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章