原创 CSV(逗號分隔值文件)簡單使用方法

今天學了什麼學了什麼?讓我想想…CSV!逗號分隔值文件(好神(dou)奇(bi)的名字)!好進入主題,作爲記錄數據的文件,一定有其和其他數據記錄文件不能比的過人之處。比如: 1. 能用excel直接打開! 就是這麼神奇!先貼上cs

原创 python中import, process(), __name__的聯繫

最近總是碰到同學仔問python多進程學習中,如果在if __name__ == "__main__":外創建進程爲什麼會報錯。特意整理了一下相關知識點,記錄如下。 import 導入模塊 先是import的相關知識。 import導

原创 python中的序列化——從pickle模塊到json模塊的擴展

前言 python序列化: 把不能夠直接儲存的數據變爲可儲存,這個過程叫序列化。 反序列化: 把存儲的數據轉化爲原數據類型,這個過程叫反序列化。 encode() 和 decode() 的侷限性 在python基礎函數中,對數據的

原创 XPath Helper使用教程

XPath Helper是一個瀏覽器插件,能在element中定位元素。 下載地址 百度網盤下載 密碼:yuuv 下載完成後選擇保留 安裝 在導航欄中輸入chrome://extensions; 將.crx文件拖拽到擴展程序頁面

原创 lxml模塊學習

etree模塊 etree.HTML() 將字符串類型轉換爲Element類型 傳入字符串參數,返回element類型 from lxml import etree text = ''' <div> <ul>

原创 用XPath提取捧腹網笑話文本

記錄XPath基本語法,使用一些簡單的XPath語法提取文本 基本語法 獲取文本/text() a/text()獲取a標籤下的文本 a//text()獲取a標籤下的所有標籤的文本 //a[text()]='下一頁>'獲取包含“下一

原创 python高級語法——(1)GIL學習

GIL(全局解析器鎖) GIL,全局解析器鎖,只對多線程有影響。 如果沒有GIL,多線程會同時調用全局資源,全局資源會因多個線程同時調用而造成數據錯誤。 因此每個線程在執行過程中都需要先獲取GIL,保證同一時刻只有一個線程在

原创 爬貼吧——(1)先爬一下貼吧的帖子列表

import requests from lxml import etree class TiebaSpider(object): def __init__(self, tieba_name): # 初始化需要用到的變量