Python進階_6.爬蟲中總結的Python

1. 設置字符編碼格式

    #設定編碼格式
        encoding = sys.getfilesystemencoding()
    #編碼格式轉換
        html_str = html_str.decode('UTF-8').encode(encoding)

2. 查看變量類型
        print type(html_str)

3. 類似set的結構
    #將變量值作爲dict的key,保證期唯一性;value可以爲空
        dict[url] = ' '

4. 讀取文件
    #文件讀取流
        f = file(path)
    #讀取全部內容
        while True:
            line = f.readline()
    #如果內容讀完,退出循環
            if len(line) == 0:
                break
            print line
    #關閉文件流
        f.close()

5. 寫文件
    #文件寫入流
        f = file(path, 'w')
    #寫入文件內容
        f.write('content')
    #關閉文件流
        f.close()

6. 變量類型轉換
        str = str(num)
        num = int(str)

7. 保存網頁圖片
    #鏈接訪問

        urlopen=urllib.URLopener()
        fp = urlopen.open(imgUrl)
        data = fp.read()
        fp.close()

    #輸出內容
        fout1 = file(fileName+'.jpeg', "wb")
        fout1.write(data)
        fout1.close()

8. 正則表達式
    #正則格式,r表示不對字符進行轉義;?表示進行的是非貪婪匹配,即找到匹配的內容即停止
        biaoti_reg = r'<h1>(.*?)</h1>'
    #匹配字符
        biaoti = re.findall(biaoti_reg, html_str)
    #獲得內容
        biaoti_str = biaoti[0]

9. 根據字符串索引,獲得子串
    #正向獲得子串
        html = html_str[1:3]
    #逆向獲得子串
        html = html_str[-3,-1]
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章