1. 設置字符編碼格式
#設定編碼格式
encoding = sys.getfilesystemencoding()
#編碼格式轉換
html_str = html_str.decode('UTF-8').encode(encoding)
2. 查看變量類型
print type(html_str)
3. 類似set的結構
#將變量值作爲dict的key,保證期唯一性;value可以爲空
dict[url] = ' '
4. 讀取文件
#文件讀取流
f = file(path)
#讀取全部內容
while True:
line = f.readline()
#如果內容讀完,退出循環
if len(line) == 0:
break
print line
#關閉文件流
f.close()
5. 寫文件
#文件寫入流
f = file(path, 'w')
#寫入文件內容
f.write('content')
#關閉文件流
f.close()
6. 變量類型轉換
str = str(num)
num = int(str)
7. 保存網頁圖片
#鏈接訪問
urlopen=urllib.URLopener()
fp = urlopen.open(imgUrl)
data = fp.read()
fp.close()
#輸出內容
fout1 = file(fileName+'.jpeg', "wb")
fout1.write(data)
8. 正則表達式
#正則格式,r表示不對字符進行轉義;?表示進行的是非貪婪匹配,即找到匹配的內容即停止
biaoti_reg = r'<h1>(.*?)</h1>'
#匹配字符
biaoti = re.findall(biaoti_reg, html_str)
#獲得內容
biaoti_str = biaoti[0]
9. 根據字符串索引,獲得子串
#正向獲得子串
html = html_str[1:3]
#逆向獲得子串
html = html_str[-3,-1]