0.說明
通過瀏覽器跟蹤【有道詞典】和【有道翻譯】網頁查詢過程,製作python簡易字典。
代碼案例在:https://github.com/suchocolate/test/tree/master/spider/simpledictionary
製作過程:
- 踩點查詞
- 踩點翻譯
- 製作程序
1.踩點有道詞典
1.1 先踩點查英文單詞
F12瀏覽器登陸有道詞典網頁,查看實際查英文詞的URL是:http://dict.youdao.com/w/eng/dog/
記錄一下查詢結果的xpath,交給lxml.etree解析:
1.2 再查一下中文詞
發現URL是:http://dict.youdao.com/w/%E7%8B%97/,這個“%E7%8B%97”是URL編碼的中文,可以用urllib.parse裏的quote製作。
2.踩點有道翻譯
有道翻譯的URL是:http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule。
後來發現向這個URL POST數據不會得到結果,真正的URL要把“_o”去掉。
翻譯時,瀏覽器發送的是表單,那麼到時封裝到request的data裏。
有道返回的是json,用json解析:
3.製作程序
# 請求網頁用
from urllib import request, parse
# 製作轉化中文爲URL格式
from urllib.parse import quote
# 分析庫
from lxml import etree
# 用tkinter做圖形化
from tkinter import *
# 解析json數據
import json
# 英文單詞查詢網址
ebase = 'http://dict.youdao.com/w/eng/'
# 中文單詞查詢網址
cbase = 'http://dict.youdao.com/w/'
# 翻譯網址
trans = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
# 查詢時http頭
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0"}
# 翻譯提交的字典
dic = {"doctype": "json"}
# 判斷查詢類型,1是查詞,2是翻譯。
def chaxun():
if v.get() == 1:
chaci()
else:
fanyi()
# 定義查詞函數:
def chaci():
wd = e1.get()
# 如果是中文查詢,轉換中文爲URL編碼格式,中文unicode編碼範圍。
if '\u4e00' <= wd <= '\u9fff':
# 轉中文爲URL編碼
wd = quote(wd)
url = cbase + wd
q = request.Request(url=url, headers=headers)
r = request.urlopen(q, timeout=2)
html = etree.HTML(r.read().decode('utf-8'))
# 查中文時的xpath和英文的xpath不同
result = html.xpath('/html/body/div[1]/div[2]/div[1]/div[2]/div[2]/div[1]/div/ul/p/span/a/text()')
else:
url = ebase + wd
q = request.Request(url=url, headers=headers)
r = request.urlopen(q, timeout=2)
html = etree.HTML(r.read().decode('utf-8'))
# 查英文詞的xpath
result = html.xpath('/html/body/div[1]/div[2]/div[1]/div[2]/div[2]/div[1]/div/ul/li/text()')
# 清理text,重新顯示
text1.delete(1.0, END)
# 如果有結果,顯示結果
if len(result) != 0:
for pt in result:
text1.insert(INSERT, pt + '\n')
else:
# 如果沒有結果,提示沒有結果
text1.insert(INSERT, 'There is no explain.')
# 翻譯
def fanyi():
# 清除文本框中的內容
text1.delete(1.0, END)
# 獲取輸入框的字,複製給變量wd,裝入字典
wd = e1.get()
dic['i'] = wd
data = bytes(parse.urlencode(dic), encoding='utf-8')
# 開始翻譯
q = request.Request(url=trans, data=data, headers=headers, method='POST')
r = request.urlopen(q)
# 得到的結果是json數據,
result = json.loads(r.read().decode('utf-8'))
# 數據處理後放入輸入框
text1.insert(INSERT, result['translateResult'][0][0]['tgt'])
if __name__ == '__main__':
# 主函數,定義一個tk對象
root = Tk()
root.title('簡易有道詞典')
# 定義一個說明標籤
l1 = Label(root, text='請輸入要查詢的內容:')
l1.grid(row=0, column=0)
# 定義一個輸入框
e1 = Entry(root)
e1.grid(row=0, column=1, padx=1, pady=5)
# 定義一個按鈕
bt1 = Button(root, text='查詢', command=chaxun)
bt1.grid(row=0, column=2, padx=5, pady=5)
# 定義一個文本框
text1 = Text(root, width=59, height=10)
text1.grid(row=1, columnspan=5, padx=5, pady=7)
# 定義一個單選變量,初始值1,即默認是查詞
v = IntVar()
v.set(1)
# 定義一個單選框
Radiobutton(root, text="查詞", variable=v, value=1).grid(row=0, column=3)
Radiobutton(root, text="翻譯", variable=v, value=2).grid(row=0, column=4)
# 循環窗體
mainloop()
運行的效果