python簡易有道詞典

0.說明

通過瀏覽器跟蹤【有道詞典】和【有道翻譯】網頁查詢過程,製作python簡易字典。

代碼案例在:https://github.com/suchocolate/test/tree/master/spider/simpledictionary

製作過程:

  1. 踩點查詞
  2. 踩點翻譯
  3. 製作程序

 

1.踩點有道詞典

1.1 先踩點查英文單詞

F12瀏覽器登陸有道詞典網頁,查看實際查英文詞的URL是:http://dict.youdao.com/w/eng/dog/

記錄一下查詢結果的xpath,交給lxml.etree解析:

 

 1.2 再查一下中文詞

發現URL是:http://dict.youdao.com/w/%E7%8B%97/,這個“%E7%8B%97”是URL編碼的中文,可以用urllib.parse裏的quote製作。

 

2.踩點有道翻譯

有道翻譯的URL是:http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule。

後來發現向這個URL POST數據不會得到結果,真正的URL要把“_o”去掉。

 翻譯時,瀏覽器發送的是表單,那麼到時封裝到request的data裏。

有道返回的是json,用json解析:

 

3.製作程序

# 請求網頁用
from urllib import request, parse
# 製作轉化中文爲URL格式
from urllib.parse import quote
# 分析庫
from lxml import etree
# 用tkinter做圖形化
from tkinter import *
# 解析json數據
import json


# 英文單詞查詢網址
ebase = 'http://dict.youdao.com/w/eng/'
# 中文單詞查詢網址
cbase = 'http://dict.youdao.com/w/'
# 翻譯網址
trans = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
# 查詢時http頭
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0"}
# 翻譯提交的字典
dic = {"doctype": "json"}


# 判斷查詢類型,1是查詞,2是翻譯。
def chaxun():
    if v.get() == 1:
        chaci()
    else:
        fanyi()


# 定義查詞函數:
def chaci():
    wd = e1.get()
    # 如果是中文查詢,轉換中文爲URL編碼格式,中文unicode編碼範圍。
    if '\u4e00' <= wd <= '\u9fff':
        # 轉中文爲URL編碼
        wd = quote(wd)
        url = cbase + wd
        q = request.Request(url=url, headers=headers)
        r = request.urlopen(q, timeout=2)
        html = etree.HTML(r.read().decode('utf-8'))
        # 查中文時的xpath和英文的xpath不同
        result = html.xpath('/html/body/div[1]/div[2]/div[1]/div[2]/div[2]/div[1]/div/ul/p/span/a/text()')
    else:
        url = ebase + wd
        q = request.Request(url=url, headers=headers)
        r = request.urlopen(q, timeout=2)
        html = etree.HTML(r.read().decode('utf-8'))
        # 查英文詞的xpath
        result = html.xpath('/html/body/div[1]/div[2]/div[1]/div[2]/div[2]/div[1]/div/ul/li/text()')
    # 清理text,重新顯示
    text1.delete(1.0, END)
    # 如果有結果,顯示結果
    if len(result) != 0:
        for pt in result:
            text1.insert(INSERT, pt + '\n')
    else:
        # 如果沒有結果,提示沒有結果
        text1.insert(INSERT, 'There is no explain.')


# 翻譯
def fanyi():
    # 清除文本框中的內容
    text1.delete(1.0, END)
    # 獲取輸入框的字,複製給變量wd,裝入字典
    wd = e1.get()
    dic['i'] = wd
    data = bytes(parse.urlencode(dic), encoding='utf-8')
    # 開始翻譯
    q = request.Request(url=trans, data=data, headers=headers, method='POST')
    r = request.urlopen(q)
    # 得到的結果是json數據,
    result = json.loads(r.read().decode('utf-8'))
    # 數據處理後放入輸入框
    text1.insert(INSERT, result['translateResult'][0][0]['tgt'])


if __name__ == '__main__':
    # 主函數,定義一個tk對象
    root = Tk()
    root.title('簡易有道詞典')
    # 定義一個說明標籤
    l1 = Label(root, text='請輸入要查詢的內容:')
    l1.grid(row=0, column=0)
    # 定義一個輸入框
    e1 = Entry(root)
    e1.grid(row=0, column=1, padx=1, pady=5)
    # 定義一個按鈕
    bt1 = Button(root, text='查詢', command=chaxun)
    bt1.grid(row=0, column=2, padx=5, pady=5)
    # 定義一個文本框
    text1 = Text(root, width=59, height=10)
    text1.grid(row=1, columnspan=5, padx=5, pady=7)
    # 定義一個單選變量,初始值1,即默認是查詞
    v = IntVar()
    v.set(1)
    # 定義一個單選框
    Radiobutton(root, text="查詞", variable=v, value=1).grid(row=0, column=3)
    Radiobutton(root, text="翻譯", variable=v, value=2).grid(row=0, column=4)
    # 循環窗體
    mainloop()

運行的效果

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章