Python3 實現火車票查詢工具

https://www.shiyanlou.com/courses/623/labs/2072/document

Python 實現火車票查詢工具

一、實驗簡介

當你想查詢一下火車票信息的時候,你還在上 12306 官網嗎?或是打開你手機裏的 APP?

下面讓我們來用 Python 寫一個命令行版的火車票查看器, 只要在命令行敲一行命令就能獲得你想要的火車票信息!如果你剛掌握了 Python 基礎,這將是個不錯的小練習。

1.1 知識點

  • Python 基礎知識的綜合運用
  • docoptrequestscolorama 及 prettytable 庫的使用
  • setuptools 的使用

1.2 效果截圖

此處輸入圖片的描述

二、接口設計

一個應用寫出來最終是要給人使用的,哪怕只是給你自己使用。

所以,首先應該想想你希望怎麼使用它?讓我們先給這個小應用起個名字吧,既然及查詢票務信息,那就叫它 tickets 好了。

我們希望用戶只要輸入出發站,到達站以及日期就讓就能獲得想要的信息,比如要查看10月30號上海-北京的火車餘票, 我們只需輸入:

$ python tickets.py 上海 北京 2016-10-30

注意:上面的日期(包括後面的)是筆者寫文章時確定的日期,當你在做這個項目的時候可能要根據當前時間做適當調整。

轉化爲程序語言就是:

$ python tickets.py from to date

另外,火車有各種類型,高鐵、動車、特快、快速和直達,我們希望可以提供選項只查詢特定的一種或幾種的火車,所以,我們應該有下面這些選項:

  • -g 高鐵
  • -d 動車
  • -t 特快
  • -k 快速
  • -z 直達

這幾個選項應該能被組合使用,所以,最終我們的接口應該是這個樣子的:

$ python tickets.py [-gdtkz] from to date

接口已經確定好了,剩下的就是實現它了。

三、代碼實現

首先安裝一下實驗需要用到的庫:

$ sudo pip3 install requests prettytable docopt colorama
  • requests,使用 Python 訪問 HTTP 資源的必備庫。
  • docopt,Python3 命令行參數解析工具。
  • prettytable, 格式化信息打印工具,能讓你像 MySQL 那樣打印數據。
  • colorama,命令行着色工具

3.1 解析參數

Python有很多寫命令行參數解析工具,如 argparsedocoptclick,這裏我們選用的是 docopt 這個簡單易用的工具。docopt 可以按我們在文檔字符串中定義的格式來解析參數,比如我們在 tickets.py 中寫下下面的內容(實驗樓環境下,通過點擊右下角的鍵盤小圖標可以選擇中文輸入法):

# coding: utf-8

"""命令行火車票查看器

Usage:
    tickets [-gdtkz] <from> <to> <date>

Options:
    -h,--help   顯示幫助菜單
    -g          高鐵
    -d          動車
    -t          特快
    -k          快速
    -z          直達

Example:
    tickets 北京 上海 2016-10-10
    tickets -dg 成都 南京 2016-10-10
"""
from docopt import docopt

def cli():
    """command-line interface"""
    arguments = docopt(__doc__)
    print(arguments)

if __name__ == '__main__':
    cli()

上面的程序中, docopt 會根據我們在 docstring 中的定義的格式自動解析出參數並返回一個字典,也就是 arguments, 我們打印出了這個字典的內容。下面我們運行一下這個程序, 比如查詢一下10月30號從成都到南京的動車和高鐵:

$ python tickets.py -dg 成都 南京 2016-10-10

我們得到下面的參數解析結果:

3.2 獲取數據

參數已經解析好了,下面就是如何獲取數據了,這也是最主要的部分。首先我們用實驗樓環境的Firefox瀏覽打開 12306,進入餘票查詢頁面,按下 F12 打開開發者工具,選中 Network 一欄,在查詢框中隨便查詢一次,我們在調試工具觀察下請求和響應:

注意到上面的請求 URL ,它是由基 URL https://kyfw.12306.cn/otn/lcxxcx/query 加四個參數構成的,這四個參數分別代表,查詢的類型(成人?學生?),日期,出發車站,到達車站:

再來看看響應:

返回的是JSON格式的數據! 我們打開返回的數據看看:

可以看到一列火車的數據用 Python 的語言說就是一個字典。

接下來問題就簡單了,我們只需要利用這個接口, 構建請求URL然後解析返回的JSON數據就可以了。但是我們發現,URL裏面參數 from_station 和 to_station 並不是漢字,而是一個代號,而我們想要輸入的是漢字,我們要如何獲取代號呢?我們打開網頁源碼看看有沒有什麼發現。

果然,這裏有個關於 station 的文件,打開看看:

station_names 是一個很長的字符串, 這裏面貌似是包含了所有車站的中文名,拼音,簡寫和代號等信息。但是這些信息擠在一起,而我們只想要車站的拼音和大寫字母的代號信息,怎麼辦呢? 正則表達式!我們寫個小腳本來匹配提取出想要的信息吧, 在parse_station.py中:

import re
import requests
from pprint import pprint 

url = 'https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.8971'
response = requests.get(url, verify=False)
stations = re.findall(u'([\u4e00-\u9fa5]+)\|([A-Z]+)', response.text)
pprint(dict(stations), indent=4)

我們運行這個腳本,它將以字典的形式返回所有車站和它的大寫字母代號, 我們將結果重定向到 stations.py 中,

$ python3 parse_station.py > stations.py

我們爲這個字典加名字,stations, 最終,stations.py文件是這樣的:

現在,用戶輸入車站的中文名,我們就可以直接從這個字典中獲取它的字母代碼了:

...
from stations import stations

def cli():
    arguments = docopt(__doc__)
    from_station = stations.get(arguments['<from>'])
    to_station = stations.get(arguments['<to>'])
    date = arguments['<date>']
    # 構建URL
    url = 'https://kyfw.12306.cn/otn/lcxxcx/query?purpose_codes=ADULT&queryDate={}&from_station={}&to_station={}'.format(
        date, from_station, to_station
    )

萬事俱備,下面我們來請求這個URL獲取數據吧!這裏我們使用 requests 這個庫, 它提供了非常簡單易用的接口,

...
import requests

def cli():
    ...
    # 添加verify=False參數不驗證證書
    r = requests.get(url, verify=False)
    print(r.json())

從結果中,我們可以觀察到,與車票有關的信息需要進一步提取:

def cli():
    ...
    r = requsets.get(url);
    print(r.json())

我們已經知道該請求返回的是JSON數據, 使用 requests 提供的 r.json() 可以將 JSON 數據轉化爲 Python 字典,上面我們打印了這個字典,運行程序,我們看到:

圖中方框是一個字典,字典中的數據也就是一班列車的信息, 也就是說所有列車的信息都在一個包含多個字典的列表中, 而這個列表又嵌套了2個字典,就是圖中的2個橢圓,所以,我們需要的信息應該這樣來提取:

available_trains = r.json()['data']['datas']

3.3 解析數據

我們封裝一個簡單的類來解析數據:

class TrainsCollection:

    header = '車次 車站 時間 歷時 一等 二等 軟臥 硬臥 硬座 無座'.split()

    def __init__(self, available_trains, options):
        """查詢到的火車班次集合

        :param available_trains: 一個列表, 包含可獲得的火車班次, 每個
                                 火車班次是一個字典
        :param options: 查詢的選項, 如高鐵, 動車, etc...
        """
        self.available_trains = available_trains
        self.options = options

    def _get_duration(self, raw_train):
        duration = raw_train.get('lishi').replace(':', '小時') + '分'
        if duration.startswith('00'):
            return duration[4:]
        if duration.startswith('0'):
            return duration[1:]
        return duration

    @property
    def trains(self):
        for raw_train in self.available_trains:
            train_no = raw_train['station_train_code']
            initial = train_no[0].lower()
            if not self.options or initial in self.options:
                train = [
                    train_no,        
                    '\n'.join([raw_train['from_station_name'],
                              raw_train['to_station_name']]),
                    '\n'.join([raw_train['start_time'],
                               raw_train['arrive_time']]),
                    self._get_duration(raw_train),
                    raw_train['zy_num'],
                    raw_train['ze_num'],
                    raw_train['rw_num'],
                    raw_train['yw_num'],
                    raw_train['yz_num'],
                    raw_train['wz_num'],
                ]
                yield train

    def pretty_print(self):
        pt = PrettyTable()
        pt._set_field_names(self.header)
        for train in self.trains:
            pt.add_row(train)
        print(pt)

3.4 顯示結果

最後,我們將上述過程進行彙總並將結果輸出到屏幕上:

...

class TrainCollection:
    ...
    ...

def cli():
    """Command-line interface"""
    arguments = docopt(__doc__)
    from_station = stations.get(arguments['<from>'])
    to_station = stations.get(arguments['<to>'])
    date = arguments['<date>']
    url = ('https://kyfw.12306.cn/otn/lcxxcx/query?'
           'purpose_codes=ADULT&queryDate={}&'
           'from_station={}&to_station={}').format(
                date, from_station, to_station
           )
    # 獲取參數
    options = ''.join([
        key for key, value in arguments.items() if value is True
    ])
    r = requests.get(url, verify=False)
    available_trains = r.json()['data']['datas']
    TrainsCollection(available_trains, options).pretty_print()

運行下程序看看效果吧:

3.5 着色

至此, 程序的主體已經完成了, 但是上面打印出的結果是全是黑白的,很是乏味, 我們來給它添加點顏色吧! 這裏我們使用 colorama 這個命令行着色工具:

from colorama import init, Fore

init()

修改一下程序,將出發車站與出發時間顯示爲綠色,到達車站與到達時間顯示爲紅色:

...
'\n'.join([Fore.GREEN + raw_train['from_station_name'] + Fore.RESET,
           Fore.RED + raw_train['to_station_name'] + Fore.RESET]),
'\n'.join([Fore.GREEN + raw_train['start_time'] + Fore.RESET,
           Fore.RED + raw_train['arrive_time'] + Fore.RESET]),
...

現在再運行程序就可以像文章開始的效果圖一樣了!

3.6 完整代碼

# coding: utf-8

"""命令行火車票查看器

Usage:
    tickets [-dgktz] <from> <to> <date>

Options:
    -h, --help 查看幫助
    -d         動車
    -g         高鐵
    -k         快速
    -t         特快
    -z         直達

Examples:
    tickets 上海 北京 2016-10-10
    tickets -dg 成都 南京 2016-10-10
"""

import requests
from docopt import docopt
from prettytable import PrettyTable
from colorama import init, Fore

from stations import stations


init()

class TrainsCollection:

    header = '車次 車站 時間 歷時 一等 二等 軟臥 硬臥 硬座 無座'.split()

    def __init__(self, available_trains, options):
        """查詢到的火車班次集合

        :param available_trains: 一個列表, 包含可獲得的火車班次, 每個
                                 火車班次是一個字典
        :param options: 查詢的選項, 如高鐵, 動車, etc...
        """
        self.available_trains = available_trains
        self.options = options

    def _get_duration(self, raw_train):
        duration = raw_train.get('lishi').replace(':', '小時') + '分'
        if duration.startswith('00'):
            return duration[4:]
        if duration.startswith('0'):
            return duration[1:]
        return duration

    @property
    def trains(self):
        for raw_train in self.available_trains:
            train_no = raw_train['station_train_code']
            initial = train_no[0].lower()
            if not self.options or initial in self.options:
                train = [
                    train_no,        
                    '\n'.join([Fore.GREEN + raw_train['from_station_name'] + Fore.RESET,
                               Fore.RED + raw_train['to_station_name'] + Fore.RESET]),
                    '\n'.join([Fore.GREEN + raw_train['start_time'] + Fore.RESET,
                               Fore.RED + raw_train['arrive_time'] + Fore.RESET]),
                    self._get_duration(raw_train),
                    raw_train['zy_num'],
                    raw_train['ze_num'],
                    raw_train['rw_num'],
                    raw_train['yw_num'],
                    raw_train['yz_num'],
                    raw_train['wz_num'],
                ]
                yield train

    def pretty_print(self):
        pt = PrettyTable()
        pt._set_field_names(self.header)
        for train in self.trains:
            pt.add_row(train)
        print(pt)


def cli():
    """Command-line interface"""
    arguments = docopt(__doc__)
    from_station = stations.get(arguments['<from>'])
    to_station = stations.get(arguments['<to>'])
    date = arguments['<date>']
    url = ('https://kyfw.12306.cn/otn/lcxxcx/query?'
           'purpose_codes=ADULT&queryDate={}&'
           'from_station={}&to_station={}').format(
                date, from_station, to_station
           )
    options = ''.join([
        key for key, value in arguments.items() if value is True
    ])
    r = requests.get(url, verify=False)
    available_trains = r.json()['data']['datas']
    TrainsCollection(available_trains, options).pretty_print()


if __name__ == '__main__':
    cli()

四、Setup

上面的程序中我們運行程序的方式是這樣的:

python3 tickets.py from to date

我們當然可以將腳本改成可執行的,然後這樣執行:

./tickets.py from to date

但這也不是理想的方案,因爲我們必須在腳本的目錄下才能運行。我們想要的是在命令行的任何地方都可以這樣運行:

ticktes from to date

這是可以實現的,我們需要藉助 Python 的 SETUP 工具。寫一個簡單的 setup 腳本:

from setuptools import setup

setup(
    name='tickets',
    py_modules=['tickets', 'stations'],
    install_requires=['requests', 'docopt', 'prettytable', 'colorama'],
    entry_points={
        'console_scripts': ['tickets=tickets:cli']
    }
)

在命令行運行一下:

python3 setup.py install

現在我們可以愉快的查詢了:

五、總結

本課程使用 Python3 抓取 12306 網站信息提供一個命令行的火車票查詢工具。通過該項目的實現,可以學習並實踐 Python3 基礎及網絡編程,以及 docopt,requests,prettytable,colorama 等庫的使用。

六、參考資料

本項目詳細代碼可以從下面鏈接獲取:

發佈了46 篇原創文章 · 獲贊 10 · 訪問量 16萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章