mmdetection源碼筆記（四）：訓練模型之train_detector()的解讀

引言

之前在寫mmdetection源碼的解讀過程時，覺得train_detector()這部分很重要，對於理解整個的訓練過程應該時起着非常大的理解作用。
然後最近研究工作一直在看和修改mmdetection的其他模塊的代碼這一塊。感覺train_detector()這塊內容其實也不是特別重要來着，可能就是一個加強理解的過程。這次還是花了點時間，大致的看了一下，順便加上自己的一些理解，解釋了一下整個過程，如果有錯的話，希望各路大佬指出，互相學習哈。

train_detector()

下面的代碼出現在tools/train.py中，也是main函數的結尾，也就是說，我們訓練的時候，到這就是真正的開始訓練了。

 train_detector(
        model,
        datasets,
        cfg,
        distributed=distributed,
        validate=args.validate,
        logger=logger)

那到底怎麼訓練的呢？
下面代碼是train_detector()函數的定義，在mmdet/api/train.py文件中

def train_detector(model,
                   dataset,
                   cfg,
                   distributed=False,
                   validate=False,
                   logger=None):
    if logger is None:
        logger = get_root_logger(cfg.log_level)
    # start training
    if distributed:
        _dist_train(model, dataset, cfg, validate=validate)
    else:
        _non_dist_train(model, dataset, cfg, validate=validate)

上面的開始訓練過程分分佈式訓練和非分佈式訓練兩種方法，我們只說分佈式訓練，同樣下面代碼是_dist_train()的定義，也在mmdet/api/train.py中

def _dist_train(model, dataset, cfg, validate=False):
    # prepare data loaders
    dataset = dataset if isinstance(dataset, (list, tuple)) else [dataset]
    data_loaders = [
        build_dataloader(
            ds, cfg.data.imgs_per_gpu, cfg.data.workers_per_gpu, dist=True)
        for ds in dataset
    ]
    # put model on gpus
    model = MMDistributedDataParallel(model.cuda())

    # build runner 用來爲pytorch訓練用的類，該類在mmcv/mmcv/runner/runner.py中
    optimizer = build_optimizer(model, cfg.optimizer)
    # Optimizer 是用來更新和計算影響模型訓練和模型輸出的網絡參數，使其逼近或達到最優值，從而最小化(或最大化)損失函數E(x)
    # 這種算法使用各參數的梯度值來最小化或最大化損失函數E(x)。最常用的一階優化算法是梯度下降。
    runner = Runner(model, batch_processor, optimizer, cfg.work_dir,
                    cfg.log_level)

    # fp16 setting   用來提速的
    fp16_cfg = cfg.get('fp16', None)
    if fp16_cfg is not None:
        optimizer_config = Fp16OptimizerHook(**cfg.optimizer_config,
                                             **fp16_cfg)
    else:
        optimizer_config = DistOptimizerHook(**cfg.optimizer_config)

    # register hooks hooks 用來查看中間變量的
    # hook的作用是，當反傳時，除了完成原有的反傳，額外多完成一些任務。你可以定義一箇中間變量的hook，將它的grad值打印出來，當然你也可以定義一個全局列表，將每次的grad值添加到裏面去。
    # 下面的hooks也是一樣的，具體pytorch中hooks的作用，可以參考下方鏈接
    runner.register_training_hooks(cfg.lr_config, optimizer_config,
                                   cfg.checkpoint_config, cfg.log_config)
    runner.register_hook(DistSamplerSeedHook())
    # register eval hooks
    if validate:
        val_dataset_cfg = cfg.data.val
        eval_cfg = cfg.get('evaluation', {})
        if isinstance(model.module, RPN):
            # TODO: implement recall hooks for other datasets
            runner.register_hook(
                CocoDistEvalRecallHook(val_dataset_cfg, **eval_cfg))
        else:
            dataset_type = DATASETS.get(val_dataset_cfg.type)
            if issubclass(dataset_type, datasets.CocoDataset):
                runner.register_hook(
                    CocoDistEvalmAPHook(val_dataset_cfg, **eval_cfg))
            else:
                runner.register_hook(
                    DistEvalmAPHook(val_dataset_cfg, **eval_cfg))

    if cfg.resume_from: # 從resume_from(checkpoint)重新開始訓練？？ 
    # （resume_from的作用我猜的，可以自己細看這部分的代碼）
        runner.resume(cfg.resume_from)
    elif cfg.load_from: # 加載 checkpoint，繼續訓練
        runner.load_checkpoint(cfg.load_from)
    runner.run(data_loaders, cfg.workflow, cfg.total_epochs) # 開始訓練

pytorch筆記：pytorch中的鉤子（Hook）有何作用？

上面代碼，還出現了一個類runner，這個類的作用呢，就是用來更好的訓練pytorch模型的。
簡單的說，就是用runner這個類來操控安排訓練過程中的各個環節。 這個操控包括，要在module中獲取中間變量啊，或者加載和保存檢查點，或者啓動訓練、啓動測試、或者初始化權重，本身這個函數是不能改變這個網絡模型的各個部分的，也就是說，我們要真正修改backbone、或者FPN啊，或者分類迴歸的具體實現，跟這個類無關。
也就是說，你只要把你定義好的網絡模型結構，加載好的數據集，你要的優化器等，扔給runner，他就會來幫你跑模型。
runner這個類定義在mmcv/mmcv/runner/runner.py中，裏面好多方法，想要了解的可以自己慢慢去看。

所以train_detection()這一部分的作用，其實就是幫我們把之前設計好的網絡結構，數據集等，扔給runner，然後就行了，具體怎麼跑呢，不需要太轉牛角尖，畢竟太黑盒了。

如果以上理解有誤，請指出，互相學習哈！

mmdetection源碼筆記（四）：訓練模型之train_detector()的解讀

引言

train_detector()

關於遊戲付費的一點想法

我通過CKA和CKS啦！

C++筆記：虛函數實現原理

C++筆記：關鍵字作用

C++筆記：new 和 malloc的區別

ImportError ：cannot import name xxxxxx 的三種類型的解決方法

解決teamviewer檢測到超時限制的問題：修改mac地址或自動更換ID方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結