PaddleHub 介紹
PaddleHub 是基於 PaddlePaddle 開發的預訓練模型管理工具,可以藉助預訓練模型更便捷地開展遷移學習工作,旨在讓 PaddlePaddle 生態下的開發者更便捷體驗到大規模預訓練模型的價值。
PaddleHub 目前的預訓練模型覆蓋了圖像分類、目標檢測、詞法分析、Transformer、情感分析五大類別。未來會持續開放更多類型的深度學習模型,如語言模型、視頻分類、圖像生成等預訓練模型。
PytorchHub V.S PaddleHub
1)支持模型數量
PytorchHub 目前支持18個模型,PaddleHub支持29個,下面來看看分別支持哪些模型:
PytorchHub目前支持18種模型
PaddleHub目前支持29種模型
從圖中可以看到,PaddleHub支持的模型數量有絕對的優勢;而PytorchHub涉及的方向更多,但是每個方向的模型並不多,對CV的支持更多;PaddleHub涉及的方向只有兩個,CV和NLP,但是對NLP的支持尤其多,高達22個,不僅包括目前最潮的BERT,還有百度自己研發的知識增強語義表示模型Ernie,在多箇中文NLP任務中表現超過BERT,除此之外還有對話系統的一系列模型,做智能客服、智能音箱的同學可以使用一下~
2)是否支持命令行運行
目前PytorchHub不支持命令行運行,但PaddleHub支持,命令行運行就是指我們安裝PaddleHub後,可以無需進入python環境,即可快速體驗PaddleHub無需代碼、一鍵預測的命令行功能。需要注意的是,在PaddleHub中,既可以支持命令行使用,即在終端輸入
hub run XXX(模型) --input_text XXX(需要預測的內容)
也可以支持調用api
import paddlehub as hub
hub.finetune_and_eval(
task,
data_reader,
feed_list,
config=None)
實際上,PaddleHub爲Model和Module的管理和使用都提供了命令行工具,但是model和module是有區別的,一個是模型,一個是模塊。
model表示預訓練好的參數和模型,當需要使用Model進行預測時,需要模型配套的代碼,進行模型的加載,數據的預處理等操作後,才能進行預測。我們在使用PaddleHub來調用模型時,可以使用hub download 命令獲取到最新的model再進行實驗。module是model的一個可執行模塊,簡單來說,一個Module可以支持直接命令行預測,也可以配合PaddleHub Finetune API,通過少量代碼實現遷移學習。 需要注意的是,不是所有的Module都支持命令行預測; (例如BERT/ERNIE Transformer類模型,一般需要搭配任務進行finetune) 也不是所有的Module都可用於finetune(例如LAC詞法分析模型,我們不建議用戶用於finetune)
3)是否支持Fine-tune
PyTorchHub 不支持Fine-tune,PaddleHub支持。這一點倒是挺讓人意外的,如果通過hub加載了預訓練模型,但是無法Fine-tune,那有什麼意義呢?僅僅只是爲了試試paper中的效果好不好嗎?本來我還對此頗有懷疑,於是去看了pytorchhub.org官網下的文檔,發現目前pytorchhub確實不支持hub一鍵式fine-tuning,現有模型的finetuning還是基於傳統的腳本式調參。
PaddleHub在Fine-tune這一塊做的很完善,在前一個板塊也給大家詳細舉了示例講解,在PaddleHub的官方gihub中,有非常詳細的Fine-tune教程,大家可以參考:
PaddleHub圖像分類遷移:
https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub圖像分類遷移教程
PaddleHub文本分類遷移:
https://github.com/PaddlePaddle/PaddleHub/wiki/PaddleHub文本分類遷移教程
是否支持用戶自定義上傳模型
PyTorchHub 支持,PaddleHub不支持。我看了pytorchhub.org官網下的文檔,只需要在開源的模型代碼裏增加了一個hubconf.py, 然後在pytorch/hub裏提一個pr,cr後merge到 branch/tag 這個分支就ok了。
方法非常簡單,代碼也不復雜。
torch.hub.load(github, model, force_reload=False, *args, **kwargs)
PaddleHub目前暫時還不支持用戶自己提交新模型,但是據可靠消息表示:預計7月份就會支持這個功能,到時候希望大家能踊躍使用,push自己的新模型~
總結一下四個維度的比較:
總之,從這四個維度上,個人感覺PytorchHub更像一個小工具,幫助大家迅速試用一下開源的新模型,但是真正到實際應用,還是要基於老的一套的fine-tuning,不能直接從hub裏調用fine-tune的api,所以並不實用。對於遷移學習來說,Fine-tune是必不可少的,雖然我們有預訓練的模型,但是新任務的場景和數據都不相同,直接使用預訓練模型其實很難得到很好的效果,所以從工業級實用的角度來說,PaddleHub做的要更成熟一些,等稍後支持了用戶自定義上傳模型後大家可以多體驗體驗。
下面,我們具體來看看PaddleHub如何直接使用命令行,調用一行代碼show出結果& 使用Finetune Api來對模型進行微調,並舉一個實例教大家一步一步實現。
PaddleHub安裝
-
環境依賴
-
Python==2.7 or Python>=3.5
-
PaddlePaddle>=1.4.0
-
-
安裝
pip install paddlehub
命令行快速體驗
安裝好後,不需要進入python環境import就可以直接先體驗hub的便捷,因爲在PaddleHub中hub可以作爲一個獨立的模塊直接運行。PaddleHub目前包含圖像分類、目標檢測、詞法分析、Transformer、情感分析五大類。
一行代碼預測
-
分詞
# 使用百度詞法分析工具LAC進行分詞
$ hub run lac --input_text "今天的你真好看"
[{'tag': ['TIME', 'u', 'r', 'd', 'a'], 'word': ['今天', '的', '你', '真', '好看']}]
-
情感分析
# 使用百度Senta情感分析模型對句子進行預測
$ hub run senta_bilstm --input_text "老鐵666,帶你開黑"
[{'text': '老鐵666,帶你開黑', 'sentiment_key': 'positive', 'sentiment_label': 2, 'positive_probs': 0.7206, 'negative_probs': 0.2794}]
-
目標檢測
#使用SSD檢測模型對圖片進行目標檢測
hub run ssd_mobilenet_v1_pascal --input_path test_img_bird.jpg
檢測結果
-
圖像識別
# 使用resnet-50做圖像識別
hub run resnet_v2_50_imagenet --input_path test_img_bird.jpg
Install Module resnet_v2_50_imagenet
Downloading resnet_v2_50_imagenet
[==================================================] 100.00%
Uncompress /root/.paddlehub/cache/resnet_v2_50_imagenet
[==================================================] 100.00%
Successfully installed resnet_v2_50_imagenet-1.0.0
[[{'brambling': 0.4907981}]]
注:模型未下載時會先下載再預測,也可以先試用hub install model_name 下載好模型再使用hub run預測,也可直接運行hub run。hub一共有十個命令,其他命令可參考PaddleHub命令行工具。
支持29種模型
PaddleHub目前支持29種模型,主要以CV和NLP模型爲主,包括NLP目前最火的BERT和百度自己自己研發開源的Ernie,以及CV中的ssd-mobilenet、resnet-50、resnet-152等。
-
NLP預測
數據通過 —input_text或—input_file導入來實現單次預測和批量預測
# 單文本預測
hub run lac --input_text "今天是個好日子"
# 多文本分析
hub run lac --input_file test.txt
-
CV預測
數據通過—input_path或—input_file導入來實現單次預測和批量預測
# 單張照片預測
hub run ssd_mobilenet_v1_pascal --input_path test.jpg
# 多張照片預測
hub run ssd_mobilenet_v1_pascal --input_file test.txt
支持遷移學習,Fine-tune更Easy
Fine-tune全景圖
PaddleHub+Finetune流程圖
PaddleHub Finetune api
Fine-tune是遷移學習中使用最多的方式之一,通常我們可以在預訓練好的模型上進行微調來實現模型遷移,從而達到模型適應新領域(Domain)數據的目的。上圖是做一個完整的遷移學習需要的步驟,下面舉個實例教大家如何用PaddleHub做圖像分類遷移學習
1.準備工作
安裝paddlepaddle和paddlehub
pip install paddlepaddle( 推薦安裝1.4.0版本以上)
pip install paddlehub
2.選擇模型
此處使用經典的ResNet-50作爲預訓練模型
module_map = {
"resnet50": "resnet_v2_50_imagenet",
"resnet101": "resnet_v2_101_imagenet",
"resnet152": "resnet_v2_152_imagenet",
"mobilenet": "mobilenet_v2_imagenet",
"nasnet": "nasnet_imagenet",
"pnasnet": "pnasnet_imagenet"
}
module_name = module_map["resnet50"]
module = hub.Module(name = module_name)
3.準備數據
# 直接用PaddleHub提供的數據集
dataset = hub.dataset.DogCat()# 生成readerdata_reader = hub.reader.ImageClassificationReader(
image_width=module.get_expected_image_width(),
image_height=module.get_expected_image_height(),
images_mean=module.get_pretrained_images_mean(),
images_std=module.get_pretrained_images_std(),
dataset=dataset)
4.組建Finetune Task
由於貓狗分類是一個二分類的任務,而我們下載的分類module是在ImageNet數據集上訓練的千分類模型,所以我們需要對模型進行簡單的微調,把模型改造爲一個二分類模型:
1. 獲取module的上下文環境,包括輸入和輸出的變量,以及Paddle Program;
2.從輸出變量中找到特徵圖提取層feature_map;
3.在feature_map後面接入一個全連接層,生成Task
input_dict, output_dict, program = module.context(trainable=True)
img = input_dict["image"]
feature_map = output_dict["feature_map"]
task = hub.create_img_cls_task(
feature=feature_map, num_classes=dataset.num_labels)
feed_list = [img.name, task.variable("label").name]# 設置configconfig = hub.RunConfig( use_cuda=False,
num_epoch=1,
checkpoint_dir="cv_finetune_turtorial_demo",
batch_size=32,
log_interval=10,
eval_interval=50,
strategy=hub.finetune.strategy.DefaultFinetuneStrategy())
5.啓動Fine-tune並查看效果
可以選擇finetune_and_eval
接口來進行模型訓練,這個接口在finetune的過程中,會週期性的進行模型效果的評估,以便我們瞭解整個訓練過程的性能變化。
hub.finetune_and_eval(
task, feed_list=feed_list, data_reader=data_reader, config=config)
訓練過程中的性能數據會被記錄到本地,我們可以通過visualdl來可視化這些數據。我們在shell中輸入以下命令來啓動visualdl,其中${HOST_IP}
爲本機IP,需要用戶自行指定
$ visualdl --logdir ./cv_finetune_turtorial_demo/vdllog --host ${HOST_IP} --port 8989
啓動服務後,我們使用瀏覽器訪問${HOST_IP}:8989
,可以看到訓練以及預測的loss曲線和accuracy曲線
最後再按照常規流程對模型進行預測即可。