0. 前置基礎

word can have multiple sense.
e.g. bank is word type, can be multiple word tokens
contextalized embedding: 同一個word type，在不同的上下文中，有不同的word embedding

1. ELMO

embedding from Language Model 語言模型
RNN-based language models(trained from lots of sentences)
e.g.對於某個句子，如何計算某個token的embedding？
A:將bi-RNN的某個token的前後兩個hidden states,拼接起來作爲當前token的embedding
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-N5lOkV8M-1583759173930)(./DL_picture/bert1.png)]

2. BERT

bi-directional encoder representation for transformer
bert = encoder of transformer
備註:訓練bert是不需要label的;半監督的==其實還是有label的; learned from a large amount of text without annotaion
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Q1GsRRD2-1583759173938)(./DL_picture/bert2.png)]
如何訓練bert呢？
2.1 方法: masked LM
predicting the masked word ; linear multi-class classifier
線性分類器預測被masked的詞彙,該masked token輸出是一個embedding ==> 分類問題
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-1dGnRb7X-1583759173943)(./DL_picture/bert3.png)]
2.2 方法: nexted sentence prediction
CLS: the position that outputs classification results
SEP: the boundary of two sentences
預測兩個句子是否是相連的; CLS是句子的首端,其輸出的embedding再過一個線性分類器,判斷是否相連
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-XhcORqU0-1583759173948)(./DL_picture/bert4.png)]
有哪些應用場景呢？
2.1 情感分析,文檔分類
CLS單詞作爲輸出,再過linear classifier
2.2 Slot filling
2.3 自然語言推理
premise,hypothesis。類似應用場景2.1
2.4 問答場景
**各種場景,那些layer更有效？"
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-zGfpqNSu-1583759173950)(./DL_picture/bert5.png)]

3. ERNIE

enhanced representation through knowledge integration
爲了中文所設計的模型
訓練ernie時,採用"masked prase"; 訓練bert時,採用"masked character"

4. GPT

generative pre-training; 生成式預訓練模型
GPT = transformer decoder; 給一個單詞輸入,可以不斷去生成一篇文章 😃
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-9KVE6XIz-1583759173955)(./DL_picture/bert6.png)]
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-rKxOPkBU-1583759173960)(./DL_picture/bert7.png)]

• Unified Language Model Pre-training for Natural Language Understanding and Generation
• https://arxiv.org/abs/1905.03197
• BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model
• https://arxiv.org/abs/1902.04094
• Insertion Transformer: Flexible Sequence Generation via Insertion Operations
• https://arxiv.org/abs/1902.03249
• Insertion-based Decoding with automatically Inferred Generation Order
• https://arxiv.org/abs/1902.01370

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

bert筆記

0. 前置基礎

1. ELMO

2. BERT

3. ERNIE

4. GPT

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

CS231n-課程作業總結

推薦系統實踐-閱讀筆記4

optimizer個人總結

FM初步理解&代碼實現

Bert-paper reading

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結