你是否遇到過數據集中有多個文本特性的情況?例如,根據消息的上下文正確地對消息進行分類,即理解前面的消息。比如說我們有下面的數據集,需要對其進行分類。
當只考慮message時,你可以看到它的情緒是積極的,因爲“incredible”這個詞。但是當考慮到背景時,我們可以看到它時消極的
所以對於上下文來說,我們需要知道更多的信息,例如:
- 是否值得將上下文作爲一個單獨的特徵來考慮?
- 將兩個文本特徵集中在一起是否會提高模型的性能?
- 是否應該引入上下文和信息的權衡?如果是,合適的權重比例是多少?
本文有一個簡單的實現,就是:將兩個文本字段連接起來。與僅使用最新消息相比,它能給模型帶來改進——但是我們應該深入研究兩個文本的權重比例。所以可以創建一個神經網絡,它有兩種模式,每個模式上的密集層大小可調?這樣,我們就能自動找到合適的權重!
這裏我們介紹的TwoModalBERT支持在nn中查找兩個文本模式的適當權重比例!讓我們看看裏面的神經網絡是如何構建的。
TwoModalBERT體系結構
下面可以看到TwoModalBERT是如何構造的以及類參數
首先,在最後一個BERT層之上添加一個線性層。我們還是沿用BERT的配置,將其應用在CLS令牌之上。由於CLS令牌聚合了整個序列表示,它經常用於分類任務中。爲了更好地理解,讓我們看看相關的三行代碼。
https://avoid.overfit.cn/post/30361ae7cee64dc993d8b08f5298b873