Albert學習記錄

原創

2020-10-29 13:28

albert相對BERT而言主要有三個改進方向：

1、對Embedding因式分解

在BERT中，詞向量維度E和隱層維度H是相等的。而詞嵌入學習的是單詞與上下文無關的表示，而隱層則是學習與上下文相關的表示。顯然後者更加複雜，需要更多的參數，也就是說模型應當增大隱層大小 $H$ ，或者說滿足 $H \gg E$ 。在實際中，詞表V通常非常大，如果E=V，隨着BERT模型的增大，E也會隨着H不斷增加，導致embedding matrix的維度 $V \times E$ 非常巨大。

在Albert中，想要打破 $E$ 與 $H$ 之間的綁定關係，從而減小模型的參數量，同時提升模型表現。詞表V到隱層H的中間，使用一個小維度做一次尺度變換：先將單詞投影到一個低維的embedding空間 $E$ ，再將其投影到高維的隱藏空間 $H$ 。這使得embedding matrix的維度從 $O(V \times H)$ 減小到 $O(V \times E + E \times H)$ 。當 $H \gg E$ 時，參數量減少非常明顯。

2、參數共享

通過層與層之間的參數共享也是albert減少參數量的一個方法。

bert的每一層參數獨立，當層數增加時，參數量也會明顯上升，albert將所有層的參數進行共享，即只學習一層的參數量，極大地減小模型的參數量，提升訓練速度。

3、SOP任務

Albert對BERT的預訓練任務Next-sentence prediction (NSP)進行了改進。

下一句預測（Next-sentence prediction，NSP）：正樣本爲文章中上下相鄰的兩個句子，負樣本爲從兩篇文檔中各自選取一個句子。

句子順序預測（Sentence-order prediction，SOP）：正樣本爲文章中上下相鄰的兩個句子，負樣本爲一篇文檔中的兩個連續的句子，並將它們的順序交換

NSP任務相對簡單：模型在判斷兩個句子的關係時不僅考慮了兩個句子之間的連貫性（coherence），還會考慮到兩個句子的話題（topic）。而兩篇文檔的話題通常不同，模型會更多的通過話題去分析兩個句子的關係，而不是句子間的連貫性，這使得NSP任務變成了一個相對簡單的任務。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

智能決策新時代：可視化大屏是否能夠超越傳統白板？

前言 2015年，國務院提出了中國製造2025製造強國“三步走”規劃，旨在推動中國製造業成爲全球製造強國：第一個十年規劃，2015-2025：中國製造業邁入製造強國行列，實現技術創新和產業升級。第二個十年規劃，2025-2035：中國

葡萄城技術團隊

2024-05-06 14:32:40

如何基於surging跨網關跨語言進行緩存降級

概述 surging是一款開源的微服務引擎，包含了rpc服務治理，中間件，以及多種外部協議來解決各個行業的業務問題，在日益發展的今天，業務的需求也更加複雜，單一語言也未必能抗下所有，所以在多語言行業解決方案優勢情況下，那麼就需

2024-05-06 14:31:10

py ftp

from ftplib import FTP # 連接到FTP服務器 ftp = FTP('10.129.250.27') ftp.login(user='用戶名', passwd='密碼') # 列出FTP服務器上的文件和目錄 ft

2024-05-06 14:27:09

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

本章介紹金融領域大模型智能體，並梳理金融LLM的相關資源。金融領域的大模型智能體當前集中在個股交易決策這個相對簡單的場景，不需要考慮多資產組合的複雜場景。交易決策被簡化成市場上各個信息，包括技術面，消息面，基本面等等在不同市場情況下，對資產

風雨中的小七

2024-05-06 14:24:09

分享幾個.NET開源的AI和LLM相關項目框架

前言現如今人工智能（AI）技術的發展可謂是如火如荼，它們在各個領域都展現出了巨大的潛力和影響力。今天大姚給大家分享4個.NET開源的AI和LLM相關的項目框架，希望能爲大家提供一些參考。如果你有更好的推薦，歡迎RP投稿或文末留言。 ht

2024-05-06 14:23:58

Spring Boot + 事務鉤子函數，打造高效支付系統！

作者：avengerEug 鏈接：https://juejin.cn/post/6984574787511123999 前言經過前面對Spring AOP、事務的總結，我們已經對它們有了一個比較感性的認知了。今天，我繼續安利一個獨門絕

2024-05-06 14:23:28

開源電子郵件營銷平臺 listmonk 使用教程

做產品肯定要做電子郵件營銷，特別是面向海外的產品，電子郵件營銷已成爲企業與客戶溝通、建立品牌忠誠度和推動銷售的重要工具，可以直接接觸到目標受衆，提供個性化內容，並以相對較低的成本獲得可觀的投資回報。你看，MEAP 又來提醒我買電子書了！

米開朗基楊

2024-05-06 14:23:28

vue3早已具備拋棄虛擬DOM的能力了

前言 jquery時代更新視圖是直接對DOM進行操作，缺點是頻繁操作真實 DOM，性能差。react和vue時代引入了虛擬DOM，更新視圖是對新舊虛擬DOM樹進行一層層的遍歷比較，然後找出需要更新的DOM節點進行更新。這樣做的缺點就是如果D

你假裝沒察覺

2024-05-06 14:23:16

PHP使用yield 讀取超大型目錄的方法

之前碰到一個問題，需要處理一個超大型目錄，目錄有多大呢，有200G大小，大部分人的思路如下，用日常的遞歸，基本上讀取到的路徑數組非常大，會導致超出內存，特此研究了一番：一般常見的方法如下： function recursiveScan(

2024-05-06 14:21:36

高效率使用windows

一、基礎不依賴第三方軟件，對系統合理的設置來提高效率休眠注意不是睡眠，休眠後電源是斷開的,多用休眠方式去關機，這樣開機後還能保持所有的會話狀態，不用再去重新打開軟件默認關機按鈕裏是沒有休眠選項的，需要到控制面板-電源裏去開啓

滿天都是小xx

2024-05-06 14:15:05

如何用費曼技巧快速學習任何東西

如何用費曼技巧快速學習任何東西爲什麼教學是理解的關鍵理查德·費曼是一位諾貝爾物理學獎得主,在量子力學、粒子物理等領域做出了重大貢獻。他還開創了量子計算,引入了納米技術的概念。他是康奈爾大學和加州理工學院的著名講師。儘管取得了這些成就,

2024-05-06 14:15:05

9大關於生產力的錯誤認知

9大關於生產力的錯誤認知以及你應該做的9個有用的替代方法生產力大量文章不斷提供新的方法來提高生產力,或者以新的方式重新包裝相同的建議。然而,無論我們讀了多少文章,我們大多數人仍然對自己的壞習慣感到無助。部分挑戰在於,養成提高生產力的習

2024-05-06 14:15:05

如何高效使用 Todoist — 完整指南

如何高效使用 Todoist — 完整指南無論你是在完成一個大型的團隊項目、策劃一個比預期工作量更大的活動,還是跟蹤你的賬單到期時間,你都有目標要實現。但問題是,僅有目標還不夠。你需要一個系統來真正完成任務。這就是 Todoist 的

2024-05-06 14:15:05

springboot~CompletableFuture並行計算

在Spring中，CompletableFuture通常用於異步編程，可以方便地處理異步任務的執行和結果處理，CompletableFuture 是 Java 8 引入的一個類，用於支持異步編程和併發操作。它基於 Future 和 Comp

2024-05-06 14:14:35

WEB安全~X-Frame-Options

X-Frame-Options 是一個HTTP響應頭，用於控制網頁是否可以嵌套在 <frame>, <iframe>, <embed> 或者 <applet> 中。通過設置 X-Frame-Options 頭部，網站管理員可以防止網頁被嵌套

2024-05-06 14:14:35

24小時熱門文章

最新文章

最新評論文章