ELMO

原創

我想了很多事情

2019-06-23 05:02

最近重溫了下elmo模型，主要有幾點：

1- 相比於word2vec這些多了上下文的理解。

2 - 基本單元是一個兩層的基於字符卷積的網絡.

3 - 內部狀態的組合構成新的詞彙向量表示.

4-elmo採用了雙向bi-lstm模型，利用了語言模型，從elmo公式中我們就可以看出, 向左和向右的LSTM是不同的, 也就是說有兩個 LSTM單元.
是輸入的意思. 輸入的內容是最初始的詞向量. 是輸出內容, 即LSTM在每個位置的 h. h會再用作softmax的輸入, 來進行詞彙選擇權重賦予，最原始的詞向量通過字符卷積而來，而LSTM的每一層都有自己不同的代表的意義, 因此,對於不同的任務, 每層參與表徵的權重也就不同, 因此, 爲了一般化, 該方案設置一個通用詞向量表徵法, 即利用每層狀態的線性組，其中,s就是softmax-normalized weights , 也就是加和爲1的一組權重向量. 這組權重不僅僅代表的是權重, 因爲每層LSTM內部狀態,也就是 h 的分佈是不同的, 這個也可以用作layer normalization.而, 允許具體的task模型去放縮 ELMo 的大小. 這個地方非常重要, 作者在補充中進行了強調, 在沒有這個的情況下, 只採用該模型的最後一層輸出作爲詞向量的時候的效果甚至差於 baseline. 這個重要的原因是, BiLM的內部表徵和具體任務的表徵的分佈是不一樣的.

5-elmo的使用方法：

將該詞向量加到一般的任務的方法是, 先固定一個權重, 構成一個 , 然後聯結和最初始詞向量(也就是通過字符卷積獲得的向量) 爲 [ ], 然後將這個向量輸入到任務的RNN模型中去. 然後在訓練中一同訓練權重因子.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

反模式 DI anti-patterns

反模式 DI anti-patterns反模式DI anti-patterns 一、一、反模式 DI anti-patterns 1. 控制狂 Control freak 在程序設計中，"Control freak"（控制狂）通

2024-05-26 14:24:02

Win10 LTSC 2019 安裝後的一些步驟

僅作爲自己記錄使用。 1.調整Windows恢復分區(Windows RE)大小[可忽略] Win10系統更新(KB5034441)在更新時會報錯 (0x80070643)，與Win10安裝時初始化的Windows恢復分區太小有關，因此建議

2024-05-26 14:20:52

Python 潮流週刊#52：Python 處理 Excel 的資源

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-05-26 14:19:11

我對微服務架構的簡單理解

在寫架構的時候，就要想着，哪些功能是要以後可能要單獨部署的，雖然一開始寫的時候可以寫在一個解決方案裏，但那些請求的dto，和返回的視圖，業務依賴，能隨時獨立出去，完全不需要做任何操作，即使是文件夾複製移動都不需要，就能夠把該功能獨立成一個解

2024-05-26 14:17:01

賽克oj The diameter of a rectangle（笛卡爾樹）

賽氪OJ-專注於算法競賽的在線評測系統 (saikr.com) 這題是hduoj 1506的加強版，區別在於寬度不是固定爲1了，思路差不多，也是使用笛卡爾樹。參考hduoj 1506（笛卡爾樹） - Venux - 博客園 (cnblogs

2024-05-26 14:10:21

hduoj 1506（笛卡爾樹）

Problem - 1506 (hdu.edu.cn) 題意座標軸給定一些矩形，緊密排在一起，每個矩形寬度固定爲1，問形成的圖案中最大可以組成的矩形面積。思路常規思路是可以用單調棧分別找兩邊的合法邊界，這裏使用笛卡爾樹。笛卡爾樹實現了

2024-05-26 14:10:21

C# enum枚舉爲0的時候不需要強制轉換，很容易掉坑

重載的時候優先級很高很容易掉坑裏面了

2024-05-26 14:09:41

Qt支持heic圖片顯示

目錄一、背景二、Heic圖片顯示heif庫安裝圖片顯示三、參考文章原文鏈接：Qt支持heic圖片顯示一、背景小孩子兩歲了，最近在着手給娃做生活照紀念相冊，然後就是某寶上各種聊，瞭解到的相冊種類也是各異，價格更是良莠不齊，小几十到小几百

2024-05-26 14:08:50

Spring的BeanFactoryPostProcessor和BeanPostProcessor區別？

1、BeanFactoryPostProcessor是用於在容器實例化Bean之前對Bean的配置信息進行修改的接口，它允許對BeanFactory進行後處理，比如修改BeanDefinition的屬性值等。 BeanFactoryPo

2024-05-26 14:02:20

WPF一個簡單的屬性編輯控件

代碼： public class PropertiesControl : Grid { [TypeConverter(typeof(LengthConverter))] public d

2024-05-26 14:02:00

外企也半夜發佈上線嗎？

0 別把問題想得太複雜如果有灰度發佈的能力，最好白天發佈；如果沒有灰度發佈，只能在半夜發佈。即使有灰度發佈能力，也不要沾沾自喜，好好反思一下你們的灰度發佈是否真的經得起考驗，還是僅僅是裝裝樣子。回滾方案最好在上級環境中使用生產數

路人111122233

2024-05-26 14:00:39

從零手寫實現 nginx-01-爲什麼不能有 java 版本的 nginx?

前言大家好，我是老馬。很高興遇到你。作爲一個 java 開發者，工作中一直在使用 nginx。卻發現一直停留在使用層面，無法深入理解。有一天我在想，爲什麼不能有一個 java 版本的 nginx 呢？一者是理解 nginx 的設計靈

2024-05-26 13:59:39

Nginx R31 doc-11-Compression and Decompression 壓縮與解壓縮

前言大家好，我是老馬。很高興遇到你。我們爲 java 開發者實現了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何處理的，可以參考我的另一個項目：

2024-05-26 13:59:39

【轉】centos7.9源碼安裝mysql5.7.44

原文：https://blog.csdn.net/SeeYouGoodBye/article/details/135231451 1、環境介紹 centos7.9 mysql5.7.44 boost1.59.0 注意：這裏的編譯版本my

2024-05-26 13:58:49

prompt內容

# 角色你的名字叫小二招聘管家 ## 技能### 技能1: 職位需求分析- 透徹理解企業招聘需求，明確崗位職責、必備技能和資格要求。- 分析企業文化與團隊結構，確保候選人與企業環境的契合度。 ### 技能2: 簡歷篩選與評估- 快速瀏覽並篩

2024-05-26 13:58:19

24小時熱門文章

最新文章

最新評論文章