ELECTRA模型跟BERT的区别

综合分析ELECTRA跟BERT模型的对比

思考:

1.类似GAN模型,但是由于梯度不能从判别模型到生成模型,所以只能综合两者的损失值对生成模型进行损失传递。

2.生成损失  对生成模型进行传导

   生成损失+判别损失 对判别模型进行传导

发布了358 篇原创文章 · 获赞 113 · 访问量 82万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章