2022年8月的10篇論文推薦

很久沒有推薦論文了,但是在推薦新論文之前,首先推薦一個新聞:

谷歌分享了公司內部如何使用代碼生成案例,3%的新代碼是由語言模型(Language Model)、DeepSpeed (DeepSpeed)編寫的,通過語言模型生成代碼的智能建議,建議接受率約爲25%,減少了6%的編碼迭代時間,平均每個接受的建議爲21個字符:

https://ai.googleblog.com/2022/07/ml-enhanced-code-completion-improves.html

這纔是AI在真實世界的應用,並且正在向着更好的方向前進,而不是像某些人成天吹噓的替代這個、替代那個。

我們回到正題,本次推薦的10篇論文包括:強化學習(RL)、縮放定律、信息檢索、語言模型等。

1、Beyond neural scaling laws: beating power law scaling via data pruning

Ben Sorscher, Robert Geirhos, Shashank Shekhar, Surya Ganguli, Ari S. Morcos.

https://arxiv.org/abs/2206.14486

縮放定律是現代神經網絡中普遍存在的經驗現象,其中誤差被認爲是訓練集大小、模型大小或兩者的冪次。有一些人認爲他是正確的,並且設計了一個專注於擴大規模的研究方向。但還有大部分人認爲,一定有辦法在不超大規模的模型和數據的情況下建立更好的模型。這篇論文探討了一種能夠提高神經網絡性能,“戰勝”縮放定律的數據剪枝技術。

在這項工作的背景下,剪枝是指從訓練數據集中刪除訓練數據樣本而不是修剪神經網絡的權重。提出的方法背後的理論很簡單:可以在“易於學習”到“難以學習”的訓練數據集中對樣本進行排名。一個典型的數據集將包含太多易於學習的樣本——也就是說,更少的樣本就足以在這些樣本上達到良好的性能——而來自難以學習的樣本又太少——這意味着需要更多的樣本來適當地訓練模型。

解決這個問題的一種方法是擴大整個訓練數據集的規模,因爲給定足夠大的規模——假設數據分佈是均勻的——最終你會得到足夠多的“難以學習”的樣本。但這是非常浪費的。如果我們可以使用先驗來確定一個包含易於學習和難以學習樣本的更好平衡的訓練數據集,結果會怎麼樣呢?這就是這篇論文所研究的問題。

這個問題可以形式化爲試圖找到一個修剪度量分配給每個訓練樣本,然後根據該度量排序並修剪訓練數據集到所需的大小。他們在這篇論文中提出了一個新的衡量標準,可以與現有的需要標記數據的工作相媲美。

這篇論文中最有趣的貢獻是他們關於無標籤數據修剪的部分。他們對預訓練的ImageNet模型的嵌入進行k-means聚類,並將每個樣本的“硬度”定義爲其到最近的質心的距離:容易學習的原型樣本將最接近質心,而難以學習的樣本將遠離它們簇的質心。結果表明,大約20%的ImageNet訓練樣本可以在不犧牲性能的情況下進行修剪。

這篇論文的結果並不令人瞠目,但它背後的關鍵思想有可能在其他任務中有用,如圖像分割、語言建模或任何其他多模態數據集管理。

2、Denoised MDPs: Learning World Models Better Than the World Itself

Tongzhou Wang, Simon S. Du, Antonio Torralba, Phillip Isola, Amy Zhang, Yuandong Tian.

https://arxiv.org/abs/2206.15477

許多機器學習技術的核心是從噪聲中識別相關和有用的信號(或模式)的能力。

在強化學習的背景下,這項工作通過識別agent可控的和與獎勵相關的信息,形式化了“好的信息與不相關的信息”的問題,如下圖所示。

基於這一思想,作者提出了去噪MDPs(馬爾科夫決策過程),這是一種學習狀態表示的因數分解的方法,該方法利用信息論原理分離了狀態的可控和獎勵。它的要點是,狀態的不同因素應該最大或最小地預測其他因素,這取決於它們的關係,基於以上的理論作者爲代理優化設置一個變分目標。

其結果是一個世界模型,該模型明確地建模了哪些信息應該被丟棄爲噪聲,以及哪些信息應該用於爲代理的決策建模。作者證明了這種方法在DeepMind套件中是如何提高性能的,並且他們定性地展示了去噪MDP表示是如何工作的,通過訓練一個解碼器重構輸入,可以理解狀態的信號表示學習捕捉什麼。

完整文章:

https://avoid.overfit.cn/post/b04efbf62c86430ca388888496cdd88b

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章