原创 Transformers 加速的一些常用技巧

Transformers 是一個強大的架構,但模型因其採用的自注意力機制,雖然能夠有效地處理序列數據並捕獲長距離依賴關係,但同時也容易導致在訓練過程中出現OOM(Out of Memory,內存不足)或者達到GPU的運行時限制。 主要是因爲

原创 You Only Cache Once:YOCO 基於Decoder-Decoder 的一個新的大語言模型架構

這是微軟再5月剛剛發佈的一篇論文提出了一種解碼器-解碼器架構YOCO,因爲只緩存一次KV對,所以可以大量的節省內存。 以前的模型都是通過緩存先前計算的鍵/值向量,可以在當前生成步驟中重用它們。鍵值(KV)緩存避免了對每個詞元再次編碼的過程,

原创 圖機器學習入門:基本概念介紹

圖機器學習(Graph Machine Learning,簡稱Graph ML)是機器學習的一個分支,專注於利用圖形結構的數據。在圖形結構中,數據以圖的形式表示,其中的節點(或頂點)表示實體,邊(或鏈接)表示實體之間的關係。 本篇文章將從基

原创 使用PyTorch實現L1, L2和Elastic Net正則化

在機器學習中,L1正則化、L2正則化和Elastic Net正則化是用來避免過擬合的技術,它們通過在損失函數中添加一個懲罰項來實現。   https://avoid.overfit.cn/post/c99ec105e41c4a71a0a1

原创 論文推薦:用多詞元預測法提高模型效率與速度

這是4月發表的論文《Better & Faster Large Language Models via Multi-token Prediction》,作者們提出了一種創新的多詞元預測方法,該方法在提高大型語言模型(LLMs)的樣本效率和推

原创 號稱能打敗MLP的KAN到底行不行?數學核心原理全面解析

前幾天火爆的Kolmogorov-Arnold Networks是具有開創性,目前整個人工智能社區都只關注一件事LLM。我們很少看到有挑戰人工智能基本原理的論文了,但這篇論文給了我們新的方向。 mlp或多層感知位於AI架構的最底部,幾乎是每

原创 循環編碼:時間序列中週期性特徵的一種常用編碼方式

在深度學習或神經網絡中,"循環編碼"(Cyclical Encoding)是一種編碼技術,其特點是能夠捕捉輸入或特徵中的週期性或循環模式。這種編碼方法常用於處理具有周期性行爲的任務,比如時間序列預測或理解展示週期性特徵的序列。 循環編碼的

原创 LSTM時間序列預測中的一個常見錯誤以及如何修正

當使用LSTM進行時間序列預測時,人們容易陷入一個常見的陷阱。爲了解釋這個問題,我們需要先回顧一下回歸器和預測器是如何工作的。預測算法是這樣處理時間序列的: 一個迴歸問題是這樣的: 因爲LSTM是一個迴歸量,我們需要把時間序列轉換成一個

原创 LLM2Vec介紹和將Llama 3轉換爲嵌入模型代碼示例

嵌入模型是大型語言模型檢索增強生成(RAG)的關鍵組成部分。它們對知識庫和用戶編寫的查詢進行編碼。 使用與LLM相同領域的訓練或微調的嵌入模型可以顯著改進RAG系統。然而,尋找或訓練這樣的嵌入模型往往是一項困難的任務,因爲領域內的數據通常是

原创 BiTCN:基於卷積網絡的多元時間序列預測

在時間序列預測領域中,模型的體系結構通常依賴於多層感知器(MLP)或Transformer體系結構。 基於mlp的模型,如N-HiTS, TiDE和TSMixer,可以在保持快速訓練的同時獲得非常好的預測性能。基於Transformer的模

原创 整合文本和知識圖譜嵌入提升RAG的性能

我們以前的文章中介紹過將知識圖譜與RAG結合的示例,在本篇文章中我們將文本和知識圖譜結合,來提升我們RAG的性能 https://avoid.overfit.cn/post/5782ca7c4695427b8c0299ad0887c564

原创 Gradformer: 通過圖結構歸納偏差提升自注意力機制的圖Transformer

這是4月剛剛發佈在arxiv上的論文,介紹了一種名爲“Gradformer”的新型圖Transformer,它在自注意力機制中引入了指數衰減掩碼。以下是主要創新點: 指數衰減掩碼: Gradformer在其自注意力模塊中集成了衰減掩碼。該

原创 貝葉斯推理導論:如何在‘任何試驗之前絕對一無所知’的情況下計算概率

從左至右依次爲托馬斯·貝葉斯、皮埃爾-西蒙·拉普拉斯和哈羅德·傑弗里斯——逆概率(即現在所說的客觀貝葉斯分析)發展中的關鍵人物。[24]   https://avoid.overfit.cn/post/8c7a66d96347413db8

原创 10個使用NumPy就可以進行的圖像處理步驟

圖像處理是一種數學計算。數字圖像由稱爲像素的彩色小點組成。每個像素由紅、綠、藍(RGB)三個獨立的顏色組成。每個像素中的主色由每個RGB分量的數值決定。 本文將介紹10個使用使用NumPy就可以進行的圖像處理步驟,雖然有更強大的圖像處理庫,

原创 如何準確的估計llm推理和微調的內存消耗

Command-R+, Mixtral-8x22b和Llama 3 70b都在最近的幾周內發佈了,這些模型是巨大的。它們都有超過700億個參數: Command-R+: 104B參數 Mixtral-8x22b:具有141B參數的混合專家(