原创 整合LlamaIndex與LangChain構建高級的查詢處理系統

構建大型語言模型應用程序可能會頗具挑戰,尤其是當我們在不同的框架(如Langchain和LlamaIndex)之間進行選擇時。LlamaIndex在智能搜索和數據檢索方面的性能令人矚目,而LangChain則作爲一個更加通用的應用程序框架,

原创 深入解析xLSTM:LSTM架構的演進及PyTorch代碼實現詳解

xLSTM的新聞大家可能前幾天都已經看過了,原作者提出更強的xLSTM,可以將LSTM擴展到數十億參數規模,我們今天就來將其與原始的lstm進行一個詳細的對比,然後再使用Pytorch實現一個簡單的xLSTM。 xLSTM xLSTM 是對

原创 DeepSparse: 通過剪枝和稀疏預訓練,在不損失精度的情況下減少70%的模型大小,提升三倍速度

這篇論文提出了一種高稀疏性基礎大型語言模型(LLMs)的新方法,通過有效的預訓練和部署,實現了模型在保持高準確度的同時,顯著提升了處理速度。 https://avoid.overfit.cn/post/06961c02a12b48a6a3

原创 擴散模型的多元化應用:藥物發現、文本生成、時間序列預測等

AlphaFold3 是 DeepMind 開發的一款蛋白質結構預測軟件,它在AlphaFold2的基礎上進行了改進。其中最主要的一個改進就是引入了擴散模型,這使得擴散模型不僅僅可以應用於文生圖,其實擴散模型早已經在各個領域中都又所發展,今

原创 圖神經網絡入門示例:使用PyTorch Geometric 進行節點分類

基於圖的神經網絡是強大的模型,可以學習網絡中的複雜模式。在本文中,我們將介紹如何爲同構圖數據構造PyTorch Data對象,然後訓練不同類型的神經網絡來預測節點所屬的類。這種類型的預測問題通常被稱爲節點分類。 我們將使用來自Benede

原创 ATFNet:長時間序列預測的自適應時頻集成網絡

ATFNet是一個深度學習模型,它結合了時間域和頻域模塊來捕獲時間序列數據中的依賴關係。引入了一種新的加權機制來調整週期性的權重,增強了離散傅立葉變換,幷包括一個複雜關係識別的注意力機制,在長期時間序列預測中優於當前方法(每個模型都這麼說)

原创 時間序列預測:探索性數據分析和特徵工程的實用指南

時間序列分析是數據科學和機器學習領域最廣泛的主題之一:無論是預測金融事件、能源消耗、產品銷售還是股票市場趨勢,這一領域一直是企業非常感興趣的領域。 隨着機器學習模型的不斷進步,使除了傳統的統計預測方法(如迴歸模型、ARIMA模型、指數平滑)

原创 Transformers 加速的一些常用技巧

Transformers 是一個強大的架構,但模型因其採用的自注意力機制,雖然能夠有效地處理序列數據並捕獲長距離依賴關係,但同時也容易導致在訓練過程中出現OOM(Out of Memory,內存不足)或者達到GPU的運行時限制。 主要是因爲

原创 You Only Cache Once:YOCO 基於Decoder-Decoder 的一個新的大語言模型架構

這是微軟再5月剛剛發佈的一篇論文提出了一種解碼器-解碼器架構YOCO,因爲只緩存一次KV對,所以可以大量的節省內存。 以前的模型都是通過緩存先前計算的鍵/值向量,可以在當前生成步驟中重用它們。鍵值(KV)緩存避免了對每個詞元再次編碼的過程,

原创 圖機器學習入門:基本概念介紹

圖機器學習(Graph Machine Learning,簡稱Graph ML)是機器學習的一個分支,專注於利用圖形結構的數據。在圖形結構中,數據以圖的形式表示,其中的節點(或頂點)表示實體,邊(或鏈接)表示實體之間的關係。 本篇文章將從基

原创 使用PyTorch實現L1, L2和Elastic Net正則化

在機器學習中,L1正則化、L2正則化和Elastic Net正則化是用來避免過擬合的技術,它們通過在損失函數中添加一個懲罰項來實現。   https://avoid.overfit.cn/post/c99ec105e41c4a71a0a1

原创 論文推薦:用多詞元預測法提高模型效率與速度

這是4月發表的論文《Better & Faster Large Language Models via Multi-token Prediction》,作者們提出了一種創新的多詞元預測方法,該方法在提高大型語言模型(LLMs)的樣本效率和推

原创 號稱能打敗MLP的KAN到底行不行?數學核心原理全面解析

前幾天火爆的Kolmogorov-Arnold Networks是具有開創性,目前整個人工智能社區都只關注一件事LLM。我們很少看到有挑戰人工智能基本原理的論文了,但這篇論文給了我們新的方向。 mlp或多層感知位於AI架構的最底部,幾乎是每

原创 循環編碼:時間序列中週期性特徵的一種常用編碼方式

在深度學習或神經網絡中,"循環編碼"(Cyclical Encoding)是一種編碼技術,其特點是能夠捕捉輸入或特徵中的週期性或循環模式。這種編碼方法常用於處理具有周期性行爲的任務,比如時間序列預測或理解展示週期性特徵的序列。 循環編碼的

原创 LSTM時間序列預測中的一個常見錯誤以及如何修正

當使用LSTM進行時間序列預測時,人們容易陷入一個常見的陷阱。爲了解釋這個問題,我們需要先回顧一下回歸器和預測器是如何工作的。預測算法是這樣處理時間序列的: 一個迴歸問題是這樣的: 因爲LSTM是一個迴歸量,我們需要把時間序列轉換成一個