原创 Barnes-Hut t-SNE:大規模數據的高效降維算法

在數據科學和分析中,理解高維數據集中的底層模式是至關重要的。t-SNE已成爲高維數據可視化的有力工具。它通過將數據投射到一個較低維度的空間,提供了對數據結構的詳細洞察。但是隨着數據集的增長,標準的t-SNE算法在計算有些困難,所以發展出了B

原创 5種搭建LLM服務的方法和代碼示例

在不斷髮展的大型語言模型(LLMs)領域中,用於支持這些模型的工具和技術正以與模型本身一樣快的速度進步。在這篇文章中,我們將總結5種搭建開源大語言模型服務的方法,每種都附帶詳細的操作步驟,以及各自的優缺點。   https://avoid

原创 使用ORPO微調Llama 3

ORPO是一種新的微調技術,它將傳統的監督微調和偏好對齊階段結合到一個過程中。減少了訓練所需的計算資源和時間。論文的實證結果表明,ORPO在各種模型大小和基準上都優於其他對齊方法,所以這次我們就來使用最新的Llama 3來測試下ORPO的效

原创 掌握時間序列特徵工程:常用特徵總結與 Feature-engine 的應用

時間序列數據的特徵工程是一種技術,用於從時間序列數據中提取信息或構造特徵,這些特徵可用於提高機器學習模型的性能。以下是一些常見的時間序列特徵工程技術: 滾動統計量:計算時間窗口內的統計量,如平均值、中位數、標準偏差、最小值和最大值。這些統

原创 RAG 2.0架構詳解:構建端到端檢索增強生成系統

關於檢索增強生成(RAG)的文章已經有很多了,如果我們能創建出可訓練的檢索器,或者說整個RAG可以像微調大型語言模型(LLM)那樣定製化的話,那肯定能夠獲得更好的結果。但是當前RAG的問題在於各個子模塊之間並沒有完全協調,就像一個縫合怪一樣

原创 PyTorch小技巧:使用Hook可視化網絡層激活(各層輸出)

這篇文章將演示如何可視化PyTorch激活層。可視化激活,即模型內各層的輸出,對於理解深度神經網絡如何處理視覺信息至關重要,這有助於診斷模型行爲並激發改進。 我們先安裝必要的庫: https://avoid.overfit.cn/post

原创 ORPO偏好優化:性能和DPO一樣好並且更簡單的對齊方法

現在有許多方法可以使大型語言模型(LLM)與人類偏好保持一致。以人類反饋爲基礎的強化學習(RLHF)是最早的方法之一,並促成了ChatGPT的誕生,但RLHF的成本非常高。與RLHF相比,DPO、IPO和KTO的成本明顯更低,因爲它們不需要

原创 時空圖神經網絡ST-GNN的概念以及Pytorch實現

在我們周圍的各個領域,從分子結構到社交網絡,再到城市設計結構,到處都有相互關聯的圖數據。圖神經網絡(GNN)作爲一種強大的方法,正在用於建模和學習這類數據的空間和圖結構。它已經被應用於蛋白質結構和其他分子應用,例如藥物發現,以及模擬系統,如

原创 Moirai:Salesforce的時間序列預測基礎模型

Moirai 是 Salesforce 開發的用於時間序列預測的基礎模型。它被設計爲一種通用模型,能夠預測廣泛的時間序列。爲了實現這種靈活性,該模型解決了時間序列數據相關的幾個挑戰,包括: 處理各種數據頻率(小時、日、周等); 適應任何數

原创 PiSSA :將模型原始權重進行奇異值分解的一種新的微調方法

我們開始看4月的新論文了,這是來自北京大學人工智能研究所、北京大學智能科學與技術學院的研究人員發佈的Principal Singular Values and Singular Vectors Adaptation(PiSSA)方法。 Pi

原创 10個大型語言模型(LLM)常見面試問題和答案解析

今天我們來總結以下大型語言模型面試中常問的問題   https://avoid.overfit.cn/post/5cbf407986584cfab3efd5ee3801b697

原创 推測解碼:在不降低準確性的情況下將LLM推理速度提高2 - 3倍

在本篇文章我們將詳細討論推測解碼,這是一種可以將LLM推理速度提高約2 - 3倍而不降低任何準確性的方法。我們還將會介紹推測解碼代碼實現,並看看它與原始transformer 實現相比到底能快多少。 推測解碼是一種“先推測後驗證” (Dr

原创 5種常用於LLM的令牌遮蔽技術介紹以及Pytorch的實現

本文將介紹大語言模型中使用的不同令牌遮蔽技術,並比較它們的優點,以及使用Pytorch實現以瞭解它們的底層工作原理。 令牌掩碼Token Masking是一種廣泛應用於語言模型分類變體和生成模型訓練的策略。BERT語言模型首先使用,並被用於

原创 爲什麼大型語言模型都在使用 SwiGLU 作爲激活函數?

如果你一直在關注大型語言模型的架構,你可能會在最新的模型和研究論文中看到“SwiGLU”這個詞。SwiGLU可以說是在大語言模型中最常用到的激活函數,我們本篇文章就來對他進行詳細的介紹。SwiGLU其實是2020年穀歌提出的激活函數,它結合

原创 歸一化技術比較研究:Batch Norm, Layer Norm, Group Norm

歸一化層是深度神經網絡體系結構中的關鍵,在訓練過程中確保各層的輸入分佈一致,這對於高效和穩定的學習至關重要。歸一化技術的選擇(Batch, Layer, GroupNormalization)會顯著影響訓練動態和最終的模型性能。每種技術的相