原创 解密Prompt系列31. LLM Agent之從經驗中不斷學習的智能體

Agent智能體的工作流可以簡單分成兩種:一種是固定的靜態工作流,一種是智能體自主決策的動態工作流。 靜態流程的Agent舉幾個例子,例如新聞熱點追蹤推送Agent,每日新論文摘要總結Agent,它們的優點是可控,穩定,可復現,缺點是一種流

原创 解密Prompt系列30. LLM Agent之互聯網衝浪智能體

這一章我們介紹能自主瀏覽操作網頁的WebAgent們和相關的評估數據集,包含初級任務MiniWoB++,高級任務MIND2WEB,可交互任務WEBARENA,多模態WebVoyager,多輪對話WebLINX,和複雜任務AutoWebGLM

原创 解密Prompt系列29. LLM Agent之真實世界海量API解決方案:ToolLLM & AnyTool

很早之前我們就聊過ToolFormer,Gorilla這類API調用的Agent範式,這一章我們針對真實世界中工具調用的以下幾個問題,介紹微調(ToolLLM)和prompt(AnyTool)兩種方案。 真實世界的API數量龐大且多樣:之

原创 解密Prompt系列28. LLM Agent之金融領域摸索:FinMem & FinAgent

本章介紹金融領域大模型智能體,並梳理金融LLM的相關資源。金融領域的大模型智能體當前集中在個股交易決策這個相對簡單的場景,不需要考慮多資產組合的複雜場景。交易決策被簡化成市場上各個信息,包括技術面,消息面,基本面等等在不同市場情況下,對資產

原创 解密prompt系列27. LLM對齊經驗之如何降低通用能力損失

前面我們已經聊過衆多指令微調的方案,這一章我們重點討論下如何注入某一類任務或能力的同時,儘可能不損失模型原有的通用指令理解能力。因爲在下游或垂直領域應用中,我們設計的推理任務風格或形式,往往很難通過prompt來穩定實現。這種情況下就會依賴

原创 解密prompt系列25. RLHF改良方案之樣本標註:RLAIF & SALMON

上一章我們主要嘮了RLHF訓練相關的方案,這一章我們主要針對RLHF的樣本構建階段,引入機器標註來降低人工標註的成本。主要介紹兩個方案:RLAIF,和IBM的SALMON。 RLAIF RLAIF: Scaling Reinforcem

原创 解密prompt系列26. 人類思考vs模型思考:抽象和發散思維

在Chain of Thought出來後,出現過許多的優化方案例如Tree of thought, Graph of Thought, Algorithm of Thought等等,不過這些優化的出發點都更加"Machine Like",而

原创 解密prompt系列24. RLHF新方案之訓練策略:SLiC-HF & DPO & RRHF & RSO

去年我們梳理過OpenAI,Anthropic和DeepMind出品的經典RLHF論文。今年我們會針對經典RLHF算法存在的不穩定,成本高,效率低等問題討論一些新的方案。不熟悉RLHF的同學建議先看這裏哦解密Prompt7. 偏好對齊RLH

原创 解密Prompt系列23.大模型幻覺分類&歸因&檢測&緩解方案腦圖全梳理

上一章我們主要聊聊RAG場景下的幻覺檢測和解決方案,這一章我們單獨針對大模型的幻覺問題,從幻覺類型,幻覺來源,幻覺檢測,幻覺緩解這四個方向進行整理。這裏就不細說任意一種方法了,因爲說不完根本說不完,索性用腦圖概覽式地看下整個大模型幻覺領域。

原创 解密Prompt系列22. LLM Agent之RAG的反思:放棄了壓縮還是智能麼?

已經嘮了三章的RAG,是時候回頭反思一下,當前的RAG是解決幻覺的終點麼?我給不出直接的答案,不過感覺當前把RAG當作傳統搜索框架在大模型時代下的改良,這個思路的天花板高度有限~ 反思來源於對RAG下模型回答的直觀感受,最初我們被ChatG

原创 解密Prompt系列21. LLM Agent之再談RAG的召回信息密度和質量

話接上文的召回多樣性優化,多路索引的召回方案可以提供更多的潛在候選內容。但候選越多,如何對這些內容進行篩選和排序就變得更加重要。這一章我們嘮嘮召回的信息密度和質量。同樣參考經典搜索和推薦框架,這一章對應排序+重排環節,考慮排序中粗排和精排的

原创 解密Prompt系列20. LLM Agent之再談RAG的召回多樣性優化

幾個月前我們就聊過RAG的經典方案解密Prompt系列14. LLM Agent之搜索應用設計。前幾天剛看完openAI在DevDay閉門會議上介紹的RAG相關的經驗,有些新的感悟,藉此機會再梳理下RAG相關的優化方案。推薦直接看原視頻(外

原创 解密Prompt系列19. LLM Agent之數據分析領域的應用:Data-Copilot & InsightPilot

在之前的 LLM Agent+DB 的章節我們已經談論過如何使用大模型接入數據庫並獲取數據,這一章我們聊聊大模型代理在數據分析領域的應用。數據分析主要是指在獲取數據之後的數據清洗,數據處理,數據建模,數據洞察和數據可視化的步驟。可以爲經常和

原创 解密Prompt系列18. LLM Agent之只有智能體的世界

重新回來聊Agent,前四章的LLM Agent,不論是和數據庫和模型還是和搜索引擎交互,更多還是大模型和人之間的交互。這一章我們來嘮嘮只有大模型智能體的世界!分別介紹斯坦福小鎮和Chatdev兩篇論文。它們的共同特點是使用多個大模型智能體

原创 解密Prompt系列17. LLM對齊方案再升級 WizardLM & BackTranslation & SELF-ALIGN

話接上文的指令微調的樣本優化方案,上一章是通過多樣性篩選和質量過濾,對樣本量進行縮減,主打經濟實惠。這一章是通過擴寫,改寫,以及回譯等半監督樣本挖掘方案對種子樣本進行擴充,提高種子指令樣本的多樣性和複雜度,這裏我們分別介紹Microsoft