RAG 2.0架构详解：构建端到端检索增强生成系统

原創

2024-04-19 13:04

关于检索增强生成（RAG）的文章已经有很多了，如果我们能创建出可训练的检索器，或者说整个RAG可以像微调大型语言模型（LLM）那样定制化的话，那肯定能够获得更好的结果。但是当前RAG的问题在于各个子模块之间并没有完全协调，就像一个缝合怪一样，虽然能够工作但各部分并不和谐，所以我们这里介绍RAG 2.0的概念来解决这个问题。

什么是RAG？

简单来说，RAG可以为我们的大型语言模型（LLM）提供额外的上下文，以生成更好、更具体的回应。LLM是在公开可用的数据上训练的，它们本身是非常智能的系统，但它们无法回答具体问题，因为它们缺乏回答这些问题的上下文。

所以RAG可以向LLM插入新知识或能力，尽管这种知识插入并不是永久的。而另一种常用向LLM添加新知识或能力的方法是通过对我们特定数据进行微调LLM。

通过微调添加新知识相当困难，昂贵，但是却是永久性。通过微调添加新能力甚至会影响它以前拥有的知识。在微调过程中，我们无法控制哪些权重将被改变，因此也无法得知哪些能力会增加或减少。

选择微调、RAG还是两者的结合，完全取决于手头的任务。没有一种适合所有情况的方法。

RAG的经典步骤如下：

将文档分成均匀的块。
每个块是一段原始文本。
使用编码器为每个块生成嵌入（例如，OpenAI嵌入，sentence_transformer等），并将其存储在数据库中。
找到最相似的编码块，获取这些块的原始文本，并将其作为上下文与提示一起提供给生成器。

RAG 2.0

当今典型的RAG系统使用现成的冻结模型进行嵌入，使用向量数据库进行检索，以及使用黑盒语言模型进行生成，通过提示或编排框架将它们拼接在一起。各个组件技术上可行，但整体远非最佳。这些系统脆弱，缺乏对其部署领域的任何机器学习或专业化，需要广泛的提示，并且容易发生级联错误。结果是RAG系统很少通过生产标准。

而我们要说的RAG 2.0的概念，通过预训练、微调并对所有组件进行对齐，作为一个整体集成系统，通过语言模型和检索器的双重反向传播来最大化性能：

https://avoid.overfit.cn/post/18853fc6f10e4e23a992880c624ea1dd

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

RAG 2.0架构详解：构建端到端检索增强生成系统

什么是RAG？

RAG 2.0

一键自动化博客发布工具,用过的人都说好(掘金篇)

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

nodejs学习06——小案例

评估统计算法在银行伪造钞票检测中的价值

C# Xmlserializer 程序集内存泄露

Java ThreadPoolShutdown

5月21日相聚上海张江！与文心大模型一起共建大模型产业应用生态圈

圖神經網絡入門示例：使用PyTorch Geometric 進行節點分類

ATFNet：長時間序列預測的自適應時頻集成網絡

時間序列預測:探索性數據分析和特徵工程的實用指南

Transformers 加速的一些常用技巧

You Only Cache Once:YOCO 基於Decoder-Decoder 的一個新的大語言模型架構

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結