基於本地知識庫和LLM的知識庫問答難點及解決方案

原創

2023-09-24 13:26

　　難點：由於langchain採用的是硬切分文檔的方式，導致文檔分割不夠準確，例如：在文檔中若有分點描述的情況，對文檔硬性分割後，會把各個重點分隔開，導致後續向量召回時，片段是殘缺的。如：

如果硬性分割文檔，則在召回階段拿到所有的通知信息。

　　解決方案：考慮使用語義分析的方式來分割文檔，BERT模型訓練時有個NSP的任務，即預測句子是否爲上一句的下一句，所以bert是具有預測兩句子之前是否有語義銜接的能力的。在對文檔分割時，我們既可以對段落進行分割也可以對句子進行分隔，設置一個閾值，將文檔從前往後根據兩句子（兩段落）的銜接度跟閾值比較即可。代碼實現如下：

　　

 1 def is_nextsent(sent, next_sent):
 2         encoding = tokenizer(sent, next_sent, return_tensors="pt",truncation=True, padding=False)
 3         with torch.no_grad():
 4             outputs = model(**encoding, labels=torch.LongTensor([1]))
 5 
 6             logits = outputs.logits
 7             probs = torch.softmax(logits, dim=1)
 8             next_sentence_prob = probs[:, 0].item()
 9         if next_sentence_prob <= FLAG_RATIO:
10             return False
11         else:
12             return True

附：可以根據業務的具體情況對段落、句子進行分隔並加入向量庫

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

異構數據源同步之表結構同步 → 通過 jdbc 實現，沒那麼簡單

開心一刻今天坐沙發上看電視，旁邊的老婆拿着手機貼了過來老婆：老公，這次出門旅遊，機票我準備買了哈我：嗯老婆：你、我、你爸媽、我爸媽，一共六張票老婆：這上面還有意外保險，要不要買？我：都特麼團滅了，還買啥保險？異構數據源同步

2024-05-06 13:35:35

博客園商業化之路：融資做與衆不同的衆包平臺，讓開發能力成爲一種服務

園子的誕生，與商業無關，是一位編程愛好者業餘時間的偶然。園子的堅持，也與商業無關，是來自服務於成千上萬開發者的成就感。當十多年前業餘時間無法支撐園子的進一步發展時，初生牛犢不怕虎地毅然辭職從江蘇揚州來到上海開始爲園子的發展而創業，當時心

博客園團隊

2024-05-06 13:30:44

上週熱點回顧（4.29-5.5）

熱點隨筆： · 博客園商業化之路-開發任務衆包平臺：召集早期合作開發者 (博客園團隊)· 一個開源輕量級的C#代碼格式化工具（支持VS和VS Code） (追逐時光者)· .NET開源、功能強大、跨平臺的圖表庫 - LiveCharts2

博客園團隊

2024-05-06 13:30:44

五一假期學習總結：從DevOps到SRE

大家好，我是Edison。五一假期，沒出遠門，帶娃露營玩水玩沙騎平衡車，累的不亦樂乎。同時，也刷了一門極客時間的課程《SRE實戰總結》，給我帶來了一些新的認知，我將這些認知整理了以下，特此總結分享與你，強烈建議已經實踐了DevOps的童鞋

2024-05-06 13:29:44

2024合集

1. pyecharts常見圖表代碼 2. pandas和時間相關的計算(年同比等等)

小生學Python

2024-05-06 13:29:44

[轉帖]流量一樣但爲什麼CPU使用率差別很大

https://plantegg.github.io/2024/04/26/%E6%B5%81%E9%87%8F%E4%B8%80%E6%A0%B7%E4%BD%86%E4%B8%BA%E4%BB%80%E4%B9%88CPU%E4%BD

濟南小老虎

2024-05-06 13:29:33

[轉帖]Linux內核版本升級，性能到底提升多少？

https://plantegg.github.io/2019/12/24/Linux%E5%86%85%E6%A0%B8%E7%89%88%E6%9C%AC%E5%8D%87%E7%BA%A7%EF%BC%8C%E6%80%A7%E8%

濟南小老虎

2024-05-06 13:29:33

[轉帖]長連接黑洞重現和分析

https://plantegg.github.io/2024/05/05/%E9%95%BF%E8%BF%9E%E6%8E%A5%E9%BB%91%E6%B4%9E%E9%87%8D%E7%8E%B0%E5%92%8C%E5%88%86

濟南小老虎

2024-05-06 13:29:33

[轉帖]十年後數據庫還是不敢擁抱NUMA-續篇

https://plantegg.github.io/2024/05/03/%E5%8D%81%E5%B9%B4%E5%90%8E%E6%95%B0%E6%8D%AE%E5%BA%93%E8%BF%98%E6%98%AF%E4%B8%8D

濟南小老虎

2024-05-06 13:29:33

ARM64_Ubuntu_Chrome_Python 鏡像搭建最終版

ARM64_Ubuntu_Chrome_Python 鏡像搭建最終版 dockerfile FROM ubuntu:24.04 RUN apt-get update && apt-get install gnupg -y && apt-g

濟南小老虎

2024-05-06 13:29:33

[轉帖]Unnecessary GCLocker-initiated young GCs

https://www.cnblogs.com/zhangshengdong/p/9196128.html Details Type: Bug Resolution:Fixed Priority: P3

濟南小老虎

2024-05-06 13:29:33

【動畫進階】巧用 CSS/SVG 實現複雜線條光效動畫

最近，羣裏在討論一個很有意思的線條動畫效果，效果大致如下：簡單而言，就是線條沿着不規則路徑的行進動畫，其中的線條動畫可以理解爲是特殊的光效。本文，我們將一起探索，看看在不使用 JavaScript/Canvas 的基礎上，使用純 CS

2024-05-06 13:27:43

Huggingface Transformers實現張量並行的小坑 set/get_output_embeddings

transformers 庫裏實現的很多模型會有這麼兩個函數 get_output_embeddings和 get_output_embeddings。以 SwitchTransformer 爲例 class SwitchTransform

2024-05-06 13:23:33

go 0506

2024-05-06 13:20:12

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

接着上一篇：程序員天天 CURD，怎麼才能成長，職業發展思考上一篇寫到了用年限來談程序員的發展，在 4 - 6 年這個時間段需要做的一些事情，接着寫這個時間段的。第 4、5 年時候，你可能會做一些關於基層管理工作。這個時期會遇到一些困難

2024-05-06 13:19:52

24小時熱門文章

最新文章

最新評論文章