圖書搜索領域重大突破！用 Apache SeaTunnel、Milvus 和 OpenAI 提高書名相似度搜索精準度和效率

背景

目前，現有的圖書搜索解決方案（例如公共圖書館使用的解決方案）十分依賴於關鍵詞匹配，而不是對書名實際內容的語義理解。因此會導致搜索結果並不能很好地滿足我們的需求，甚至與我們期待的結果大相徑庭。這是因爲僅僅依靠關鍵詞匹配是不夠的，因爲它無法實現語義理解，也就無法理解搜索者真正的意圖。

那麼，有更好的方法可以讓我們更加準確、高效地進行圖書搜索嗎？答案是有！本文中，我將介紹如何結合使用Apache SeaTunnel、Milvus和OpenAI進行相似度搜索，實現對整個書名的語義理解，從而讓搜索結果更加精準。

使用訓練有素的模型來表示輸入數據被稱爲語義搜索，這種方法可以擴展到各種不同的基於文本的用例，包括異常檢測和文檔搜索。因此，本文所介紹的技術可以爲圖書搜索領域帶來重大的突破和影響。

接下來我來簡單介紹幾個與本文相關的概念和用到的工具/平臺，便於大家更好地理解本文。

什麼是Apache SeaTunnel

Apache SeaTunnel是一個開源的、高性能的、分佈式的數據管理和計算平臺。它是由Apache基金會支持的一個頂級項目，能夠處理海量數據、提供實時的數據查詢和計算，並支持多種數據源和格式。SeaTunnel的目標是提供一個可擴展的、面向企業的數據管理和集成平臺，以滿足各種大規模數據處理需求。

什麼是Milvus

Milvus是一個開源的類似向量搜索引擎，它支持海量向量的存儲、檢索和相似度搜索，是一個針對大規模向量數據的高性能、低成本的解決方案。Milvus可以在多種場景下使用，如推薦系統、圖像搜索、音樂推薦和自然語言處理等。

什麼是OpenAI

ChatGPT是一種基於GPT（Generative Pre-trained Transformer）模型的對話生成系統，是由OpenAI開發的。該系統主要使用了自然語言處理、深度學習等技術，可以生成與人類對話相似的自然語言文本。ChatGPT的應用範圍很廣，可以用於開發智能客服、聊天機器人、智能助手等應用程序，也可以用於語言模型的研究和開發。近年來，ChatGPT已經成爲了自然語言處理領域的研究熱點之一。

什麼是LLM

大語言模型（Large Language Model）是一種基於深度學習技術的自然語言處理模型，它可以對一段給定的文本進行分析和理解，並生成與之相關的文本內容。大語言模型通常使用深度神經網絡來學習自然語言的語法和語義規則，並將文本數據轉換爲連續向量空間中的向量表示。在訓練過程中，大語言模型利用大量的文本數據來學習語言模式和統計規律，從而可以生成高質量的文本內容，如文章、新聞、對話等。大語言模型的應用領域非常廣泛，包括機器翻譯、文本生成、問答系統、語音識別等。目前，許多開放源代碼深度學習框架都提供了大語言模型的實現，如TensorFlow、PyTorch等。

教程

重點來了！我將展示如何將Apache SeaTunnel、OpenAI的Embedding API(https://platform.openai.com/docs/guides/embeddings)與我們的矢量數據庫結合使用，來通過語義搜索整個書名。

準備步驟

在實驗之前，我們需要去官網獲取一個OpenAI的token，然後再去部署一個Milvus的實驗環境(https://milvus.io/docs/install_standalone-docker.md）。我們還需要準備好將用於這個例子的數據。你可以從這裏下載數據。

通過SeaTunnel將數據導入Milvus。

首先，將book.csv放到/tmp/milvus_test/book下，然後配置任務配置爲milvus.conf並放到config下。請參考快速使用指南（https://seatunnel.apache.org/docs/start-v2/locally/quick-start-seatunnel-engine/）。

env {
  # You can set engine configuration here
  execution.parallelism = 1
  job.mode = "BATCH"
  checkpoint.interval = 5000
  #execution.checkpoint.data-uri = "hdfs://localhost:9000/checkpoint"
}

source {
  # This is a example source plugin **only for test and demonstrate the feature source plugin**
  LocalFile {
    schema {
      fields {
        bookID = string
        title_1 = string
        title_2 = string
      }
    }
    path = "/tmp/milvus_test/book"
    file_format_type = "csv"
  }
}

transform {
}

sink {
  Milvus {
    milvus_host = localhost
    milvus_port = 19530
    username = root
    password = Milvus
    collection_name = title_db
    openai_engine = text-embedding-ada-002
    openai_api_key = sk-xxxx
    embeddings_fields = title_2
  }
}

執行如下命令：

./bin/SeaTunnel.sh --config ./config/milvus.conf -e local

查看數據庫中數據，可以看到已經有數據寫入進去。

然後使用如下代碼通過語義搜索書名：

import json
import random
import openai
import time
from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection, utility

COLLECTION_NAME = 'title_db'  # Collection name
DIMENSION = 1536  # Embeddings size
COUNT = 100  # How many titles to embed and insert.
MILVUS_HOST = 'localhost'  # Milvus server URI
MILVUS_PORT = '19530'
OPENAI_ENGINE = 'text-embedding-ada-002'  # Which engine to use
openai.api_key = 'sk-******'  # Use your own Open AI API Key here

connections.connect(host=MILVUS_HOST, port=MILVUS_PORT)

collection = Collection(name=COLLECTION_NAME)

collection.load()


def embed(text):
    return openai.Embedding.create(
        input=text, 
        engine=OPENAI_ENGINE)["data"][0]["embedding"]


def search(text):
    # Search parameters for the index
    search_params={
        "metric_type": "L2"
    }

    results=collection.search(
        data=[embed(text)],  # Embeded search value
        anns_field="title_2",  # Search across embeddings
        param=search_params,
        limit=5,  # Limit to five results per search
        output_fields=['title_1']  # Include title field in result
    )

    ret=[]
    for hit in results[0]:
        row=[]
        row.extend([hit.id, hit.score, hit.entity.get('title_1')])  # Get the id, distance, and title for the results
        ret.append(row)
    return ret

search_terms=['self-improvement', 'landscape']

for x in search_terms:
    print('Search term:', x)
    for result in search(x):
        print(result)
    print()

搜索結果如下：

Search term: self-improvement
[96, 0.4079835116863251, "The Dance of Intimacy: A Woman's Guide to Courageous Acts of Change in Key Relationships"]
[56, 0.41880303621292114, 'Nicomachean Ethics']
[76, 0.4309804439544678, 'Possession']
[19, 0.43588975071907043, 'Vanity Fair']
[7, 0.4423919916152954, 'Knowledge Is Power (The Amazing Days of Abby Hayes: #15)']

Search term: landscape
[9, 0.3023473024368286, 'The Lay of the Land']
[1, 0.3906732499599457, 'The Angry Hills']
[78, 0.392495334148407, 'Cloud Atlas']
[95, 0.39346450567245483, 'Alien']
[94, 0.399422287940979, 'The Known World']

如果我們按照之前的老方法——關鍵詞搜索，書名中必須包含自我提升、提升等關鍵詞；但是提供大模型進行語義級別的理解，則可以檢索到更加符合我們需求的書名。比如在上面的例子中，我們搜索的關鍵詞爲self-improvement（自我提升），展示的書名《關係之舞：既親密又獨立的相處藝術》、《尼各馬可倫理學》等雖然不包含相關關鍵詞，卻很明顯更加符合我們的要求。

可見，我們利用Apache SeaTunnel、Milvus和OpenAI，通過大語言模型的方法，可以實現更加精準的書名相似度搜索，爲圖書搜索領域帶來重大的技術突破，同時對於語義理解也提供了有價值的參考，希望可以給大家帶來一些啓發。

相關鏈接

https://seatunnel.apache.org/
https://milvus.io/
https://openai.com

本文爲轉載文章，首刊於微信公衆號【SeaTunnel】，作者劉廣東系 Apache SeaTunnel Committer。

🌟點擊【閱讀原文】深入瞭解 Milvus！

本文分享自微信公衆號 - ZILLIZ（Zilliztech）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

圖書搜索領域重大突破！用 Apache SeaTunnel、Milvus 和 OpenAI 提高書名相似度搜索精準度和效率

準備步驟

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

歐洲英國德國法國TikTok與YouTube海外網紅達人的完美合作策略

druid數據源 xml配置

Milvus 老友匯｜RAG 場景、電商平臺、AI 平臺……如何用向量數據庫構建業務方案？

Last Call！AWS、Shopee、點石科技專家齊聚 Milvus 老友匯 · 線下 Meetup

千萬元補貼助力 AI 應用探索！「Zilliz AI 初創計劃」已開啓

RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要

OpenAI 將在 2027 年實現人類水平的 AGI ？完整 PDF 流出……

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結