代碼、模型全開源!面向檢索、問答、情感分析三大場景,真實產業範例分享

自然語言處理技術在各行業有着廣泛的應用,然而長久以來,其落地並不是一帆風順的。

針對這些棘手的問題,百度飛槳深耕產業界,選取 NLP 領域三大高頻場景——檢索、問答、情感分析,推出面向真實應用場景的系統功能,覆蓋金融、電商零售、文娛、旅遊、房地產、生活服務等多個行業,萬方、榮耀、國美、驢媽媽旅遊網、房天下、食行生鮮等均已基於相關方案成功完成業務上線。


  語義檢索系統

檢索系統存在於人們日常使用的很多產品中,比如商品搜索、學術文獻檢索、通用搜索引擎等。傳統方法匹配能力有限,只能捕捉字面匹配,而 語義檢索 能夠捕捉深層語義信息,達到更精準、更廣泛地召回相似結果的目的。
圖:基於字面的稀疏向量檢索 vs 基於語義的稠密向量檢索
PaddleNLP 本次推出語義檢索系 統,流程圖如下,其中左側爲召回環節,核心是語義向量抽取模型;右側是排序環節,核心是排序模型
圖:PaddleNLP Neural Search 語義檢索系統流程圖

具備三大亮點:

  • 低門檻:數據+代碼+模型全部開源,無需標註數據也能夠輕鬆構建起檢索系統,並且提供訓練、預測、近似最近鄰(ANN)搜索一站式能力。

  • 精度高:結合業界前沿模型和自有創新思路,推出適用多種數據情況、靈活的技術方案,精度超高。

表:不同技術方案下的 Recall@K 指標
圖:文獻檢索示例

前往 GitHub 獲取開源代碼和模型:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/neural_search


  預訓練時代的端到端問答 - RocketQA

問答系統是信息檢索系統的一種高級形式,它能用準確、簡潔的自然語言回答用戶提出的問題,問答系統廣泛應用於搜索引擎、智能設備、智能客服等產品中。
圖:問答系統應用示例

傳統的問答系統通常由多個模塊級聯組成,而在預訓練時代我們可以用一個端到端模型代替傳統的複雜系統,實現更好的效果。然而,研發端到端問答模型需要大量的計算和數據資源,爲了使更多開發者能方便地獲取最先進的問答技術,我們推出了 RocketQA 開發工具,有三大亮點:

  • 領先:提供國際領先的端到端問答技術-RocketQA,效果遠超傳統問答系統,與國際知名公司的技術方案相比也有一定優勢。

  • 中文:開源首個中文端到端問答模型,該模型基於知識增強的預訓練模型ERNIE和百萬量級的人工標註數據集 DuReader 訓練得到,效果優異。

  • 易用:提供11種預置模型、2 種安裝方式和極簡的開發接口,2 行命令即可搭建自己的問答系統。

前往 GitHub 獲取開源代碼和模型:https://github.com/PaddlePaddle/RocketQA


  情感分析系統

情感分析旨在對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理,其廣泛應用於消費決策、輿情分析、個性化推薦等領域,具有很高的商業價值。
依託百度領先的情感分析技 術,食行生鮮自動生成菜品評論標籤輔助用戶購買,並指導運營採購部門調整選品和促銷策略;房天下向購房者和開發商直觀展示樓盤的用戶口碑情況,並對好評樓盤置頂推薦;國美搭建服務智能化評分系統,客服運營成本減少 40%,負面反饋處理率 100%。

爲了降低技術門檻,方便開發者共享效果領先的情感分析技術,PaddleNLP 本次開源的情感分析系統,具備三大亮點:

  • 覆蓋任務全:集成句子級情感分類、評論觀點抽取、屬性級情感分類等多種情感分析能力,並開源模型,且打通模型訓練、評估、預測部署全流程。

圖:PaddleNLP Sentiment Analysis 核心能力展示
  • 效果領先:集成百度研發的基於情感知識增強的預訓練模型 SKEP,爲各類情感分析任務提供統一且強大的情感語義表示能力。

  • 預測性能強: 針對預訓練模型預測效率低的問題,開源小模型 PP-MiniLM,配套裁剪、量化優化策略,預測性能提速 900%!
前往 GitHub 獲取開源代碼和模型: https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis

如果您想了解詳細技術方案和完整代碼、下載開源數據和模型,歡迎關注 GitHub Repo,也可在直播中與百度高工交流哦:

PaddleNLP: https://github.com/PaddlePaddle/PaddleNLP

RocketQA: https://github.com/PaddlePaddle/RocketQA


  直播預告課

12.28~12.30 日每晚 20:15~21:30 百度高工將帶來直播講解,剖析行業痛點問題,深入解讀系統方案,並帶來手把手項目實戰。歡迎大家掃碼上車!直播間不見不散~

掃碼報名直播課,加入技術交流羣
更多精彩搶先看

本文分享自微信公衆號 - ZILLIZ(Zilliztech)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章