螞蟻金服金融大腦的挑戰賽的實現代碼 NLP文本相似度計算

原創

技术修行

2020-06-01 23:47

近期做了一些NLP的研究，並基於6月份螞蟻金服金融大腦的挑戰賽，完成了文本相似度計算的驗證。

主要思路是基於word2vec來進行訓練，並實現文本相似度的計算。

所使用的語料，包括了公開的wiki語料，網友收集的微信語料，以及此大賽中的語料。

其中微信語料的位置在https://spaces.ac.cn/archives/4304（可參考）。

注意，此次語料訓練採用了增量訓練的方式。

整體的代碼位置在，https://github.com/renwoxing2016/nlp-ali，大家可參考。

使用方式：

1、下載此代碼到本地。

2、下載訓練的模型，參見模型的位置。

下載後放到models目錄下。

3、運行python ali_wx_wiki_vec_compare.py ./input_test.txt ./temp/

4、結果在temp目錄下。

訓練：

1、下載數據到本地。拷貝到此代碼大的根目錄下。數據比較大有待上傳後更新其網址。

2、運行如下腳本即可。

python word2vec_train.py

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

巧用 TiCDC Syncpiont 構建銀行實時交易和準實時計算一體化架構

本文闡述了某商業銀行如何利用 TiCDC Syncpoint 功能，在 TiDB 平臺上構建一個既能處理實時交易又能進行準實時計算的一體化架構，用以優化其零售資格業務系統的實踐。通過遷移到 TiDB 並巧妙應用 Syncpoint，該銀行成

原創

2024-04-30 22:24:58

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

原創

2024-04-30 11:49:27

華爲云云原生FinOps解決方案，釋放雲原生最大價值

華爲云云原生FinOps通過可視化的成本洞察和成本優化，幫助用戶精細用雲以提升單位成本的資源利用率，實現降本增效目標企業上雲現狀：上雲趨勢持續加深，但云上開支存在顯著浪費根據Flexer 2024年最新的一項調查顯示，當前有超過7

原創

2024-04-29 22:33:46

三喜臨門！信必優連收三家金融行業客戶表揚信

近日，信必優陸續收到全球知名銀行客戶、中國證券行業TOP級客戶、中國期貨行業TOP級客戶的表揚信。客戶高度讚揚我司員工在工作中表現突出，以積極主動、團結協作的工作態度和出色的技術能力，在技術團隊中做出表率，爲項目的順利交付做出重要貢獻。

原創

2024-04-29 22:32:22

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

原創

2024-04-29 21:22:20

從NoSQL到NewSQL——10年代大數據浪潮下的技術革新

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫演變

原創

2024-04-28 23:12:26

“百團大戰”下，20年代的國產數據庫如何乘風破浪？

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫

原創

2024-04-28 23:12:24

大數據小白的測試成長之路

引言 22年校招入職京東後，我一直在數據中臺測試部從事測試開發的工作。畢業後，寫的最多的文檔是測試計劃和測試報告，鮮有機會就自己的成長碼字進行回顧和總結。借“up技術人”欄目，也終於是在工作之餘回頭望，對自己這近兩年時光進行一個小總結

原創

2024-04-28 11:17:19

如何從0到1設計診斷系統

引言在整車電子電氣體系中，診斷系統的設計扮演着至關重要的角色，負責支持整車的刷寫、故障排查和EOL(End of Line)等關鍵操作。這一重要性在於這些操作的實現都依賴於診斷系統的全面支持。因此，在設計診斷系統時，必須確保

原創

2024-04-26 22:43:26

華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

原創

2024-04-26 10:33:21

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

原創

2024-04-24 22:33:08

重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗

本文分享自華爲雲社區《重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗！》，作者：GaussDB 數據庫。所謂，凡有井水處，即能歌柳詞。大數據時代，凡有數據處，必有數據庫。隨着業務需求的不斷擴大和數據量的激增，數

原創

2024-04-23 22:32:33

沙特2030年願景和對中國IT企業的市場機會分析

沙特2030年願景和對中國IT企業的市場機會分析前言：最近“開源老DJ，帶你去沙特”欄目第一期已經播出，收到了不錯的反響。見COPU官網的回顧。（https://mp.weixin.qq.com/s/3B0jNVhybxTF1xPiy

原創

2024-04-23 22:24:54

03-爲啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

原創

2024-04-23 01:07:00

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

原創

2024-04-22 11:16:31

24小時熱門文章

螞蟻金服金融大腦的挑戰賽的實現代碼 NLP文本相似度計算

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

安裝chromadb注意事項

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

使用jTessBoxEditorFX進行ocr訓練的實際操作步驟

python 爬蟲列表

螞蟻金服金融大腦的挑戰賽的實現代碼 NLP文本相似度計算

爲豬臉識別而進行自己數據集的構建、訓練

使用opencv_python進行視頻分析遇到的bgsegm問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結