知識圖譜第12享：知識抽取

原創

2020-06-15 09:14

知識抽取( knowledge extraction) 研究如何根據給定本體從無語義標註的信息中識別並抽取與本體匹配的事實知識，進而實現對 Web 數據充分、有效的利用。該技術既可以抽取出事實知識用於構建基於知識的服務，也能夠爲語義Web的實現提供必要的語義內容。

這裏介紹以下三種方式知識抽取方法：

1）知識工程

知識工程主要包括正則表達式、模板匹配、規則約束等。

在模板匹配中，利用BootStrap從種子數據中識別Patterns，用於抽取更多數據，提取更多的Patterns。

在規則約束中，主要包括POS、NER約束、距離約束等。

2）基於本體的抽取

基於本體的抽取是通過推理進行知識挖掘，主要有PRA（基於圖的抽取）、TransE系列（基於Embedding的抽取）等技術。

3基於模型的抽取

基於模型的抽取主要包括構建模型、訓練等。

構建模型的方法主要有SVM（Logistic Model）、條件隨機場（CRF）、LSTM等循環神經網絡。

訓練方式主要包括有監督學習、無監督聚類、遠程監督（Distant Supervision）（從已有知識庫獲取少量訓練數據）等。

參考文獻：

1、知識圖譜第三課：知識抽取與挖掘I，https://www.bilibili.com/video/av26971363?p=3

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

客戶案例｜Zilliz Cloud 助力 AI 在線教育：智慧樹的創新之路

在信息技術飛速發展的今天，教育行業正經歷着一場深刻的變革。智慧樹，作爲全球領先的學分課程運營服務平臺，始終站在教育創新的前沿。爲了進一步提升教育質量和效率，智慧樹攜手 Zilliz Cloud，共同開啓了一場教育與技術的深度融合之旅。通過

2024-04-25 21:20:29

利用RAG技術打破大模型幻覺

隨着人工智能技術的不斷進步，大模型在各個領域中發揮着越來越重要的作用。然而，大模型幻覺問題一直是制約其進一步發展的瓶頸。爲了解決這一問題，研究者們不斷探索新的技術和方法。近年來，一種名爲RAG（檢索增強生成）的技術備受關注，它通過結合知識圖

2024-03-21 00:28:34

多模態+大模型會帶來哪些“化學反應”？

導語：沒人懷疑，2024 年，AI 依然將是科技界的主角。上個月，OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora，掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何？這一波新技術，對於行業和消費者的體驗會

2024-03-15 13:45:01

RAG一文讀懂！概念、場景、優勢、對比微調與項目代碼示例

本文結合“基於ERNIE SDK+LangChain搭建個人知識庫”的代碼示例，爲您講解RAG的相關概念。概念在2020年Facebook AI Research(FAIR)團隊發表一篇名爲《Retrieval-Augmented

2024-03-07 12:36:14

用“AI 產業顧問”寫企業分析報告，五天工作 10 分鐘搞定！

“以產業興實現城市興，以產業強帶動城市強”反映了一座城與產業的休慼相關。產業招商又是政府引進優質企業、拉動城市與區域經濟發展的“活水源頭”。長期以來，政府招商部門引進大型優質項目從篩選考察企業到正式簽約，往往以年爲週期，一方面要面對區域激烈

2024-02-29 01:05:19

OpenSPG新版發佈：大模型知識抽取與快速知識圖譜構建

隨着大數據時代的來臨，知識圖譜在各個領域的應用越來越廣泛，如智能客服、智能推薦、智能問答等。而OpenSPG作爲一款強大的知識圖譜構建工具，一直備受關注。近日，OpenSPG發佈了新版，帶來了大模型知識抽取和快速知識圖譜構建等功能，進一步提

2024-02-05 12:13:38

AI Powered SLS 智能分析能力創新

AIOps 爲運維工作帶來革命式變革隨着雲計算技術不斷升級，承載業務的 IT 基礎設施規模擴大，各個應用之間的鏈路關係變得越來越複雜，每時每刻都在產生海量級的日誌。對日誌數據的採集、存儲與分析處理方式，是衡量企業系統數字化程度的重要標誌

2023-12-20 03:09:55

阿里雲大模型數據存儲解決方案，爲 AI 創新提供推動力

隨着國內首批大模型產品獲批名單問世，百“模”大戰悄然開啓。在這場百“模”大戰中，每一款大模型產品的誕生，都離不開數據的支撐。如何有效存儲、管理和處理海量多模態數據集，並提升模型訓練、推理的效率，保障 AI 業務平臺運行的穩定，仍是亟待解決的

2023-12-12 01:18:49

具有高效推理速度的中文領域文圖生成擴散模型和工具鏈

近日，阿里雲機器學習平臺PAI與華南理工大學合作（阿里雲與華南理工大學聯合培養項目）在自然語言處理頂級會議ACL2023上發表了具有高效推理速度的中文領域文圖生成擴散模型和工具鏈Rapid Diffusion。它是面向中文特定領域的文圖生成

2023-07-14 00:25:22

基於電商多模態概念知識圖譜增強的電商場景圖文模型 FashionKLIP

近日，阿里雲機器學習平臺PAI與復旦大學肖仰華教授團隊、阿里巴巴國際貿易事業部ICBU合作在自然語言處理頂級會議ACL2023上發表基於電商多模態概念知識圖譜增強的電商場景圖文模型FashionKLIP。FashionKLIP是一種電商知識

2023-07-12 00:28:17

慧博雲通加入飛槳技術夥伴計劃，共同推動企業AI應用創新

近日，慧博雲通子公司慧博雲通（上海）軟件技術有限公司正式加入飛槳技術夥伴計劃，雙方將共同探索人工智能多場景創新應用，爲企業提供智能化解決方案。慧博雲通慧博雲通科技股份有限公司（股票代碼：301316）成立於2009年，總部位於杭州，公

2023-07-01 00:26:08

容器化微服務可觀測性方案

應用軟件架構經過單體架構、分佈式架構，面向服務架構、微服務架構發展，在雲計算、容器、網絡等技術的支撐下，更多企業的新一代應用都開始選擇使用微服務架構。同時，容器技術在LXC (Linux Container)、cgroups

2021-12-25 21:42:54

【Neo4j】安裝

最近在做一個知識圖譜相關的項目，首次接觸到了圖數據庫。搜索了一些資料，對比了幾個流行的圖數據庫後，最終選擇了Neo4j來作爲項目的數據庫。也正好趁這次項目的開發，邊學習下圖數據的技術，也在這裏記錄下一些知識點，希望對大家有所幫助。今天，

2021-12-25 21:39:02

美團知識圖譜問答技術實踐與探索

知識圖譜問答（Knowledge-based Question Answering, KBQA）是指給定自然語言問題，通過對問題進行語義理解和解析，進而利用知識庫進行查詢、推理得出答案。美團在平臺服務的售前、售中、售後全鏈路的多個場景中都

2021-12-25 21:20:24

北鯤雲SaaS平臺爲生物製藥研發進程帶來“加速度”

統計數據顯示，新藥從研發到上市的平均時間是 13 年左右，投入非常巨大。在這個過程中，需要大量的計算，大量的研究環節都需要計算的支持。可是在過去的很長時間裏，受技術方面的限制，算力達不到研究要求，這是導致新藥研發耗時漫長的原因所在。目前，在

2021-09-17 21:22:54

24小時熱門文章

最新文章

最新評論文章