三步解決NLP數據標註難題,百度大腦EasyDL專業版上線文本智能標註功能

隨着技術的進步,人工智能的發展和應用如火如荼,智能化轉型已經成爲企業發展的必然趨勢。

人工智能技術作爲“新基建”提速的重要一環,應用場景已經日趨廣泛,比如在傳媒領域的智能機器人寫作、各類APP的個性化內容推薦以及準確度接近人類的實時翻譯工具等。各行業越來越多的應用案例證明,利用AI技術來提高企業的業務效率,是智能經濟時代,企業降本增效、提升核心競爭力的必備“祕籍”。

EasyDL是飛槳深度學習平臺推出的面向企業打造的零門檻AI開發平臺。EasyDL發佈以來,在工業、農業、零售、安防、教育、醫療等數十個行業的上百個領域中落地應用,助力衆多企業邁出了智能化轉型的關鍵一步。

近期,在百度NLP(自然語言處理)技術的加持下,EasyDL平臺率先推出了業界領先的文本智能標註功能,目前已經上線到EasyDL專業版平臺,在自然語言數據集中可以啓動智能標註,幫助企業和開發者解決以往文本數據標註成本高、效率低的痛點。

文本智能標註功能解決了訓練NLP任務模型時必須人工逐條標註文本數據的煩惱。藉助該功能,開發者僅需提供少量的已標註文本數據,即可完成對大規模數據集的自動標註,對企業來說,數據標註的成本大幅降低,同時模型訓練效果也得到有效提升。目前,文本智能標註功能已經支持使用最廣泛的文本分類任務。

企業爲什麼需要”文本智能標註”

1、數據是企業智能化轉型的核心要素之一
通常情況下,數據集的數量和質量會決定模型訓練的效果,進而直接影響企業的業務效率,因此企業在應用AI技術進行智能化轉型時,需要用大規模已標註的業務數據集來訓練AI模型,提高模型的訓練效果。

2、人工標註數據成本高、效率低
在大多數企業中,數據標註的工作往往是人工完成的,企業需要設置完備的數據標註體系,並對標註人員進行業務培訓,實時管理標註過程,對標註結果進行驗收,存在着標註人員培訓成本高、標註效率低、數據管理冗餘等一系列問題。

以某金融企業的智能媒體業務爲例,開發者需要使用分類模型對金融專業文章按照不同頻道進行分類,在人工標註模型訓練數據集的過程中,伴隨着以下幾個核心痛點:

  1. 對數據標註人員的要求高。金融領域的高專業度使得模型訓練所需的數據集對標註人員的專業性和理解力提出了很大的挑戰,爲保證大規模數據集的標註質量,往往需要金融專業背景的人員來進行數據集的標註。
  2. 人工進行數據標註的效率低。爲了保證數據標註的質量,企業需要設定相應的標註流程和標註質量驗證的方法,同時爲了保證流程和方法得到落地和執行,還需增加適當的獎勵機制,並與人事管理相結合。
  3. 難以對標註數據進行規劃。企業在人工數據標註的過程中對數據標註管理方案投入較多的資源,但對未來應該獲得多少標註數據以提升模型效果往往無法進行有效的預期和規劃,會額外增加不可預期的成本。

訓練模型過程中,通常需要經歷數據集準備(標註)、任務網絡配置開發、模型的訓練和部署等重要過程。很多時候,模型訓練在數據準備階段遇到數據量不足的問題,使模型開發過程遲遲不能啓動。藉助EasyDL專業版的文本智能標註功能,開發者可通過上傳少量的已標註數據樣本,完成對大規模的數據集的自動標註,省去了人工逐一標註的環節,使用智能標註數據來訓練小型網絡模型,以獲得效果和性能更優的模型預測服務。

如何使用文本智能標註能力

藉助文本智能標註功能,開發者可以使用少量人工標註的數據和業界領先的預訓練模型ERNIE2.0對大規模的未標註數據進行預測,完成對數據的智能標註。

同時,開發者可以根據智能標註結果的準確率情況,對智能標註數據集進行優化:在智能標註完成後,系統將根據算法挑選出少量優先標註樣本供開發者進行人工校驗,校驗完成後系統將使用此部分樣本對模型[LZ2] 進行重新訓練,從而獲得更精準的智能標註數據。

在這裏插入圖片描述

開發者登錄百度EasyDL專業版平臺後,僅需三步即可使用文本智能標註能力,完成對相關數據集的標註過程:

1、準備好待標註的大規模數據集,並且對少量的數據進行人工標註(已標註數據需大於600條);
2、在EasyDL專業版創建並導入數據集,啓動智能標註過程;

在這裏插入圖片描述
3、獲得智能標註數據,進行人工校驗和確認並決定是否進入優化標註流程,如進入優化標註流程,平臺將提供至多300條的優先校驗樣本,優先校驗樣本是平臺挑選的機器較難確認的樣本,同時也是對提升智能標註準確率最有幫助的樣本。
在這裏插入圖片描述
完成文本智能標註後,開發者即可進行後續的模型訓練。

EasyDL藉助百度NLP技術推出的文本智能標註能力,可以幫助企業與開發者大幅降低數據標註的成本,同時有效提升NLP模型訓練的效果。下一步,EasyDL平臺還將繼續支持更多NLP任務的數據智能標註,進一步助力企業開發者提升業務效率,將更高效的AI能力滲透到更多行業之中。
更多詳細的使用細節,可詳見文本智能標註的使用說明:https://ai.baidu.com/ai-doc/EASYDL/Wk8jtpoxt

目前,EasyDL平臺靈活高效的NLP模型定製開發功能,已廣泛服務於傳媒、金融、醫療等多個行業,助力多家企業完成業務的智能化轉型,大幅提升了企業的業務效率,助力企業邁向智能經濟時代。後續,EasyDL平臺將推出更多NLP開發能力,讓更多的企業及開發者方便快捷地應用NLP技術,以強大的技術能力賦能各行各業。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章