直播實錄|百度大腦EasyDL是如何幫助NLP文本提升標註效率的?又如何進行復雜文本分類的?

百度大腦EasyDL是如何幫助NLP文本分類用戶提升標註效率的?業界領先的文本分類智能標註產品效果如何?在百度產品經理夜巡的帶領下,你將會學習到EasyDL專業版文本分類模型最新上線的智能標註功能的具體解析,並且爲你展示具體操作步驟。知識密集型企業如何利用AI能力快速進行海量複雜文本分類?5小時的模型訓練,能否實現200萬條數據的快速分類?北京瀚才諮詢有限公司的負責人譚笑然爲你帶來大規模數據在AI處理之下完成“結構化”。

經過這兩節課程的學習,你不僅邁出了轉型NLP專家的重要一步,更能獲得洞察行業需求與痛點的絕佳機會!錯過直播的同學,這篇嘔心瀝血整理的課程內容,千萬不要再次錯過!

第一場:如何擁有不斷學習高效標註的“AI員工”—EasyDL文本智能標註產品介紹
時間:2020年6月9日(線上)
講師:百度NLP產品經理 夜巡

【課程大綱】

  1. EasyDL平臺目前在NLP這個方向共集成了哪些能力,以及如何規劃整個產品。
  2. 文本智能標註產品介紹,目前企業當中遇到了那些數據標註的問題,文本智能標註如何解決這些問題,以及文本智能標註背後的技術原理。
  3. 通過平臺提供的典型的NLP任務和場景,如何挖掘自己業務當中的場景,如何使用EasyDL的產品模型。

EasyDL整個平臺的全景情況。目前,整個平臺提供了一站式端到端的開發服務,也就是說從數據到模型訓練到服務部署這個環節,都會提供相應的解決方案。在NLP這個方向也是兩個版本,一個是經典版的模型訓練平臺,另一個是專業版。針對經典版提供了相對比較低門檻,並且可以在零代碼的基礎上訓練文本的模型。目前可以使用的模型有文本分類,也會陸續上線文本分類多標籤的任務類型,以及情感傾向分析,文本分析,文本實體抽取。專業版可以滿足用戶自己配置一些代碼,可能有些自己開發的內容想加到預置的網絡裏,專業版平臺也是符合開發工程師的習慣。與模型訓練配套,我們也提供了數據的相關處理能力,比如說數據的管理,包括數據標註和本期着重介紹的文本智能標註。在服務部署方面也提供了發佈到雲端的API服務部署方式,再一個就是本地部署包的方式。
在這裏插入圖片描述
剛纔提到了在NLP提供的任務類型,這些任務基礎和算法都是經過百度NLP常年打磨,一篇論文又一篇論文編寫,一個技術又一個技術落地和上線。通過這些積累的技術,希望開放給整個市場內的開發者和企業,去共享我們的技術成果。
在這裏插入圖片描述
大家如果想對平臺有更加細緻的瞭解和使用需求,也可以在百度搜索EasyDL,在官網中涉及到所有全景的特點和優勢,對應的經典版和專業版也可以直接找到。
立即訪問:https://ai.baidu.com/easydl/

企業在使用NLP的定製模型時候如何集成這些AI認知能力。首先,在企業訓練一個模型,集成自己AI能力過程中,核心三個要素是什麼?目前在深度學習時期,普遍需要數據、算法和算力,針對這三個環節,平臺也是提供了對應的產品能力,比如在機器和環境準備環節,我也看到羣裏也有一些同學問到怎麼部署環境這樣的問題,其實在平臺這一側我們集成了開發環境,包括一些訓練的機器資源。在模型訓練這一環節,百度NLP這邊提供了非常高精度高性能的算法和網絡,也會在這個基礎之上允許用戶進行一些靈活編輯;部署方面也會提供性能比較好的預算框架。但在線下和企業團隊溝通過程中也發現,其實很多用都是在數據這個環節被卡住,爲什麼數據這個環節有這麼多問題?具體在數據標註過程中,文本的數據標註具體會在哪幾個問題阻礙企業應用NLP這種AI能力呢?
在這裏插入圖片描述
以金融企業智能風控業務爲例。首先,金融企業智能風控經常會爲其服務的企業做一些輿情分析和分類,在這個過程中,很多時候需要企業對這些金融企業服務的客戶進行細緻的瞭解,比如行業背景,有哪些潛在知識需要金融企業員工不斷進行了解。同時,在企業數據標註的過程中,有一些經典常見的流程。

我這邊列了一下,目前瞭解到企業當中去標註數據的時候,經常做的這麼幾個管理流程,第一部分就是需要業務經理確定一下整個標註體系,所謂標註體系就是我這個標籤是什麼,每一個業務它需要抽象出一個標籤,標籤與標籤之間有一定的對應關係,這就是它的標註體系。完成這個標註體系建立,就需要召集一部分標註人員,這部分標註人員是需要在業務經理標註體系下學習怎麼標註,標註的一些概念。完成培訓以後,標註人員就需要拿到一些帶標註數據進行嘗試,試標註,這個過程主要是爲了後續在進行大規模標註過程中,避免一些重複的標註或者是反標。比如說在業務經理標註的體系當中有一些標註標籤有一些歧義或者錯誤,需要在試標註期間指出,同時標註人員需要在試標註過程中,需要反饋給業務經理,這個標註標籤是不是符合業務現狀,不能說抽象出來的這些標籤標註體系就直接使用了。在完成試標註以後,可以進行大規模的標註了,比如完成一個萬級別或者十萬級別數據標註的內容。

在這個過程中,我們發現有這麼幾個問題。首先,需要對標註人員有不同程度的專業要求。爲什麼會存在這個要求呢?還是回到金融企業智能風控業務當中,如果企業服務的客戶是化工企業的客戶,這個客戶對應的企業輿情的文章,對它是正向還是負向,這個文章提到哪些點,是需要標註人員瞭解的,如果是這樣的話,我們標註人員需要對他所在的業務,比如服務的化工企業,需要了解它的專業背景,如果是這樣子的話,在培訓的過程中,除了標註體系培訓,還需要培訓每個標註體系,每個標註標籤背後的專業知識和概念,這樣很大程度上都會讓這些標註人員有一定的學習門檻。
在這裏插入圖片描述
假設我們已經解決了培訓的問題,花了一週時間,每一個標註人員都瞭解了標註標籤了,就一定能很好地標註嗎?這個恐怕還不行。在標註的時候,很多時候我們都會發現,標註標籤理解因人而異,人工進行大規模標註的效果無法得到保障。因爲文本的數據標註是屬於認知層的範疇。相對圖像來說,圖像是感知層,圖像顯示是貓狗就有明確答案,文本就很難有非常直觀的感受。大家可以看下面的例子。比如這句話,“有兩種人不談戀愛,一種是誰都看不上,另一種是誰都看不上”。如果是你第一次聽這句話,如果馬上反應過來這句話講的什麼意思,那是很厲害的。但是很多時候理解這句話的過程中,有一定閱讀理解的時間。所以我們在文本標註的時候,很多時候都會產生因人而異的問題。
在這裏插入圖片描述
解決這個問題,一般企業都會採用背對背標註的方案,什麼是背對背呢,也就是說我們採用兩到三個標註人員同時對一萬條標註數據進行標註,標註的時候對同一條樣本有三到兩個標註人員同時標註,如果他們共同標註都是標註了A標籤,這個標註樣本可以認爲是相對確定的樣本,如果其中一個人員標註了B,其他人員標註了A,說明就存在歧義,需要質檢人員及時出現,告訴他們如何確定這個樣本,到底是標籤A還是標籤B。如果是以這種標註方法的話,我們可以看出來效率比較低,假如說有十萬條樣本可以標註,採用四個人同時標註十萬條樣本,如果想提升這個效率,每個人評分,四個人評分十萬條,大概在兩萬五千條左右,雖然效率和時間提升上來了,肯定會導致質量有一定的下降,這個問題上也是屬於常見的數據標註過程中的人力問題。

針對人力問題可以看出來,數據標註人力欠缺導致標註時間週期非常長,訓練數據準備過程中,時間的長和不確定性,導致整體業務進度也會受阻。如果大家有參與過標註,或者說公司裏有這個業務使用這個文本的模型運用到自己業務當中,很多時候可能都會兼職做一些標註工作。就像我們這個場景當中,這個負責人被安排了一個工作,需要在規定的時間點達成十萬數據的標註量,他需要找一些標註人員共同協助他完成標註任務。他通常會怎麼做呢,比如說他會看一下運營的同事,問一下,我昨天給運營同事買過了一杯咖啡,今天找他幫忙應該沒有問題,又找到了PM同學,平常他們提的需求我都一定滿足,這次我給他提需求也應該沒有問題。這個負責人又看到了研發,研發同學正在快馬加鞭編碼,負責人想可能研發人員平常都會非常給力的支持,在這個問題上應該不會有什麼異議,也是確定了,目前確定了三個人。我又想爲了減少時間標註週期,找更多人一起標註,望向老闆的時候,可能老闆也在望向他,就會問他,你哪來的勇氣找我幫你標註。如果是解決這些問題,我們如何幫助這個數據標註負責人搞定這三個問題呢,我們現在就要開始着重介紹一下EasyDL平臺最近推出的文本智能標註產品。
在這裏插入圖片描述
爲什麼說文本智能標註產品能夠很大程度上降低人力成本,提升整個標註效率呢,它在之前提到的三個問題上是怎麼解決的呢?我先通過這一頁給大家簡單介紹一下文本智能標註它是如何進行的,整個流程是怎樣的。
在這裏插入圖片描述
首先,假如說我是這個頁面當中的用戶,我需要根據平臺的要求提交一部分數據,一部分是人工標註數據,需要超過六百條,另一部分是我需要標註的被標註數據,比如剛纔任務場景裏需要標註十萬條未標註數據,就把對應這兩類數據提交到平臺上。提交文本智能標註的任務,通過文本智能標註對未標註數據進行標註,標註完成以後就會看到後面那個地方得出了智能標註的結果。那麼這個文本智能標註它一定會正確嗎?跟人工相比並不能說它完全能夠比人工的數據標註的更準確吧?確實如此,我們只能說智能標註結果存在一定準確率,我們也會把這些準確率給每一位用戶展示。同時我們也提供了一個出口,也就是說智能標註數據可以拿來做什麼用。再下一步就是模型訓練這個環節,我們使用智能標註數據可以直接拿來做模型標註訓練,爲什麼不應該對十萬條樣本進行人工校驗以後再進行模型訓練呢?不知道大家是否瞭解文本模型的蒸餾這個概念,這套技術目前是在深度學習當中常見的學習方法。原理是什麼呢,簡單介紹一下,主要是通過一些大的模型學習的文本特點,標註了一些大規模的數據以後,再將這些特徵應用到這個小的模型上,就誕生了這應用的方法。在這個環節,稍候我也會通過一些演示告訴大家如何使用。

剛纔提到智能標註數據還有另一個出口,是什麼呢,平臺上提供了一個優先校驗樣本的能力,剛剛提到有十萬條未標註數據需要校驗,如果純人工做十萬條校驗,雖然能夠稍稍減輕一部分標註的工作量,但其實還是存在大量的人工的成本。爲了解決這一問題,EasyDL 的文本智能標註可以從十萬條智能標註數據挑出一些優先校驗的樣本返回給用戶,用戶可以對這些樣本進行人工校驗。這些樣本是屬於機器覺得標註的時候既可能屬於A標籤,也有可能屬於B標籤,它無法決定,偏向A標籤概率更高一些,就標註了A標籤,但是它更希望有人進行校驗的過程,來幫它確認是不是真正的是A,還是標錯了,幫助它進行持續的糾錯和學習。

在這個過程中也會不斷去優化和迭代整個文本智能標註背後的標註能力,我們提供了第一批十萬條,後續每天或者每週可以不斷提供未標註數據,通過文本智能標註產品不斷的進行智能標註。同時可以通過優化智能標註的流程,不斷地去提升文本智能標註它的智能標註準確率,這樣的話人工參與的成本或次數會越來越少。

剛剛說了文本智能標註整個使用流程,我們回顧一下之前看的企業當中三個典型問題,看看EasyDL 的文本智能標註功能是如何進行解決的。

  1. 對人員有不同的專業要求
  • 智能標註只需提交少量標註樣本,即可完成對大規模數據的標註
  1. 對標註標準的理解因人而異,人工大規模標註效果無法保證
  • 智能標註僅學習訓練數據的文本字符的向量化特徵,客觀科學
  1. 數據標註的時間週期長,訓練數據的準備影響整體業務的進度
  • 文本智能標註,僅在2-3小時內即可完成數萬條未標註數據的標註,且提供優化智能標註數據的產品功能。
    在這裏插入圖片描述
    站在文本智能標註背後的技術,ERNIE2.0。我給大家介紹一下什麼是持續學習的語義理解框架,就是ERNIE。首先就是這個左側部分,ERNIE是不斷通過學習人類的知識,結合一些典型的常見的NLP的任務,不斷的去學習這部分的知識,這些海量知識包括了1500萬百科語料或者詞語,實體知識,還有人類對話的知識,文章的因果結構的知識,還有搜索查詢的結果句對知識,還有語言蘊含的關係知識。這些知識在ERNIE已經完成了學習,但是它並僅僅限於此,它持續學習的框架還在不斷學習,截止到現在它還是在不斷拿到新數據,去學習我們人類的知識。在這個過程中,我們也是希望把我們比較強大的ERNIE持續學習的語義理解框架,通過一些產品的方法,讓企業能夠站在我們積累的海量的大數據能力之上應用NLP的模型能力。對應這個持續學習的語義理解框架ERNIE,如果大家想了解更細節的,或者想看一下ERNIE對應的論文或者是開源代碼,可以上百度搜索ERNIE開源,就可以找到相應的鏈接。
    在這裏插入圖片描述
    在ERNIE一些效果層面我們也做過很多評比,這個列表當中列出了關於在很多重要的國際級別的重要的比賽當中,ERNIE在一些常規數據集表現效果。我們在ERNIE效果上與BERT相比,評估提升了兩個點。百度又對ERNIE增加了三倍參數的量,完成了ERNIE LARGE更大的模型,這個ERNIE LARGE也是文本智能標註核心應用的技術。所以說我們總結來說,ERNIE應該是目前擁有業界比較好的模型算法,更懂中文的語義理解框架。

不管是產品和技術我們邀請了一些用戶做了一些測試和反饋,不管是標註過程還是優化的流程和模型訓練的過程,都得到了一些用戶一些比較好的反饋。大家看到這裏覺得是不是這個智能標註產品該如何使用呢,它具體是什麼樣的,下面進入到實操的環節。
在這裏插入圖片描述
我會通過一些數據集還有演示告訴大家如何去訓練和使用一個文本智能標註,以及使用文本智能標註的智能標註數據怎麼訓練一個模型。數據集也會通過羣裏發送給大家,大家可以下載演示數據集,可以自己體驗一下,對應的鏈接就是通過這個頁面的鏈接進入到平臺裏。
立即訪問:https://ai.baidu.com/easydl/

創建數據集之後,找到文本智能標註,創建智能標註任務,在這裏選擇剛創建的智能標註數據集,完成以後啓動,它就進入到了校驗的環節。進入校驗環節以後,在智能標註狀態裏會變成數據校驗中,如果校驗完成以後會直接進入文本智能標註的學習狀態或者智能標註狀態,最終會到達已完成狀態。對智能標註進行校驗時,系統會自動篩選出了300條優先校驗的樣本,這300條當中,重新當完成100條的標註時,可以進入到下一輪啓動效果提升。
在這裏插入圖片描述
最後,通過目前平臺提供三個典型任務給大家說明一下NLP的任務在日常的生活當中或者業務當中,我們如何去應用,如何找到對應的應用場景。

首先我們看第一個媒體的場景,比如說手機百度,我們在使用手機百度時候除了搜索之外,可以看一些新聞的內容,可以看到有一些頻道,小說、健康、科技、娛樂等頻道,如何從全網裏或者是各個網站導流進來的文章做分類?其實就可以應用到文本分類的模型。首先這邊遵從這四個步驟,比如目標分析,我們看一下我們需要對拿到的數據、文章做一個頻道的分類,也就是說對文章做一個分類。在特徵選擇過程中我們應該選擇哪個特徵,首先可以看到,新聞的標題很多情況下都能夠反映出這個文章的主題,所以我們就直接選擇文章的標題作爲訓練數據,訓練完這個就按照之前說的,確認這個標題對應的標籤,比如說它是科技、娛樂還是健康的。我們準備數據,完成模型的訓練,再做模型的小流樣上線,之後看一下具體有一些案例,再做數據集的添加,這樣可以不斷優化我們的效果,通過這四個步驟可以很容易訓練出一個文本分類的模型。
在這裏插入圖片描述
第二個場景是目前使用廣泛的AI智能問答場景。例如智能客服、智能的故事機。這個過程背後核心技術就是這個文本匹配的模型。在文本匹配模型聽起來比較抽象,我通過一個現實世界的例子給大家介紹一下在業務場景怎麼應用。我們可以將文本匹配模型看成一個磁鐵,當用戶產生一個輸入,“什麼是天津省內的流量”,我們通過這個磁鐵逐一看一下侯選的知識內容,它的對應值是什麼,值是多少。請問省內流量是怎麼回事,這個有相對比較高的數值,這個問題對應的答案可以解答這個問題,文本相似度的模型就在這個過程中起到了它的作用。如果在知識問答中可以使用,其他的場景還有什麼,比如在業務當中很多時候需要對離線數據做知識庫構建或聚類,也可以通過這種方式做。同時也有站內的搜索,比如我想像百度搜索框一樣,直接提供答案。
在這裏插入圖片描述
最後一個就是序列標註的任務,就是將文本看成一串序列,對序列字符進行標註,稱之爲序列標註,常見的應用就是快遞地址的關鍵信息進行抽取,比如這裏可以看到張三,電話號碼,最後一個地址,我們把對應字段抽取出來就完成了序列標註的內容。序列標註其他的應用場景,我們在線下交流過程當中有很多的業務,一些公司也會應用到這個場景。你可以回想一下甲方或者客戶那是不是也有這種場景,比如對一些財經文章抽取一些關鍵信息,進行結構化的錄入,包括醫療專有名詞的錄入,這些場景是非常有商業潛力的,很多時候在AI落地的過程中,其實一些大型的國企或者政府企業會優先嚐試這些能力,這個時候就誕生了一些訂單,如果你回想出來自己的甲方或者客戶已經有這種場景,但是還沒有應用這種能力,就可以試一試在EasyDL智能標註的任務場景去構建一些模型。其他的場景,比如內容審覈場景,都是對關鍵詞識別以後進行的識別。
在這裏插入圖片描述
課程首先介紹了EasyDL在NLP方向的產品全景、之後介紹了一些文本智能標註的原理、應用和問題,以及對應的實操,最後介紹了一些NLP的任務應用場景是怎麼做的,我們後續平臺不管是經典版還是專業版都會陸續上線很多任務,大家可以後續可以持續關注。
在這裏插入圖片描述
在這裏插入圖片描述

第二場:主題:通過EasyDL爲獵頭企業實現複雜文本分類
時間:2020年6月10日(線上)
講師:北京瀚才諮詢有限公司負責人 譚笑然

【課程大綱】

  1. 獵頭行業現狀及痛點介紹
    知識密集型行業如何將“專家”的經驗賦能行業新人
  2. 如何使用EasyDL進行復雜文本分類
    使用EasyDL進行復雜文本分類的方案介紹
    使用EasyDL專業版定製模型的三個核心關注點
    EasyDL模型訓練和部署實踐演示

先簡單給大家舉個例子,讓大家對獵頭行業有初步認識,與知識服務業、商務服務業或者知識密集型產業目前面臨的問題。

大家可以看下面這個例子,獵頭行業會遇到一個問題:招聘過程中,同一個行業內不同的企業會採用不同的職級序列,以互聯網爲例,比如同樣是年薪在30到50萬的工程師崗位,可能阿里巴巴是P6級別,騰訊是T3.1,之後叫9級,華爲叫T16,京東叫T6,這只是舉個例子,可能內部會有不同的職級序列。而且,同一個職級序列,阿里巴巴有的叫工程師,或是專家,會有各種名字。在獵頭招聘過程中就會面臨一個從業者需要有足夠長的時間,來積累行業經驗,這樣才能給到我們客戶或者候選人提供全面的顧問服務。目前情況下,獵頭行業目前變得門檻越來越低,大量應屆生或者沒有行業經驗的人進入到這個行業,我們作爲企業管理者或者團隊領導人,需要賦能給這些新進入行業的小白。以前的言傳帶教在目前技術背景下變得越來越低效率,在這樣的背景下,我們想到了EasyDL這個產品。
在這裏插入圖片描述
因爲我是做房地產行業的,通過我們行業的例子給大家說一下,可能同樣的行業標準,但其中會有非常大的行業區別。比如大家看左邊這兩個,一個叫中梁地產杭甬事業部總經理,一個是華潤地產華南事業部總經理,看名字來講叫事業部總經理,類似於同樣的職位,但是實際上在我們業務中,因爲兩家公司採用了不同的職級序列,不同的職位叫法,不同的組織架構,導致了右側這個區別,中梁事業部總經理負責一到兩個項目,最多三到四個,管理的項目貨值10億或20億,他是年薪100萬左右的職業經理人。同樣叫事業部總經理,華潤地產,因爲它是央企,全國只分了6個事業部,華南事業部總經理下轄就有6個城市公司,將近40個項目,管理項目貨值超過200億,這個人如果按行政級別來算,他是央企副廳級幹部,同樣兩個事業部的負責人,在業務上就有比較大的差距。
在這裏插入圖片描述
通過EasyDL大家可以看這一部分,組織分類,智能分類和職級分類,這是我用EasyDL針對地產這個行業做的三個模型,通過這三個模型我就可以把原始語料經過模型的處理,最後變成結構化的標籤,新入職員工可以通過這些標籤就可以非常清晰地瞭解到具體崗位,通過EasyDL進行AI賦能,使我們的數據能夠更容易解讀出來,解決獵頭行業的一大痛點。
在這裏插入圖片描述
EasyDL的能力,我們可以通過EasyDL定製一個模型,這個模型是通過行業的通用的標準加上從業人員的專家經驗,能夠非常低成本、高效率制定出來這個模型,這個模型可以套用到許多的業務場景中的文本信息。之前我給百度錄過一個小的VCR,這個VCR中提到,之前有將近200萬條關於候選人的數據,這是我們在將近20年從業中積累下來的信息,這些信息如果我們單純靠人工進行標註的話,可能5個人的團隊要標註10年左右標完,但是藉助EasyDL的能力,最後一個版本這200萬條數據大概經過了5個小時左右,就把這3個模型分類進行了結構化的標註,所以說不管是人工智能還是EasyDL,在我們實際業務的應用中真的起到了非常大的效率。

下面舉一個具體的例子,大家可以仔細看一下,這也是一會實操的例子。這個例子可能和我們獵頭行業或者地產行業的關係就不大了,因爲之前也和百度的同學溝通過,今天聽課的大部分是在校學生,所以我就找了一個大學專業作爲一個例子。

這個例子舉的是材料工程專業,這個專業據我在百度上查到的信息,全國有200多所高校開設這個專業。這個專業其實相對來說是比較偏門的行業,以至於它並不是像咱們所認知的,比如985是最強梯隊,然後是211,然後是一本,然後是普通本科,因爲這是相對冷門的專業,在教育不對各個專業有學科評估的,舉個例子,武大985、211,是國內知名大學,昆明理工只是普通本科,但是教育部把它分爲B類,武漢大學被分爲B-類。這個說明什麼,說明在產業或者業務應用中一些普適的標準並不能符合實際業務場景的標準,我們就可以通過EasyDL的能力,重新制定一個符合業務需求的標準。
在這裏插入圖片描述
除了院校還有一個專業,材料類是一個大專業方向,其中教育部分了下面11個小專業,左邊是教育部的分類,右邊是部分高校對於材料類專業的叫法。舉個例子,比如我是一家公司的招聘人員,老闆說我需要一個學歷優秀的人,這個學歷可能在材料類的專業中並不是清華北大就是最好的。大家可以看A類裏並沒有北京大學,可能在後邊某一個地方,985、211這樣的一本,並不是老闆說的學歷好的規則,所以我需要重新設定一個新的規則。前面200多所學校大家可以通過一些代碼或者規則進行操作,但是到了專業,可能僅僅靠代碼或者靠規則就很難完成這麼大量複雜的綜合,這個專業一共有30多個,學校有200多所,如果你們要用規則和代碼做,我在行外人想着可能相對比較複雜。
在這裏插入圖片描述
我再把這個事情加一個難度,可能這只是部分高校開設材料類專業的名稱,還有很多材料類的專業名稱並沒有收錄在這裏,遇到了這樣的簡歷,比如說我自己虛擬了一個專業叫再生納米生物材料,這大體上是某一高校材料專業的名稱,但是它並不存在於這些語料裏,那怎麼辦,咱們規則也好,代碼也好,程序也好,很可能大概率無法對這個專業進行正確的判定。我把剛纔看到的這90多所學校以及這30多個專業作爲語料放在EasyDL模型裏訓練出了三個標籤,這三個標籤就是ABC三個標籤,A類院校是指屏幕上看到左邊的,B標籤的院校,加上學科的名稱作爲訓練的語料,C標籤就是除了AB兩類,其他全國有900多所本科類院校,加上教育部擬定112個二級專業名稱,作爲C類標籤進行訓練,一共做了一萬五千條訓練數據,經過不到一個小時的訓練,我獲得了EasyDL文本分類的模型,這個模型在我前期已經做了驗證,比如說我拿驗證的文本是鄭州大學材料科學與工程,大家可以看到它屬於材料類專業,鄭州大學屬於B+的學校,它預測出來就是A類的標籤,和A類標籤的原始信息以及我希望達成的效果是一致的。又找了一個哈爾濱理工大學的材料工程,它是符合B類標籤的規則,它在C+這個欄目裏,它也準確地預測出來了它是B類的標籤,C類我是拿湖南師範大學心理學進行預測,它不是材料專業,最後進入到了C類標籤,最後我拿模擬出來的專業再生納米生物材料,加上河北工業大學,河北工業大學是A類院校,加上擬定出來的並不屬於30個原始語料裏的專業,但是它依然有一個99.96%的置信度結果,結果是A類的標籤,所以說明EasyDL在處理這種非結構化,沒有規律的,甚至需要靠人類思維,預估,模擬思維才能出來的結果上,還是表現的比較好的。

之後是一個常規用EasyDL定製文本分類模型的簡單方案。首先是數據清洗流程,其次是數據標註過程,之後會訓練出一個最初版本的模型,這個模型如果想要在業務上應用落地,它是需要大量的驗證的過程,最後迭代出若干個版本,最後某一個版本才能滿足你業務上的需要。最後通過你的可用的模型,再來套用工作中或者實際應用場景中需要進行分類的數據,最後得出來一個結構化的的結果。
在這裏插入圖片描述
後頭這兩頁因爲也沒有圖了,相對可能比較枯燥,我簡單說一下我們在做EasyDL的模型過程中遇到的困難。我們基本上是從2019年10月份開始瞭解到EasyDL這個產品,最開始用的也是經典版,但是經典版的準確率確實不太能滿足我們業務需求,之後從元旦前後測試使用專業版文本分類,大概在3月份,春節之後我們迭代了大概有8個版本,最後才把這個模型訓練到基本符合我們業務需求的準確性。

剛纔舉學校和專業的例子,這其實只是例子,可能我們業務場景中會更復雜,因爲我們公司一定不會只招材料工程類的專業,我們可能有十個或者二十個專業方向,有的是word、excel、pdf或者圖片,甚至面試時候有各種類型的錄音,這種首先要進行數據清洗,才能作爲文本分類使用,這個數據清洗,圖片類的我們使用了百度AI平臺上的OCR的功能,有一些表格OCR,高精度OCR,自定義模板OCR,在數據清洗上起到了非常大的幫助,以及pdf版本文件,可能需要通過一些其他的軟件轉換格式,以及一些音頻文件也是用了科大訊飛的接口轉換成文字,所有的語料都要先轉換成文字,也就是說我這邊提到的數據的數字化,這樣咱們才能進行下一步操作。

轉換成文字之後,需要通過各種NLP工具進行關鍵信息的分離、詞法分析,向量分析,就是各種結構化的分類,我舉個例子,可能我這邊一條數據是十年前的數據,張三,手機號,萬科地產湖南區域公司長沙事業部河西片區項目公司的工程總監,後面夾雜着他的年齡、學歷、婚否,以及在這家公司任職時長,非常冗餘的信息,但是實際上我只需要判定他的職位,我需要訓練的模型是關於候選人職級的模型,我就需要把他的公司信息、電話號碼、婚否、教育背景這些信息剔除掉,把關鍵信息留存出來,把數據結構化,把你要做訓練模型的信息挑出來,這樣才能保證你的模型訓練有效。如果數據複雜、冗餘信息臺多,模型很難抽取中最關鍵的點,模型訓練時間會非常長,效果也難以得到保證。所以數據清洗是非常重要的工作。另外,模糊數據的剔除,因爲可能在實操的場景中,會有一些數據,即便人工、行業專家也無法給出明確分類,這些數據會像老鼠屎一樣污染整個模型,使整個模型分類的置信度有一個比較大的降低,所以這也是我們經過了兩三個版本迭代以後發現的問題,所以我們人工將一些可能是A可能是B,這樣的語料分出來了。在訓練模型的語料中抽離出來,使得模型的準確率有一定程度的提升,這是關於數據的清洗。
在這裏插入圖片描述
下面就是數據的標註,因爲當時我二三月份在做這個模型的時候,還沒有上線文本分類的智能標註功能,所以我們標註的流程上也確實下了很大的工夫,現在有了智能標註的功能,我覺得前兩條不會有太大的工作量,我前兩天試了一下,準確率還是比較高的,在不是特別複雜的應用場景下準確率還是比較高的。如果大家有一些非常複雜的應用場景,給大家舉個例子,這是我做候選人職級這個模型其中一個標籤,我應該做了有幾萬行吧,四萬多行。大家可以看一下這個數據的複雜程度吧,因爲沒有對比,我自認爲覺得還是比較複雜,針對相對比較複雜的數據,我的建議是一定要小批量的,高頻率去人工標註你的數據。因爲我們應用中出現了一個問題,我人工標了五萬條數據,但是放到模型中參與訓練,實際上只用了五千條數據,之這是有的。人工一條標註就要8分錢,我標註四萬條這都是成本,以及你這個版本標註的數據並不一定滿足模型的需求,可能你分類的規則還要調,所以說大家一定要先把你的分類確定之後再進行大規模的標註數據。在分類完全敲定之前,要小步快跑,一點點來,不要一下標註太大量數據,第一可能用不上,第二成本可能很高。以及第二點,人工標註中,一般都不是一個人標註,如果有多人標註,這個規則一定要清晰明瞭,因爲當時我們用自己的人工標註了一部分,還有一部分是外包的,外包可能也花了一些錢,但是由於我們並沒有給出足夠容易理解的標準,導致花的幾萬塊錢標註出來的數據是用不了的。大家如果有需求進行人工標註的話,給大家提一個醒,不要花冤枉錢。
在這裏插入圖片描述
之後就是訓練模型,一會有一個實操的演練。模型訓練以後就是模型驗證的工作,首先平臺會提供模型的驗證報告,它會給出各個分類的精準值。從我這邊實際的經驗來講,可能不一定準,可能這只是符合我自己的實際經驗,到其他行業和場景可能不應用了,如果準確值低於90%這就是非常不準的模型,可能需要重新分類或者看分類數據是不是有問題。基本上到95%是屬於可以使用的模型,我們迭代到最後兩三個版本,它的準確率基本上能達到99%,所以如果專業版準確度沒有95%以上,基本上你這個模型就是失敗的模型。可能98、99%的模型做出來以後,其實在業務中還是需要進行第二次驗證,將驗證出來可能有錯誤的數據再重新收集,重新人工再打或者分類,重新投入到模型訓練的語料中,重新訓練,這樣這個模型的準確度,在複雜場景下模型的準確度能從98%提升到99.5%以上,基本上這就是模型驗證。
在這裏插入圖片描述
另外,效果校驗功能,支持手動輸入一些你想要校驗的信息,它右邊有識別結果和準確率,大家可以驗證這個信息是否準確。

在文本分類,在一些相對比較複雜的場景下的文本分類上還是能起到一些,通過代碼或者通過規則,通過關鍵字很難、勞動量很大才能達到的事情,通過這個EasyDL這個模型讓我一個學考古學的人,通過幾個小時的模型的訓練,就可以得到一個能夠應用於業務場景中的模型。
在這裏插入圖片描述
隨着NLP專場課程的結束,本次EasyDL產業應用系列直播課也告一段落。在這一個月中,EasyDL爲大家帶來了四個專題:質檢專題、安全生產專題、Nvidia專場、信息智能處理CV與NLP專場。針對不同行業的需求,課程並非僅僅從產品層面單純講解產品的原理與使用,更是從各領域的真實場景案例出發,邀請企業開發者,與大家分享行業的痛點與難點,並展示出在AI加持下的場景解決方制定與效果提升。

在未來,百度大腦EasyDL希望傾聽更多開發者的聲音,歡迎大家添加下方小助手的微信,告訴小助手你感興趣的AI開發內容,未來的直播課,安排上了!
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章