計算機視覺怎麼知道你在發小黃圖...

今天跟大家分享下百度團隊在前不久做的一次計算機視覺(CV)的專場分享。

本次的領域信息處理 CV 專場一共有兩節課,如何使用 EasyDL 構建互聯網內容安全方案(圖像內容審覈)和膀胱腫瘤識別模型構建與應用探索。

兩位講師分別是來自百度 AI 技術生態部的高級產品經理 Nathan 老師和武漢大學人民醫院泌尿外科博士楊瑞醫生。

通過兩節課的學習,開發者們將會學習到在短視頻、直播、論壇等互聯網應用場景的內容安全審覈方案,如何接入 AI 技術實現對人力和成本的降本增效,確保內容和運營安全,還可以學習到在醫學領域,如何嘗試訓練腫瘤識別模型,輔助人工識別判斷,以及如何將模型離線部署到醫學器材上實現離線識別。

還有申請加入 EasyDL 生態夥伴的綠色通道,(微信搜索 BaiduEasyDL 添加小助手詳細諮詢)。

本次的 EasyDL 產業應用系列直播課將在下週迎來最後一期 —— 領域信息處理 NLP 專場。在 NLP 專場中,下週二和下週三,6 月 9 號與 10 號,我們分別爲大家帶來業界領先的文本分類智能標註產品介紹,並由獵頭諮詢公司負責人爲大家講解,如何在知識密集型行業實現複雜文本分類。

對 NLP 方向感興趣的開發者一定不要錯過哦!報名請掃下方二維碼:

主題:如何使用 EasyDL 構建互聯網內容安全方案

時間:2020 年 6 月 2 日

講師:百度 AI 技術生態部高級產品經理 Nathan

【課程大綱】

1.   背景介紹:互聯網內容安全業務介紹及常見審覈現狀、AI 解決方案

2.   實戰演示:如何利用 EasyDL 定製圖像違規審覈模型

首先,關於內容審覈的定義。內容審覈範圍就是我們要對圖片、文本、語音、視頻合規性進行檢查,比如圖片像一些聊天、論壇的圖片,我們都要對它進行檢測,文本包括聊天信息、論壇貼子、彈幕、評論內容,新聞等等這些都算是文本內容。下一步是語音,包括聊天語音,還有電臺的語音都要做語音審覈。下一步是視頻,包括社交短視頻,新聞視頻,還有直播,這都屬於視頻的範疇。我們對這些多媒體類型關注維度像色情、暴恐、政治敏感、惡意推廣、低俗等,這些是我們內容審覈的含義所在。

內容審覈現在越來越成爲更多企業越來越關心的問題,首先,監管單位針對內容從 2019 年有三個專項行動:護苗、淨網、劍網。護苗就是通過線上線下措施保護青少年的安全,對互聯網短視頻內容,動畫片內容進行審覈,防止裏面有一些青少年色情的內容。線下內容像針對學校周邊的小賣部,裏面出現的兒童讀物、刊物進行審覈,所以護苗行動是覆蓋線上線下。第二是淨網行動,組織部門就是掃黃打黑辦,主要是針對黃色非法內容進行清除。第三是劍網行動,主要針對網絡侵權盜版,文章和圖片等進行審覈。同時我們 2019 年監管單位有更多完善管理規範,比如《網絡音視頻信息服務管理規定》、《未成年人節目管理規定》、《兒童個人信息網絡保護規定》、《網絡信息內容生態治理規定》,這四個規定裏有兩個都是關於未成年人和兒童的,現在打開一些短視頻 APP,視頻網站,都會有一個彈窗,是否進入青少年模式,這都是在規定裏進行的要求,比如要求動畫片裏面廣告時長等,所以我們可以看到,通過一些專項行動和完善的管理規範,現在行業管理法規越來越健全,內容安全問題成爲不管是大廠商和小廠商都在重點關注的內容。

內容審覈的現狀。除了監管單位非常關注內容審覈,其實很多互聯網多媒體類型的公司,比如一些短視頻、長視頻公司,論壇社交平臺,都有在做內容審覈工作,不過現在更多在依賴人工審覈。

完全依賴人工審覈有幾個缺點:

  1. 人工審覈效率低,一個人一天只審圖片只能是一萬張,如果圖庫或者社交類軟件,圖片量級比較大,就要僱傭很多人。

  2. 人工審覈成本非常高,像一些短視頻 APP,人工審覈團隊 1.5 萬人,這個投入基本要投入 9 億元的資金到這裏面。

  3. 被審覈的內容,人工審覈時延比較高,不像機器是一個接口,人工要有任務的分發,任務的審覈,以及任務最終返回到運營系統,整個流程都要 30 分鐘以上,所以審覈的時效性較低。

同時,監管的要求越來越細,越來越嚴格,我們拿兩個點管中窺豹,第一是《網絡音視頻信息服務管理規定》,這裏要求不得利用網絡音視頻信息傳播危害政治安全、社會穩定,淫穢色情等信息,包括侵害他人名譽權、肖像權、隱私權的信息。比如說你上傳一些明星照片這些,有一些平臺使用了明星的照片,如果沒有得到人家許可,這些都是違反了相關的管理規定的,包括這個平臺可能會傳一些謠言、色情信息都是不可以的。第二個像《未成年人節目管理規定》,第九條未成年人節目裏不得包含暴力、血腥、恐怖、教唆犯罪、吸毒、吸菸、酗酒等內容。我們簡單看兩條管理規定,我們發現管理規定不像以前一個大面,不允許有一些違規的內容,現在對違規內容的定義進行了非常細緻的規定或進行了明確。

針對不同的用戶或者同一個用戶不同的部門,審覈規則不太一樣。舉個例子,像直播業務,像男性性感、女性性感都是需要人工複審,卡通色情等等都需要人工審覈。像電視業務部,像性愛玩具,這些都是售賣的東西,還有一些男士內衣等,赤裸上身這些都算是正常的東西,它的審覈規則和剛纔我們看到的直播不太一樣。比如這個平臺還有一個論壇板塊,論壇裏有母嬰的板塊,比如出現一些兒童裸露,相對預期內的 CASE,這些複審一下,如果是正常的兒童裸露都是正常的情況,所以不同的業務部門,針對不同的審覈規則,這個是現在的現狀。

針對剛纔監管單位的審覈要求越來越細,不同的部門和不同的審覈規則,對於用戶挑選一家審覈能力比較齊全的公司或者服務商是非常高的要求。但是現在的服務商擁有的基礎審覈能力,大家通常都會具備,一些細粒度審覈能力並不是每家都有,包括自定義人臉庫,自定義審覈鬆緊度,自定義黑白名單,包括新審覈內容,敏感時期策略自動切換等等,這些能力其實都需要的,但是市面上一些服務商無法同時具備這些功能。

我們總結一下現在人工審覈遇到的問題。第一是人工審覈成本非常高、效率低、主觀性強,比如針對一張圖片到底算性感還是色情,可能不同的審覈員就有不同的標準,這個就會給後面的結果統計造成很大的負擔。第二塊是監管和業務審覈規則更新快適配難度大,如果監管的規則推陳出新,需要頻繁更改代碼調整策略,操作成本非常高。還有監管要求檢測一個新的類型,比如想實現這樣的審覈,比如客戶已經用了機器審覈,要準備大量數據訓練這個模型,對客戶來說這個成本也是非常高。還有當客戶拿到了機審結果,想和現有的人工審覈團隊結合,想要打造一個人機協同審覈系統,這個系統的構建成本難度也是非常大的。

基於剛纔我們講到這些痛點,其實我們總結一下,客戶需要的是精準、全面、靈活、高效的審覈解決方案。精準是說審覈的模型,需要機器審覈的模型足夠精準,這樣才能減少一部分人工審覈的工作量。第二是需要能力足夠全面,靈活適配,切合監管的需求,滿足越來越細化的監管要求。第三是客戶需要人審和機審管理平臺或者提升效率。基於這些需求,我們百度大腦內容審覈的願景,希望利用 AI 審覈能力幫助企業進行高效、低成本的審覈,助力內容風險管控。基於這樣一個願景,我們有兩條路徑,第一是基於百度大腦全面的 AI 技術積累,提供最領先、全面的 AI 審覈能力,憑藉廣泛的業務經驗積累,開放基於最佳實踐的人機協同的審覈管理系統。基於這樣一個願景和這兩條路徑,百度推出了兩個產品,第一是內容審覈平臺,第二是人機協同審覈管理平臺,在這兩個平臺下我們有非常多的核心能力,像圖像、文本、語音。

我們看一下百度內容審覈平臺,我們打造產品的理念是我們想要給用戶提供足夠全面的審覈能力,足夠靈活的規則配置,精準的審覈模型。全面的能力,我們監管單位的要求越來越嚴格,很多東西之前沒有需要監管,現在都需要監管,這對審覈能力全面性有一個調整。靈活就是隨着突發事件,隨着一些監管單位要求的更新,要求我們的審覈規則不能是一成不變,要求靈活進行調整。精準就是隻有精準審覈模型,才能替代人工審覈工作量,提升審覈的效率。

第一個,在我們這個平臺裏我們包含的能力是圖像審覈能力,這裏包括超過 14 項圖像審覈,像色情識別、暴恐識別、政治敏感、廣告識別等等,從圖像這些維度分析這個圖片到底是違規還是合規。這裏有一個點,有一個預製違禁圖庫,積累了多年風險處置經驗,結合監管要求實時更新,幫助很多種小客戶,前期沒有做黑庫的積累,拿不到監管要求,不知道怎麼解讀監管政策的小客戶,幫他們接入平臺以後就擁有對這塊黑庫的識別能力。同時,我們也具有非常豐富標籤的圖審能力,剛纔講到,比如色情識別,不同的客戶業務部門或者不同客戶之間就有非常大的區別的需求,百度怎麼解決的呢,我們就是將色情識別拆分爲足夠細的維度,現在拆了 20 個維度,不同的用戶,不同的業務部門就能根據自己的需求規定這些標籤,哪些標籤在我這個業務場景是屬於違規的,比如這裏有一個像兒童色情,性愛玩具等進行拆分,客戶在我這個場景裏是正常,就歸爲正常類,如果是違規就歸到違規的內容。

同時我們也提供了非常維度豐富的文本審覈服務,超過 8 項能力,包括文本色情、暴恐違禁、政治敏感、惡意推廣廣告、低俗辱罵、低質灌水內容。首先會過一下預製詞庫,如果沒有命中,我們也會過用戶自己的黑白名單,也就是說用戶可以在我們平臺上自己創建文本黑白名單,如果都沒有命中,就過我們計算模型,最後輸出一個結果給客戶,這是我們的文本審覈能力。

語音審覈能力,一段語音過來我們會拆成兩部分,第一部分是語音的內容,我們就會把這個語音先經過百度的語音審覈,加上文字的信息,文字再過去,過我們的文字審覈。第二是聲音內容,像嬌喘聲等無法轉換成文字,這些有專門的交換聲識別模型,幫助用戶做嬌喘模型,過了語音識別和文本審覈,我們最終會結合這兩塊的審覈信息,給到用戶最終的審覈結果。

肯定有用戶說百度已經提供了這些模型,最全的圖像、文本、語音審覈模型,還有一些特殊業務審覈需求怎麼辦,比如在用戶的場景裏要審覈一些緊急剎車聲、槍擊聲怎麼辦,我們提供了一套 EasyDL 平臺,它是一個支持圖像、文本、視頻、音頻數據的零門檻 AI 開發平臺。比如我們需要訓練一個直播裏,這個主播是在汽車內直播還是汽車外直播,識別這樣的場景,客戶只要準備汽車內的圖片十幾張,汽車外的圖片十幾張,就能檢測是否在汽車內直播的模型,客戶如果想設計一個槍擊聲識別,某個聲類準備數十秒的音頻數據,丟到 EasyDL 平臺裏,就可以定製一個自主聲音審覈模型,非常方便。

EasyDL 這裏是面向企業級開發者提供全流程的零門檻一站式的平臺方案。包括前端的 EasyData 數據智能服務平臺,也就是說客戶如果想訓練一個模型,但是缺乏訓練這個模型所需要的數據,或者說標註平臺,可以使用 EasyData 解決數據的採集,標註機器擴充的功能,訓練出模型以後,通過彈性託管雲服務進行波束,或者是生成端上的模型,生成私有化模型都可以。

EasyDL 還推出了幾個版本,我們知道客戶拿幾十張圖片訓練一個模型,剛訓練第一個模型或者直接把圖片丟進 EasyDL 平臺裏,過十幾分鍾能獲得達到 90% 準確率的模型,我們知道 90% 準確率對大部分用戶是夠用的,可以進行商業化,但是對於一部分客戶來說需要更高的準確率,可能需要 95%,98% 的準確率才能進行商業化的使用,所以我們對 EasyDL 也進行了兩個版本的區分。剛纔如果有部分客戶需要 90% 準確率就可以的,可以使用普通版,EasyDL 基礎版,針對零基礎開發經驗的程序員或者技術人員是比較好的。如果針對本身具有深度學習基礎的審覈研發人員,就可以使用 EasyDL 專業版,我們提供了更多模型訓練過程中的參數,能讓用戶進行調整,打造準確率更高的審覈模型。

EasyDL 平臺有四個特性,第一是可即用,整個訓練模型的步驟共四步,非常快,比如你使用 EasyDL 基礎版,你不需要任何深度學習的基礎,整個過程都是界面化操作。第二是更輕快,通過算法語工程優化,平均訓練耗時小於 15 分鐘。第三是高精度,超過分之二的模型,top1 準確率達到 90%,並且提供強安全措施,數據加密和隔離,完善的服務健全,幫助客戶對模型和數據進行監管和加密,包括我們訓練出的模型用戶可以進行私有化部署,這樣不用太擔心數據的問題。

EasyDL 訓練簡單四步,最快五分鐘就可以獲得定製內容,第一個就是創建數據集,第二是訓練模型,第三校驗模型是否達到預期,第四步發佈上線。同時我們 EasyDL 有數據支持,我們也希望有數據、或擁有數據標註能力的夥伴成爲我們的合作伙伴,幫助我們更多 EasyDL 的用戶提供更加全面的數據採集,數據標註的服務,幫助他們獲得更高質量的訓練數據。

講了這麼多,我們進行一個演示,我們看怎麼使用 EasyDL 去自主定製歐美色情的識別模型。大家要用 EasyDL 從哪裏進去,首先登錄我們的官網,進來以後找到第二個標籤開發平臺,我們點擊 EasyDL 經典版,打開以後進到產品的介紹頁面,這裏講了一下一共有哪些功能,圖像分類,物體檢測,圖像分割,文本分類等等,比如在內容審覈場景,什麼時候訓練圖像分類模型,什麼時候訓練物體檢測模型。圖像分類更多的是對場景的判斷,比如剛纔講到分辨它是否是在車內直播,建議大家使用圖像分類,或者說在戶外直播,用圖像分類。物體檢測,比如我們定義了一個違規的雕塑,違規的旗幟,違規的勳章,我們想看圖片裏有沒有具體這個東西,我們訓練的是物體檢測的模型,像剛纔講到是不是在車內直播,其實車內直播拍攝角度很多,但是我們一眼看上去就知道在車內,像這種適合用圖像分類。

百度的內容審覈方案就是通過百度預製全面審覈,包括圖像、文本、語音,長短視頻的審覈能力盡可能滿足客戶的需求。同時針對客戶特殊的需求,我們通過用戶自訓練平臺,通過 EasyDL 平臺讓用戶自己訓練這樣的模型,來滿足客戶的需求。所以我們看一下具體到我們這個平臺裏怎麼操作的。

除了剛纔講到全面審覈能力以外,我們還提供了一些自定義的庫的能力,比如自定義黑白名單,自定義圖像和文本黑白名單,可以上傳一些自己想攔截的人臉和圖像的黑白名單。最後提供了審覈策略自動切換的功能,很多客戶需要在特殊敏感時期切換線上策略,比如審覈更加嚴格等等這些,我們通過一個賬號上面配置多條策略,不同策略我們可以看一下生效狀態,還有生效時間,優先級,是現在特殊時期切換特殊策略,過了以後切換回平時審覈的功能。

我們回顧一下,百度的審覈能力主打是全面、靈活、精準、全面。百度提供了超過 14 項圖像審覈能力,以及我們也提供了 EasyDL 定製圖像審覈能力的平臺,我們提供了 8 項圖像審覈能力,語音提供了超過 9 項能力,語音也是可以通過 EasyDL 進行新的篩選審覈模型做一些分類,在這些能力之上,我們提供了快捷易用的接入方式,以及靈活方便的審覈規則配置,所有的審覈維度,審覈標籤,審覈鬆緊度都可以實現。

其實基於剛纔的審覈能力,客戶對成本的控制是沒有上限的,他們希望通過其他的方式進一步提升審覈效率,降低審覈成本。第一個是需要一套功能更加完備的審覈管理系統,提升審覈管理效率,第二是提高審覈人員的人效,所以我們提供了百度人機協同審覈管理平臺,我們通過合理的流程,易用的操作界面,進一步提升審覈效率,同時我們直接提供了這樣的平臺,省去開發人機協同審覈平臺的成本或者審覈後臺的成本。

首先我們這個平臺對用戶來說是登錄即可使用,也是類似於 SaaS 服務,用戶如果自己開發這樣的平臺可能需要六個月的時間,我們提供這樣的平臺就直接省去了用戶六個月的時間。同時在一些特殊時期或者在一些放假的高峯期,很多用戶的審覈量會飆升,勢必審覈平臺的部署的機器要做動態的擴容,要讓更多的機器過來,同時需要更多的審覈員完成審覈操作,如果用戶使用自己創建的平臺,這些資源相對來說不可彈性擴容。使用百度的這套服務,不管是雲端的機器還是人力資源都是可以實現動態的擴容。第二我們這個人機審覈平臺有一各高校的流程,我們通過一審二審三審的流程,同時設置了高危組和普通組,降低審覈員的壓力,提升審覈效率,同時保證審覈結果。第三塊是易用的操作界面和完備管理功能,審覈界面的過程都是流式的界面,一次可以拉多個任務,用戶對這些審覈完成以後統一提交,效率高很多。針對短視頻,我們會對短視頻進行取樣的切片展示,讓冗長的短視頻以關鍵幀的方式展現在這邊,讓用戶一目瞭然看到這個短視頻講什麼內容。

我們以短視頻爲例看一下人機協同審覈流程怎麼做的,首先一個短視頻進來以後,用戶需要創建一個審覈規則,調用短視頻接口。首先過 AI 機審,比如針對短視頻,我們把短視頻拆爲視頻、畫面內容和音頻內容,畫面內容會有音頻審覈,通過 EasyDL 訓練模型對它進行審覈,音頻也是拆成語音內容和圖片內容,之後就會人審和人機審覈,我們通過三層人審,保證準確率,確保最終輸出的結果至少有兩個環節結果是一致的。我們整套方案提供了公有云和私有化部署的方式,用戶可以直接使用公有云 PaaS 服務,也可以把整訓練能力都部署到內網,保證我們數據的安全性。

我們也希望擁有人審團隊業務方可以直接使用人機協同審覈平臺,不用做這樣的開發工作,進一步提升審覈效率。如果沒有人審團隊,我們百度會對您推薦一些服務商,他們會把審覈員部署到人機審覈平臺上,我們最終一起經過人機確認的高精度的工作。同時我們非常期待更多擁有人力資源的服務商來加入到我們的人機審覈平臺這邊,成爲我們的供應商之一,我們提供 AI 審覈,技術支持指導,人機審覈管理平臺,提供銷售、推廣、渠道,幫助你們完成業務的轉型和業務的增長。

總結一下,主要是兩塊內容,第一是百度內容審覈平臺,通過界面化的方式提供了全面、靈活、精準的審覈服務,讓審覈服務更加貼合您的需求。在這個全面裏,百度不光預製了百度官方的模型,我們也提供了 EasyDL 這個自訓練平臺,用戶如果有一些業務的訴求,我們現在還沒有考慮到,現在通過 EasyDL 訓練對應的圖像識別、物體檢測,聲音分類的模型來滿足。第二是人機協同審覈管理平臺,利用高效的人機協同審覈流程,進一步提升審覈效率,省去開發成本。大家如果對百度內容審覈感興趣,可以搜索這個網址,也可以微信掃碼 AI 小程序,體驗我們的審覈能力,也可以加入我們的內容審覈的 QQ 羣進行提問。

歡迎大家去體驗我們的模型和平臺,或者上 EasyDL 定製我們的內容安全審覈方案,定製相應的圖像、語音、文本的模型。

主題:EasyDL 軟硬一體方案在膀胱腫瘤識別中的探索

時間:2020 年 6 月 3 日

講師:武漢大學人民醫院泌尿外科博士楊瑞醫生

課程大綱

1、膀胱癌介紹,膀胱癌的流行病學國際研究報告解讀等

2、如何使用 EasyDL 訓練膀胱鏡下腫瘤識別模型,並在 EdgeBoard FZ9 部署演示

膀胱就是儲存尿液器官,位於盆腔的前部,恥骨聯合的後方。膀胱空虛時,其尖一般不超過恥骨聯合上緣;充盈時,膀胱尖上升至恥骨聯合以上。膀胱底在男性與精囊腺、輸精管末端和直腸相鄰,在女性則與子宮頸和陰道相鄰。男性的膀胱頸與前列腺相接,女性的膀胱頸直接與尿生殖膈相鄰。可以右邊這兩個圖,可以看到膀胱標註的位置,在這個地方,偏下面一點,在盆腔的前部。

這是美國國立衛生研究員 NIH 的報告,膀胱癌在美國腫瘤發病率排行榜位居第 6,預估病歷在 2020 年在美國預估發病應該有 8 萬多人,預計死亡率將近 17000 多人。腫瘤發病的因素主要是長期接觸某些致癌物質,如聯苯胺、β- 萘胺、4 - 氨基雙聯苯,這些人往往從事印染、塑料、油漆等行業,另外吸菸和膀胱腫瘤的相關性現在也得到確認,經常吸菸的男同志要注意,大家知道吸菸和肺癌相關性比較高,但是可能不知道吸菸和膀胱癌相關性也是確認的。還需要說一下膀胱腫瘤中位發病年齡在 70+,5 年總生存率大約 76.9%。

診斷主要是靠膀胱鏡檢查 + 活組織病理檢查,我們可以看一下左邊的圖,這是講膀胱鏡,黑色這個就是膀胱鏡,前面有一個小攝像頭,我們把這個儀器放到膀胱裏,它會把看到的畫面在旁邊的顯示器上顯示出來,醫生直接看顯示器上的圖像,如果有異常,就用特製的特別長鉗子把組織夾一塊出來,然後做染色,再到顯微鏡下看,看組織究竟是不是腫瘤,是腫瘤這個診斷就可以確診了,是兩步確診的過程。

膀胱腫瘤有一個什麼特點呢,就是複發率比較高,費用比較高。膀胱腫瘤分爲肌層浸潤型膀胱癌和非肌層浸潤型膀胱癌,這個佔將近 70% 以上,接近一半的非肌層浸潤型膀胱癌出現復發,老師說膀胱腫瘤就像韭菜一樣,割一茬長一茬,複查方式:膀胱鏡檢查,發現異常進行活檢。有研究說明它是最貴的癌症,每一次手術可能費用都不低。這個圖就是歐洲國家的一個研究,顯示了膀胱腫瘤增加的負擔,這個是膀胱腫瘤,中間這一行是做膀胱切除的費用,這是歐元計算的是 5 萬多,後面這個是做非肌層浸潤型膀胱癌的手術。而且還有一點,膀胱腫瘤患者術後都要進行復查,也是用膀胱鏡檢查,隔一段時間要去觀察,這是最準確的檢查方式,也有老師可能會問,現在用 CT 和核磁共振可以嗎,這種影像學檢查發展雖然很快,但是膀胱鏡的優勢還是在那裏的,優勢還是最大的,所以標準的話還是要做膀胱鏡。

這裏就要說爲什麼容易復發呢,高復發的原因是什麼呢,這裏有一個文獻是來自 BJUI,膀胱腫瘤新發有一種原因就是本身的基因型決定的,這個很好理解,本身的基因就決定了這個腫瘤容易復發。另外手術處理原發腫瘤的時候,我們處理它的時候不可避免會碰到它,這上面的腫瘤是不是可能脫落,在其他的地方出現植入。再就是膀胱腫瘤並沒有完全被發現和切除,需要補充一點,膀胱的完全發現和切除都是建立在膀胱鏡的基礎之上,都是通過膀胱鏡看到它並切它的,有這樣一個概念。另外,內鏡不可見的微小病竈的生長,這也是復發的另外一個可能。

膀胱鏡是在膀胱癌整個診斷、治療和復發隨訪上面發揮了非常重要的作用。膀胱腫瘤需要依靠膀胱鏡做診斷、確診,治療也是需要膀胱鏡做膀胱腫瘤電切,也是需要在膀胱鏡裏看到腫瘤,複查隨訪也是一樣用膀胱鏡。所以整個膀胱腫瘤的治療都是以膀胱鏡爲中心,圍繞它做。下面四張圖,上面兩張是正常的膀胱壁的圖像,下面兩張圖是膀胱腫瘤的圖像,第一張圖不是很清晰,下面這個是有一個新事物,這個東西可能就是膀胱腫瘤,最終還需要依靠病理確診。

這裏我們有一個想法,用 AI 加持做膀胱鏡下膀胱腫瘤的識別。用 AI 輔助我們識別判斷這個地方是不是膀胱腫瘤,具體而言,通過 EasyDL 軟硬一體方案定製膀胱鏡下膀胱腫瘤識別模型。

簡單說一下 EasyDL 的優勢,尤其是對我們跨專業、本身不是做計算機方向或者人工智能方向人的優勢上,EasyDL 的優勢比較大。EasyDL 的經典版不需要懂得 AI 算法就可以使用,模型是專門針對我們提供的數據定製出來的模型,精準度相對比較高。另外,整個平臺對圖片集的管理、標註和訓練提供了友好的界面,同樣不需要寫任何代碼。另外,僅僅標註少量圖片就可以初步識別,並且可以使用智能標註,幾輪標註後標籤也會比較準確。另外實施比較容易,操作簡單,節省時間。EasyDL 有經典版和專業版,在做科研的過程中,覺得經典版滿足不了大家的需求,可以選擇專業版,可以自主選擇多種神經網絡,進行更深度的參數調節,使用更加靈活。還有就是部署靈活,可在雲端部署,本地部署,以及軟硬一體部署。

EasyDL 後臺技術有這幾點,首先是用 AI Workflow 工作流程,統一大數據工程系統與分佈式訓練系統掌管整個數據的流動,使用框架是百度的飛槳深度學習平臺。另外還有一個超參數的搜索 Auto Model Search,自帶超參數搜索功能,就隱含了很大一部分數據計算量在裏面,幫我們做計算。另外用 Transfer Learning 遷移學習的工具,如果用戶提供數據集比較小,就可以用遷移學習把在其他問題上面得到的權重,遷移到現有的任務上來,這樣子來提高訓練數據集比較小的時候模型的效果。

EasyDL 訓練模型也是有四個步驟,第一數據預處理,對圖像實現歸一化、大小裁剪與數據增強等操作。下一步是模型的訓練,在 EasyDL 的平臺上操作。再到模型驗證,在驗證集上驗證效果,最後是模型上線,把模型做雲服務直接調用它,或者把模型部署到我們需要的地方去,就是做一個模型的上線。

這裏敘述一下我們做的膀胱腫瘤識別模型。開始是做數據收集,這些數據都是從醫院裏的膀胱鏡主機裏導出,所有膀胱腫瘤圖片都是經過病理確診的,可以看到左邊這批圖就是正常的膀胱壁,右邊是膀胱腫瘤,這個已經進行了編號。需要提醒大家一下,這種數據一定要經過醫院倫理委員會的審批才能夠拿到。

我們就把數據直接上傳到 EasyDL 上面,數據和模型都在我們自己的賬號裏,也不用擔心泄漏和丟失的問題,直接把數據按照 EasyDL 的要求打包好,壓縮打包以後直接上傳到 EasyDL 系統裏來,可以看到系統顯示到圖像分類,多少張圖片。

接下來是我訓練的結果,針對每個不同的部署方式,都訓練了一個結果,無論是公有云 API、通用設備端 SDK 還是專項設備 SDK,效果都比較好,TOP1 是 96%,第二是 95%,第三是 95%,整體的訓練效果很優秀。

看一下更詳細的訓練報告,在公有云上也是用業內常規的幾個指標,準確率,精確率和召回率。下面有一個專項硬件識別 SDK 準確率也是可以的,92%,95%,94%,90%,這個針對 EdgeBoard 計算卡做了適配,直接將訓練好的模型生成 SDK,把 SDK 直接部署到 EdgeBoard,操作非常簡便。

部署的種類與使用,有幾種常見的部署方案,第一就是公有云 API,直接聯網通過雲端調用 API 接口。另外就是通過 CPU 和 GPU,這可以在個人電腦上可以進行的,另外 VMX 加速卡軟硬一體方案,VMX 作爲加速卡是需要宿主機的。我們採用的方案是 FZ9 加速卡軟硬一體,自帶一個接口,功能也比較強大,因爲我們需要實時性,因爲我們這個項目相當於要實時識別每一張圖片有沒有膀胱腫瘤,這個對計算卡的要求還是比較高的,我們選的 FZLite 卡還是可以實現我們的需求。

這個是我們當時拿到 EdgeBoard 的開機照,有這樣幾個特點,性能強悍,高通用性和擴展性,開放門檻低,支持硬件定製。這個軟硬一體的體積很小。大概說一下部署過程,通過 EasyDL 訓練模型,迭代至模型效果滿足業務需求後發佈得到 SDK,直接拷貝到 EdgeBoard,然後用序列號激活 SDK,接下來運行 SDK 就可以了,這個運行過程包括驅動加載,編譯,還有運行的幾個過程,按照說明書操作就可以了。

這是我們整個流程圖,首先是收集了正常和腫瘤膀胱鏡的圖像,把這些圖像放到 EasyDL 裏訓練得到一個模型,就是專用 SDK,把這個專用 SDK 放到 EdgeBoard 裏面,然後把膀胱鏡的鏡頭採集到的圖像要進到膀胱鏡的主機裏進行分析,這個主機會顯示視頻到顯示器上,我們將視頻信息分兩路,一路是給醫生觀看的一路,另外的一路把信息輸入到 EdgeBoard,由 EdgeBoard 對我們輸入的信息進行加工處理計算以後,它會告訴我們,這張圖上面有沒有膀胱腫瘤,我們把這個信息疊加到原來的膀胱鏡的圖片之上,放在另外一個顯示器上顯示,是這樣一個流程。

隨後我們就進行了驗證和探索,這張圖是我們首先在實驗室裏驗證這個系統的可行性,主要是採用了拍屏的方案,這是計算卡,旁邊是我們的小屏。右邊這張圖是我們把整個系統拿到手術室裏部署的情景,這邊是我們的電腦,這邊是 EdgeBoard 計算卡,這邊是第二塊屏,這是第一塊屏。值得說的是,這是打印機,這個地方就是膀胱鏡的主機,相當於整個視頻的流程,我們的視頻信號由膀胱鏡主機產生,一路信號放到這個顯示屏上面,就是醫生看的,另外分出一組信號,經過計算,把分類結果疊加到小的顯示器上,達到我們之前項目所設計的要求,就可以用人工智能輔助膀胱腫瘤的識別,當然還是需要加人工的核驗,是這樣一個過程。

這個圖是放大的圖,EdgeBoard 計算卡正在計算,左上角顯示出對這幅圖計算的結果,這是一個正常的膀胱壁,這個就是醫生操作時候的畫面。

最後這是我們拍屏的一個案例,大家可以看到這上面的顯示,這其實就是一個膀胱腫瘤,旁邊這個也是,上面顯示出系統計算得到了膀胱腫瘤的概率,Tumor 是 0.9,這個準確率還是可以的。當有膀胱腫瘤的時候,就會顯示出 Tumor。

簡單說一下我們探索的心得,首先是跑通了整個模型和部署過程,達到項目設計的要求,就是用人工智能輔助膀胱鏡下膀胱腫瘤的識別。整個項目也有很多需要改進的地方,需要收集更多的臨牀數據,更多的樣本,更多的圖片。另外可以考慮嘗試採用專業版或者其他的方式提高模型準確率,另外可以嘗試系統進行膀胱腫瘤亞型判斷,再就是交互界面,就是我們的交互界面的優化。

【EasyDL 和 EdgeBoard 軟硬一體介紹】

訓練模型的目的是爲了在實際項目中使用,現在項目部署大致分爲兩種,一種是公有云部署,一種是邊緣化部署,公有云是在雲端部署,方便、省心省力,集中式託管,有網絡即可接入,無需搭建環境,通過 API 調用,集成便捷。但是有一些限制性,安全,實時性,穩定性,所以很多都是通過邊緣部署的方式,讓模型更靠近雲,無需將數據上傳到雲端,保障了數據安全和隱私保護,邊緣部署需走網絡,響應更穩定,更實時,邊緣部署無網絡搭建成本,硬件成本低,所以今天主要講的是 EasyDL 在邊緣部署的硬件 EdgeBoard。

EdgeBoard 是百度面向嵌入式與邊緣部署場景打造的硬件加速方案,適用於機器視覺智能化監控與分析,具有高性能、低成本、使用簡單等三大優點,可無縫兼容 EasyDL 模型訓練平臺。我們和世界上最大的芯片廠家賽靈思,還有英特爾 VPU 系列,我們和賽靈思合作兩個系列,計算卡和計算盒,分爲 FZ9/FZ5,FZ3 兩個型號,計算卡是面向低成本的場景打造的一款產品。FZ 系列主要特點帶有主控,可以很好當成一個小型開發機使用。跟英特爾合作的 VMX 是加速棒形態,我們叫加速卡,通過 USB 連接起來,作爲一個協處理器,需要連接一臺宿主機運行。

下面看到三個產品的圖片,左邊是最小的 FZ3Lite 計算卡一體方案,中間是高性能的盒子,右邊是軟硬一體的 VMX 的加速方案。

下面介紹一下,FZ9 和 FZ5 計算盒,特點是高性能,適配多路攝像頭,規格在三個裏面相對做的比較小,FZ 計算盒是高性能,12×8 釐米,3.6TOPS 算力,功耗在 10 到 25W,有些場景下硬件會標成 5 到 10W,但客戶一旦把性能跑滿,功耗會到 10 到 15W。FZLite 功耗是 5 到 12W,FZ 系列使用的是 FPGA 方案,很多是工業級的方案,運行的環境和試運行溫度可以在零下 40 到零上 70 度,還是比較寬泛的工作溫度的支持範圍,比較適合用在工業場景。這邊是價格,FZ Lite 是 1179 元,FZ 計算盒是 4169 元,VMX 加速卡是 699 元。

下面我講一下幾個應用場景,EasyDL 和 EdgeBoard 軟硬一體方案可以在非常多的場景應用,我列的這些都是已經落地的項目,安防、工業、醫療、零售、教育、農業和交通,剛纔楊老師介紹了醫療場景的案例。

FZ5 和 FZ9 計算盒軟硬一體方案看起來是一個帶盒子的,就是 AI 服務器,有 FZ5 和 FZ9 兩個型號。支持 8 路 1080P 攝像頭解碼,算力高達 3.6TOPS,resnet50 模型推理全流程可以做到 60 幀每秒。相較於服務器優點:體積小、質量輕,易攜帶、功耗低、價格低,適用於視頻監控場景的私有化、邊緣化部署,如安防巡檢、工業質檢、農作物監控,交通巡檢等。

我下面介紹一下盒子的應用場景,比如安防場景,巡檢無人機,是空對地的,就是抓拍,有個特點,它的圖像會比較小,特徵比較少,這就需要有一些比較高精度的模型做識別,效果比較好。這種高精度模型對硬件性能都要求比較高,所以我們推薦對模型效果要求好,性能要求高的場景可以購買計算盒產品,也可以直接在場景裏直接部署安裝,是比較好的硬件產品。像無人機這個場景,空對地的識別,可用在邊防巡檢、島嶼巡檢、電力巡檢,交通不好到達,也可以非常節省人力的場景裏。

第二個應用場景,比如在工業場景裏,我們跟質檢機器人做了結合,可以用在 Iphone 產線的質檢,最小可以達到 0.2 毫米以下,手機質檢成本要求不是那麼敏感,但是對檢測的缺陷細微程度會要求比較高。

農業場景,現在和京東方合作,在蔬菜大棚裏也做了一些邊緣部署,可以做智能化的監控,病蟲害等一些情況,在農業場景裏有非常高的應用價值,通過智能化監控可以讓食品變得更有機,更健康。

交通場景這塊,最近國家也在推路邊停車,就是交通管制的違章停車管理,以前就是傳統的,停車有個人坐在旁邊,你開到那個地方對你收費,這樣有一個特點,特別耗人力,人管理起來也容易疏漏,成本很高。現在通過 EdgeBoard 和巡檢車結合這種場景,可以動態識別路邊的停車,可以識別比人更快,一輛車可以識別很長的距離,有幾公里的距離,如果一個人最多隻能管肉眼可見範圍內的,幾十米範圍內的停車位。

這款是輕量型的電腦主機,規格非常小,只有 7×8 釐米,我們用它可以用在學習,因爲學習的時候並不需要有非常高的性能,所以拿一款千八塊錢的,就像小型電腦主機一樣,可以用在智能小車裏,我們最近跟國家合作的智能小車競賽,裏面用的就是 lite 板,還有智能醫療的設備裏,如果不是動態的,像眼底篩查,不是動態的,對識別的速度不是那麼敏感,反而對功耗,對易集成要求更高一點。這個就是百度做的一款眼底篩查儀,結合 EdgeBoard 智能分析,可以幫助視網膜病變等疾病的識別,其實很容易應用落地,比如放在眼鏡店,檢查近視眼可以在那時候非常方便給市民做一次檢查,也可以放在眼科醫院,也可以放在公益活動裏,可以輔助醫生識別,緩解醫療資源的稀缺。

教育場景中,這個是我們推的智能競賽小車,集成 EdgeBoard lite,實現智能識別,彎道,驗證等等,不管是大學生還是 K12 的學生,都可以買一款這種小車,去做人工智能的學習,是非常不錯的選擇。

這款是我們和英特爾合作的,VMX 方案,這款芯片的特點算力是非常強,這邊寫的是 1TOPS,實際有 10TOPS 算力,還有做圖象處理的,神經網絡也有算力,目前大江海康都是用這個做應用,這是協處理器,需要通過宿主機工作雲端,比如我們已經支持 Linux 和 Windows,目前只有 699 元,可以很好的用在學習場景,還有一個是我們在存量設備上,比如已經有了一些設備,主控板換不了,只要有 USB 口就可以通過這個加速卡直接插上去,就可以實現這個設備的智能化升級。

我們看一下這個設備的應用,比如零售場景中,智能電子秤,可以通過 VMX 加速卡插進來進行智能化的菜品識別,可應用在超市、農貿市場等地方,對供應鏈管理,其實 AI 做的事情大多數都是安全,二是提升效率,三是降低成本,這個智能秤很好的提升了超市的人工效率,降低了人工成本。

這一頁講的是有了 EdgeBoard 以後,如何一步一步進行部署,剛纔楊瑞老師比較細的講了過程,就是這幾步,我們在 EasyDL 訓練模型下載下來,然後購買硬件,可以在 EasyDL 上獲取 License,部署激活,然後就可以無限期使用了,可以放在業務裏進行集成,非常的方便。

【EasyDL-EdgeBoard/EasyDL-Jetson 軟硬一體方案限時特惠】

如果您想嘗試 EasyDL 軟硬一體方案,在 5 月 13 到 6 月 13 掃描二維碼填寫信息,可以定律量身定製獲取優惠資源,如果你購買任意一臺 EasyDL 自研軟硬一體方案,包括上面提到三款,將獲得等價專業版訓練時長,軟硬一體方案 + 專業腳本調參 26 小時 GPUV100 訓練時長 / 32 小時 GPUP40 訓練時長 / 41 小時 GPUP4 訓練時長,折算下來就是五折優惠,有購買意願可以先填寫信息哦。

同時 EasyDL 和 NVIDIAJetson 軟硬一體方案已經上架到百度 AI 市場,推出全網最低限亮優惠的活動,EasyDL Jetson Nano 原價 1099,現價 800。TX2 原價 3500,現價 3200,Xavier 原價 5999,現價 5600,已經是非常低的折扣,可以掃描屏幕下方的二維碼瞭解詳情。

課後作業,使用 EasyDL 經典版 / 專業版,圖像分類 / 物體檢測,訓練模型,訓練數據可以採用自選數據。如果你想參加最佳佈道師評選,可以參加我們的活動貼,地址可以在公告裏找到,如果分享自己的讀書筆記和使用心得,使用教程和場景方案可以贏得我們百度網盤超級年卡。

【下期預告】

下週的課程,將會是 EasyDL 產業應用系列 —— 領域信息處理 NLP 專場!來自百度的 NLP 產品經理將會爲我們帶來業界領先的文本智能標註產品的介紹,獵頭公司負責人回味我們分享知識密集型行業如何進行知識點分類梳理,使用 AI 技術完成數據 “結構話”,提高業務處理效率!

如果對下期課程感興趣的小夥伴,可以掃描下方二維碼報名,也別忘了添加小助手的微信進羣共同學習哦!

報名速戳:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章