DataPipeline創始人&CEO 陳誠:沃森與AI

DataPipeline創始人&CEO 陳誠:沃森與AI

引言:本文來自infoQ架構師電子月刊對DataPipeline創始人&CEO陳誠的約稿。陳誠,畢業於上海交大,留學於美國密西根大學,前Yelp大數據研發工程師,曾就職於美國Google、Yelp 等; 擁有6年多的大數據、計算機算法等實踐經驗。

朋友圈最近看到一篇文章 ——《IBM沃森錯開致命藥,國內67家醫院在用,祕密文件曝光嚴重bug》。雖然只是測試病例,但看上去沃森相當地不靠譜,給有出血症狀的×××病人開了容易導致出血的藥品,嚴重時可致患者死亡。沃森是IBM花了150億美元培養的AI學霸,成績不盡如人意,部門不能盈利,失望在所難免。然而AI正如一個學習能力超強的小孩子,需要反覆研習各種病例、新葯,來提高判斷的準確度。

無獨有偶,最近也有另一篇報道說亞馬遜AI的人臉識別系統遭到質疑,從535位美國參衆兩院議員中識別出28名“罪犯”,一時引起大量對於公共安全和執法準確率的擔憂。亞馬遜迅速在迴應中提到在對Rekognition 系統人臉識別API的默認置信閾值被設置成了80%, 建議應該使用99%。然而這樣設置的話確實可以大量減少“誤判”,但是卻會產生更多的“漏判”,結果仍然未必會讓人滿意。

大衆在AlphaGo之後對於AI的想象都是有點像孫悟空,在菩提祖師那裏混了7年,而後一夜悟道,從此速度一日千里。然而任何創新的技術都需要快速迭代、不斷更新。我們對於新技術既不需要盲目追捧,也不用質疑×××。人工智能之所以是人工的,不就是因爲我們人類善於思考,可以辯證客觀地看待問題嗎?

數據的質量和模型都會對AI結果產生巨大的影響,這次我們來聊聊數據。 AI的判斷,高度依賴於我們輸入給它的“知識”,如果輸入數據不夠準確、不夠完整,得出的判斷不靠譜也在意料之中。大部分數據分析師,每天都要花費大量的時間和精力去“整”數據,無論是數據質量,還是數據的完整性,一致性都差強人意,最高精尖的工程師也要花大力氣去做最基礎的數據工作,AI能不能不以事小而不爲,幫我們先解決了數據的事兒?

AI不是萬能的,數據不是萬能的,沒有數據是萬萬不能的。我們對於世界的認識和認知,進行抽象提取,而後成爲知識。數據是這一切的基礎。數據失之毫釐,AI的結果差之千里。數據工程師和AI算法工程師是背靠背的一對兄弟,相輔相成,誰也離不開誰。

創辦DataPipeline之初,我們以爲數據的事兒比起AI,門檻沒有那麼高,但是適用面廣,然而越做越敬畏。如果AI最終的目的是幫助人類解決各種各樣的問題,那麼數據就是這個大廈最堅實的基礎,基礎不牢,地動山搖。我們不能只要頂層的無敵視野,卻不願意爲打地基付出汗水和努力。數據的工作繁雜,日復一日,各種重複,遠不如AI的高大上,然而吃不飽肚子,怎麼追求精神上的富足?

回過頭來看沃森的誤判,病人有嚴重的出血症狀,這個重要的信息,這條數據,究竟在哪個環節被“丟”掉了?

PS.添加DataPipeline君微信:datapipeline2018,拉你進技術討論羣。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章