DataPipeline創始人&CEO 陳誠：沃森與AI

引言：本文來自infoQ架構師電子月刊對DataPipeline創始人&CEO陳誠的約稿。陳誠，畢業於上海交大，留學於美國密西根大學，前Yelp大數據研發工程師，曾就職於美國Google、Yelp 等；擁有6年多的大數據、計算機算法等實踐經驗。

朋友圈最近看到一篇文章 ——《IBM沃森錯開致命藥，國內67家醫院在用，祕密文件曝光嚴重bug》。雖然只是測試病例，但看上去沃森相當地不靠譜，給有出血症狀的×××病人開了容易導致出血的藥品，嚴重時可致患者死亡。沃森是IBM花了150億美元培養的AI學霸，成績不盡如人意，部門不能盈利，失望在所難免。然而AI正如一個學習能力超強的小孩子，需要反覆研習各種病例、新葯，來提高判斷的準確度。

無獨有偶，最近也有另一篇報道說亞馬遜AI的人臉識別系統遭到質疑，從535位美國參衆兩院議員中識別出28名“罪犯”，一時引起大量對於公共安全和執法準確率的擔憂。亞馬遜迅速在迴應中提到在對Rekognition 系統人臉識別API的默認置信閾值被設置成了80%，建議應該使用99%。然而這樣設置的話確實可以大量減少“誤判”，但是卻會產生更多的“漏判”，結果仍然未必會讓人滿意。

大衆在AlphaGo之後對於AI的想象都是有點像孫悟空，在菩提祖師那裏混了7年，而後一夜悟道，從此速度一日千里。然而任何創新的技術都需要快速迭代、不斷更新。我們對於新技術既不需要盲目追捧，也不用質疑×××。人工智能之所以是人工的，不就是因爲我們人類善於思考，可以辯證客觀地看待問題嗎？

數據的質量和模型都會對AI結果產生巨大的影響，這次我們來聊聊數據。 AI的判斷，高度依賴於我們輸入給它的“知識”，如果輸入數據不夠準確、不夠完整，得出的判斷不靠譜也在意料之中。大部分數據分析師，每天都要花費大量的時間和精力去“整”數據，無論是數據質量，還是數據的完整性，一致性都差強人意，最高精尖的工程師也要花大力氣去做最基礎的數據工作，AI能不能不以事小而不爲，幫我們先解決了數據的事兒？

AI不是萬能的，數據不是萬能的，沒有數據是萬萬不能的。我們對於世界的認識和認知，進行抽象提取，而後成爲知識。數據是這一切的基礎。數據失之毫釐，AI的結果差之千里。數據工程師和AI算法工程師是背靠背的一對兄弟，相輔相成，誰也離不開誰。

創辦DataPipeline之初，我們以爲數據的事兒比起AI，門檻沒有那麼高，但是適用面廣，然而越做越敬畏。如果AI最終的目的是幫助人類解決各種各樣的問題，那麼數據就是這個大廈最堅實的基礎，基礎不牢，地動山搖。我們不能只要頂層的無敵視野，卻不願意爲打地基付出汗水和努力。數據的工作繁雜，日復一日，各種重複，遠不如AI的高大上，然而吃不飽肚子，怎麼追求精神上的富足？

回過頭來看沃森的誤判，病人有嚴重的出血症狀，這個重要的信息，這條數據，究竟在哪個環節被“丟”掉了？

PS.添加DataPipeline君微信：datapipeline2018，拉你進技術討論羣。

DataPipeline創始人&CEO 陳誠：沃森與AI

Win10 LTSC 2019 安裝後的一些步驟

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

在Linux下管理MySQL的大小寫敏感性

DataPipeline 合夥人 & CPO 陳雷：企業實時數據管理問題與實踐 | 附PPT下載

DataOps系列丨DataOps的組織架構與挑戰

下篇丨數據融合平臺DataPipeline的實際應用場景

DataPipeline CTO陳肅：構建批流一體數據融合平臺的一致性語義保證

最新2.7版本丨DataPipeline數據融合產品最新版本發佈

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結