並非魔法但也有“神力”:我們何時該使用機器學習?


全文共1949字,預計學習時長7分鐘

圖源:unsplash

 

想象一下,你剛剛從一個臨牀試驗中得到了一個數據集(爲了幫你更好地理解,筆者整理了一些數據供你查看),假設這些數據反映了治療日(輸入“特徵”)與某個病人在某種奇蹟療法60天的療程中應接受的正確劑量(毫克)(輸出“預測”)之間的關係。

 

#數據:(1,28)  (2,17)  (3,92) (4,41)  (5,9)   (6,87) (7,54) (8,3)   (9,78)  (10,67) (11,1)  (12,67) (13,78) (14,3) (15,55) (16,86) (17,8)  (18,42) (19,92) (20,17) (21,29) (22,94)(23,28) (24,18) (25,93) (26,40) (27,9) (28,87) (29,53) (30,3)  (31,79)(32,66) (33,1)  (34,68) (35,77) (36,3)  (37,56) (38,86) (39,8)  (40,43) (41,92) (42,16) (43,30) (44,94)(45,27) (46,19) (47,93) (48,39) (49,10) (50,88) (51,53) (52,4)  (53,80) (54,65) (55,1)  (56,69) (57,77) (58,3)  (59,57) (60,86) ...

你正在治療一個病人,今天是第二天。你會建議用什麼劑量?

 

答案是“17mg”,這是一個很簡單的問題。那第四天呢?沒錯,是41mg。現在,你將如何開發一個軟件以輸出1-5天的正確劑量?你會嘗試使用機器學習嗎?

 

換句話說,可以嘗試在這些數據中找到模型並將其轉換爲從輸入到輸出的方法(“模型”)嗎?答案是否定的。可以讓軟件完全按照你的方式去做:在表中查找答案。這樣一來,將獲得60天內所有時間100%正確的答案,不需要模型,也不需要機器學習。

 

什麼樣的情況需要機器學習呢?

 

現在,假設今天是第61天,劑量的正確答案該是多少?

 

我們從未見過第61天的數據,所以無法在此處查找答案。機器學習可以幫上忙嗎?要看情況。如果沒有將輸入與輸出連接起來的模型,那就算了。在那種情況下,沒有什麼能幫上忙。

如果那是你認爲的機器學習,趕緊打住吧,魔法是不存在的。

 

但是,如果有這樣一個真實存在的模型,那麼可以嘗試將其應用到第61天,預測或猜測正確的答案,也許機器學習可以幫上忙。

 

問題在於我們的數據還不足以形成這種模型。如果這樣去構建模型,那就太草率了。60天之後,模型結果也必須是接近的。如果第61天的情況完全不同,無法證明模型的有效性怎麼辦呢?如果第61天所有患者都已完全治癒,或全部死亡,或者正在服用與之相剋的藥物,那麼這種模型會對你不利。

 

不穩定宇宙

如果你的數據對於探索未來沒有幫助,或許是因爲疫情改變了所有的規則,過往的信息有多好就都不重要了。如果生活在宇宙的一個不穩定的角落,那將很難證實已知的遍歷性和平穩性假設,這些假設大致可以理解爲“規則沒有改變。”

 

圖源:unsplash

這不是在說外行眼中的那種不穩定性。當規則是時間的預測函數時,處理平緩的不穩定性就是時間序列分析領域的內容。

 

由於系統的規則根本上是不同的,無法從一個階段預測到下一個階段,所以談到這種劇烈的不穩定性時,我們束手無策。如果過往的數據突然無法用於預測不穩定的未來,就不能用過去直觀地預測未來。

 

但如果有一種模型,並且這種模型適用於新情況,那麼恭喜你,可以開始了。可以在舊數據中尋找模型,根據它制定一個方法,然後使用它成功獲得第61天及以後的數據!找到模型並投入使用就是機器學習的全部內容。

 

何時使用機器學習

在應用機器學習和人工智能時,無需重新思考記憶中見過的示例,只需查找就可以了!人工智能能做的不僅僅是重複舊的答案,它能在新例子上取得成功。

 

你要做的是構建能夠成功總結概括的解決方案,要麼中止項目。換句話說,如果解決方案無法處理從未見過的新案例,那麼就說明它不好。並不是說那些打破穩定宇宙所有規則的全新案例,而是與以往主題稍有偏差的例子。

 

圖源:unsplash

我們不像鸚鵡學舌,而是要在這裏概括新情況,這就是機器學習的力量和美妙之處。如果你未看到61天前輸入值的精確組合,那麼正確的輸出值是什麼?也許可以將舊的模型轉變成可以做出合理猜測的方案。

 

例如,你利用成千上萬張動物照片訓練一個識別貓/非貓的分類器,你可以要求其辨別一張全新的照片中是否包含貓,但是讓它告訴你一幅畫是否是立體主義風格的顯然太難爲人了。

 

換種不老套介紹,機器學習是一種自動化重複決策的途徑,涉及從算法上找到數據模型並使用這些模型來制定能夠正確處理全新數據的方案。

 

機器學習並非無所不能,但也別把它想的太簡單了,找到合適的時機再用它,你會得到滿意的效果。

 


推薦閱讀專題

留言點贊發個朋友圈

我們一起分享AI學習與發展的乾貨

編譯組:王娜、高洋

相關鏈接:

https://towardsdatascience.com/when-not-to-use-machine-learning-or-ai-8185650f6a29

如轉載,請後臺留言,遵守轉載規範

推薦文章閱讀

ACL2018論文集50篇解讀

EMNLP2017論文集28篇論文解讀

2018年AI三大頂會中國學術成果全鏈接

ACL2017論文集:34篇解讀乾貨全在這裏

10篇AAAI2017經典論文回顧

長按識別二維碼可添加關注

讀芯君愛你

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章