機器學習面臨的挑戰是工程問題,不是數據科學問題

本文講述了從數據科學轉向機器學習工程的途徑及意義。

本文最初發表在 Towards Data Science 博客上,經原作者 Caleb Kaiser 授權,InfoQ 中文站翻譯並分享。

在過去 20 年,機器學習一直圍繞着這樣一個問題展開:我們能不能訓練一個模型去做一些事情?

當然,有些事情可以是任何任務。比如,預測句子中的下一個單詞、識別照片中的面孔、生成某種聲音。我們的目標是想看一看,如果我們能夠做出準確的預測,那麼機器學習是否還有效。

多虧了數據科學家幾十年來的研究工作,我們現在纔有瞭如此多的模型,可以用來做很多事:

  • OpenAI 的 GPT-2(以及現在的 GPT-3),可以生成人們能夠閱讀的文本,效果還過得去。
  • 像 YOLOv5 這樣的對象檢測模型(官方版本的爭論暫且不提)可以解析每秒 140 幀的視頻中的對象。
  • 像 Tacotron 2 這樣的文本到語音模型可以生成聽起來像人類的語音。

數據科學家和機器學習研究人員所做的工作令人難以置信,因此,第二個問題便自然而然地出現了:

我們可以用這些模型來構建什麼?以及我們如何才能做到呢?

這顯然不是一個數據科學的問題,而是一個工程問題。爲了回答這一問題,一門新學科應運而生:機器學習工程

原文鏈接:【https://www.infoq.cn/article/JywDelJDh1GQpegI5Z6e】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章