5分鐘看懂人工智能 | 系列一

原創

2019-03-12 17:56

近兩年來，人工智能在各行業迅猛發展，我們先來看一組數字：

醫療：人工智能對惡性腫瘤的正確檢測概率比普通醫生提升50%；

工業：工業機器人使生產效率提升3倍；

即時翻譯：實現10種語言的翻譯功能；

AI+是大勢所趨，國家也十分重視人工智能的發展。人工智能已經連續三年高頻次出現在兩會的政府報告中。2019年更是首次提出了“智能+”，爲製造業轉型升級賦能。但是因爲部分領域數字化程度低和人工智能相關人才緊缺，導致“AI+細分行業”的進展緩慢。

在這裏我們先回顧一下機器學習流程：

一個完整的機器學習流程需要包括數據處理、特徵工程、算法調優、模型評估和模型上線這幾個步驟，每一步驟都需要有經驗的業務專家和數據家科家反覆調試，調試的過程是重複的、冗餘的，非常消耗人力。同時需要豐富經驗的數據學科家進行解決如下技術難題：

第一、機器學習的評估代價巨大

做機器學習訓練的時候，每訓練一次實際時間有時可達1個月，嘗試10個參數，就是1個月乘以10，意味着10多個月才能找到一個好的模型。就如同做飯、吃飯。每次吃飯，都需要把菜洗好、加工、下鍋、調料和出鍋，才能吃到嘴裏。如果覺得這道菜不好吃，比如需要少放鹽，就需要把整個過程再走一遍。

第二，機器學習的的參數結構非常複雜

訓練數據往往並不是所有數據的代表, 一方面含有噪聲. 另一方面特徵過多, 訓練時間過長,模型維度更大,更加複雜。需要對特徵平滑化，某些轉化率特徵，如點擊率、留存率等，當分母很小的時候，往往會出現轉化率極高的反常情況，會影響模型判斷的準確性。以及特徵離散化，即把原來的特徵值分段，離散爲一系列0、1向量。同時算法選擇也一大難題，比如說一件事情需要很多環節，每個環節比如都需要十種選擇，這是一個乘法，所以需要高效的算法來解決這種問題。

第三，機器學習目標函數不可導

進行機器學習任務時，使用的每一個算法都有一個目標函數，算法便是對這個目標函數進行優化，特別是在分類或者回歸任務中，便是使用損失函數（Loss Function）作爲其目標函數。選擇A還是B是一個離散過程，它不存在梯度，如果有梯度的話，微小的變化會帶來目標函數變化。在機器學習的很多模型中都用到了梯度下降法或者基於梯度下降的改進算法（對Loss函數求導），但是機器學習存在大量沒有梯度的變量，給優化帶來很大的困難。

第四、機器學習的模型在生產環境不斷髮生變化。

模型準確度下降，數據管理困難、算法模型更新週期長。

看不懂？沒關係，簡單來說就是機器學習是一個很複雜的過程。一般人（包括小編我）也搞不定。

但是，通過自動化機器學習（AutoML)可以大大簡化該過程，讓人工智能平民化，令普通人也可以進行機器學習。

簡單介紹下什麼是AutoML：

AutoML的概念是學術界在2012年提出的，其核心是通過機器算力減少機器學習中最複雜的步驟如算法調優、模型評估等。

AutoML更大範圍內爲世人周知是因爲谷歌Cloud AutoML Vision產品的發佈，讓對機器學習瞭解有限的人，把人工智能技術運用到產品中，從而降低了使用機器學習的門檻。

爲什麼AutoML能降低機器學習的門檻呢，請看下圖：

從圖中可以看到通過AutoML在機器學習過程中，減少了特徵工程、算法調優、模型評估三個步驟，做到了：

特徵工程：自動化特徵抽取、變形和組合，找到有效的影響結果的特徵；

算法調優：自動化模型參數調整、算法最優選擇，節省工作量，降低門檻；

模型評估：自動化模型結構設計，比如神經網絡多少層，每一層之間的關係。

從技術的角度來解讀，機器學習中的數據預處理、特徵學習、超參學習到模型訓練都實現自動化。

從使用人員角度來解讀，數據科學家，能夠去除他的一些繁重的腦力勞動，比如調參、優化模型等等。普通人員通過AutoML用戶只需要輸入數據，按步驟一步步執行就能用機器學習創造你眼中的世界了。也就是說人工智能小白也會做數據科學家能做的事。

看一下偶數科技公司的自動化機器學習（AutoML）平臺LittleBoy引導式的機器學習是怎麼樣吧：

如上圖所示，使用機器學習建模就像安裝軟件一樣只要點“下一步”，幾個步驟就完成了一個模型的開發。這麼簡單的建模，相信你也會，快來試用吧！

關於人工智能應用及更多內容我們會在“5分鐘看懂人工智能 | 系列二”中更新，請持續關注。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

5分鐘看懂人工智能 | 系列一

redis的key亂碼問題和值自增問題

CORS error 但是 status code 是200 OK

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

壓縮上傳的GPU數據的方案

OpenTelemetry 實踐指南：歷史、架構與基本概念

需求管理祕籍：從混亂到有序，讓你的項目高效運轉

使用skopeo同步鏡像

用光線投射法渲染規則模型

國產數據庫OushuDB適配中國統一操作系統UOS

數據同步工具ETL、ELT傻傻分不清楚？3分鐘看懂兩者區別

五大亮點升級，偶數科技數據中臺Lava 3.2新版本發佈

機器學習平臺再進化，偶數科技發佈LittleBoy 3.0

Postgres面對這款國產數據庫OushuDB，沒想到性能差了這麼多

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結