關於大規模機器學習與雲原生架構，我們與谷歌雲聊了聊

最近五年來，人工智能引起了全世界的廣泛關注。隨着基礎理論與算法層面準備就緒、硬件算力持續攀升、政策與投資不斷傾斜，人工智能正在多個維度上重構現有的互聯網基礎設施，進而席捲整個技術世界。

而在人工智能時代，雲計算同樣重要。將模型構建與訓練工作轉移至雲端，既降低了AI的算力成本，同時也降低了AI的技術門檻，因此極大的拓寬了AI技術的應用邊界，使得更多技術企業投資AI、加碼AI的戰略成爲可能。

在這一領域，谷歌雲的技術成就讓人矚目，無論是AutoML還是TensorFlow，皆是在雲端提供服務的“技術明星”。爲此，我們特別舉辦“Hello 谷歌雲——雲·AI·原生技術暢聊之夜”晚場活動，並邀請七位來自谷歌雲的工程師分別就雲計算與AI領域的話題，與參會者展開深度交流和知識共享。

這七大議題分別是：

多雲平臺部署和管理實現
雲端海量數據智能分析
雲原生架構設計與實現
雲遊戲的現在與未來
AutoML 自定義機器學習模型
Tensorflow大規模機器學習
AI快速實現應用智能

那麼，在這個與谷歌雲深度對話的技術交流之夜，現場究竟碰撞出了怎樣的火花呢？下面我們一一來看。

1、構建混合雲及多雲管理平臺的具體方案

當傳統業務開始大規模向雲上遷移，混合雲、多雲架構即成爲不可或缺的構建方案。混合雲同時滿足了企業對私有云的保密性與公有云的計算資源的雙向需求；多雲業務則主要是爲了讓企業在具有不同技術特點、不同價格方案的雲服務中靈活選擇。

那麼谷歌雲是如何構建混合雲及多雲管理平臺的呢？

在混合雲管理方面，谷歌雲主要採用了分層混合的架構模式。分層混合是指將現有前端應用部署到公有云，現有後端應用保留在私有計算環境中，可以視具體情況調整。此處的前端應用是指對最終用戶或設備直接公開的應用，對性能要求較高、迭代頻繁、往往是無狀態的，所以部署在公有云；而後端應用通常專注於管理數據，關注數據的批量處理和安全保護，所以保留在私有云。

而要滿足多雲管理需求，則需依賴幾個重要組件的協作，分別是Google Kubernetes Engine（GKE）、GKE On-Prem、Istio on GKE，它們各自提供了可以隨時使用的容器化託管式環境、方便的Kubernetes集羣管理以及微服務治理工具，以便與不同的雲環境解耦。

至此，平臺不但具備了混合雲及多雲的管理能力，同時也具備了雲原生特徵，爲敏捷開發打下了基礎。

2、在雲端對海量數據進行智能分析的技術關鍵

隨着數據規模的增長，業務對數據分析速度的要求逐漸提高，在雲端進行數據分析工作的難度越來越大。在IoT場景下，海量智能終端的數據將涌入數據中心，雲端數據分析工作面臨着前所未有的壓力。

可對海量數據的智能分析，不能只依賴硬件算力，算法和文件系統也是相當重要的組成部分。

谷歌雲的BigQuery就是一個很好的例子。BigQuery一直在擔負谷歌生態內部的數據分析工作，後來開始對外商用。它在執行查詢命令時請求的是Dremel查詢引擎，Dremel會把SQL查詢轉換成執行樹，這棵樹的葉子結點叫做“slots（插槽）”，分別執行數據的檢索和必要的計算。樹的分支叫做“mixers（混合器）”，負責執行數據的聚合操作。

BigQuery使用分佈式文件系統Colossus完成數據的存儲和快照（快照可以用於數據恢復）。在進行數據存儲時，BigQuery會採用ColumnIO列式存儲格式和壓縮算法進行存儲，以便提高讀寫效率同時降低成本。

正是這些在查詢算法和文件系統上的優化，最終讓BigQuery成功支撐起了業務的數據分析需求。

3、如何打造雲原生架構，踐行雲原生思想？

雖然如今雲原生已經被頻繁提及，但很多開發者仍對雲原生概念的理解有所偏差。谷歌對雲原生的最新定義爲：

“雲原生技術幫助公司和機構在公有云、私有云和混合雲等新型動態環境中，構建和運行可彈性擴展的應用。雲原生的代表技術包括容器、服務網格、微服務、不可變基礎設施和聲明式API。這些技術能夠構建容錯性好、易於管理和便於觀察的鬆耦合系統。結合可靠的自動化手段，雲原生技術可以使開發者輕鬆地對系統進行頻繁並可預測的重大變更。”

由此可見，打造雲原生架構首先要進行容器化改造，具備微服務架構。容器化改造主要是爲了保證資源的隔離、環境的一致性；而微服務架構將功能輕量化，變得易於擴展，易於維護且可以支持靈活的技術選型。因此，容器技術正是最適合微服務架構的技術手段之一，兩者可謂天作之合。容器化的代表技術是Docker，微服務的代表技術首推Spring Cloud，兩者如今都爲開發者所熟知。

服務網格（Service Mesh）主要針對微服務治理方向的需求，屬於抽象出來的基礎設施層，主要工作是保證通信消息的可靠傳遞、負載均衡、服務熔斷等，是微服務架構下必須的保障技術。Istio是該領域的代表性作品。

不可變的基礎設施實際上是指代碼定義的基礎設施，即使用聲明式的定義隨時構建一套基礎環境用於開發、測試、生產，任何時候基於相同代碼定義在任何地方都可以獲得相同的基礎實施。

聲明式API則指通過對服務接口的抽象（API）解決服務間調用的難題，協調上下游開發者之間的開發需求，搭建敏捷開發的基礎。

可見雲原生是一個抽象概念，是由衆多技術組成的技術體系，是一套需要通過技術手段踐行的思想，也需要我們技術羣體的持續探索和改進。

4、揭開雲遊戲的面紗，並探索5G時代的服務運行模式

雲遊戲是以雲計算爲基礎的遊戲方式，在雲遊戲的運行模式下，所有遊戲都在服務器端運行，並將渲染完畢後的遊戲畫面壓縮後通過網絡傳送給用戶。在客戶端，用戶的遊戲設備不需要任何高端處理器和顯卡，只需要基本的視頻解壓能力就可以了。

今年3月，谷歌發佈STADIA雲遊戲平臺，每個玩家將佔用一個搭載了定製 x86 處理器和 16GB 內存的 Stadia 服務器模塊，最終實現約 10.7 teraflops 的計算性能。相比之下，本世代最強遊戲主機的計算性能只能達到Stadia的一半。

這意味着，終端設備不但會變的輕量化，而且雲計算還會帶來更好的體驗。現任 Google 副總裁 Phil Harrison 說道：“未來的遊戲機將不再是一個物理盒子，服務器就是你的平臺。”當然，前提是5G商用，保證雲端運算結果的高速傳輸。

以上聽起來像是一個相對垂直的概念，只適用於遊戲領域。但實際上，雲遊戲的運行模式可能恰恰是5G時代下諸多服務的運行模式，即將客戶端的運算任務轉移至雲端，然後憑藉高速網絡將處理結果傳輸至客戶端提供服務。這種模式可能會爲帶來很多前端設備帶來翻天覆地的變革。

5、AutoML，只需你提供數據，剩下的交給系統

AutoML面世時，大家對其形容爲“AI的自我訓練”，從技術的角度上，AutoML實現了一種模式：你只需要提供數據，系統會爲你搭建合適的訓練模型。

這主要依賴於遷移學習技術以及神經架構搜索技術。

遷移學習是指基於一個已經訓練好的神經網絡模型，進行參數與知識的遷移，使新的模型無需重新設計即可使用。具體要遷移什麼呢？比如共性特徵數據與權重信息，即卷積層共性特徵的遷移等。

而神經架構搜索技術脫胎於NASNet算法，目標是搜索出最適用的神經網絡架構。最初該算法雖然成功，但效率低下，而後谷歌先後推出了漸進式神經架構搜索（PNAS）算法、高效神經架構搜索（ENAS）算法，不斷改善着算法效率。最終與遷移學習技術結合，發佈了Cloud AutoML。

現在的Cloud AutoML在計算機視覺、文本類別鑑定、智能翻譯等方向都有了成熟的使用經驗，幫助相關AI開發者更關注業務本身，而非神經網絡基礎知識。

6、如何利用TensorFlow實現大規模機器學習

TensorFlow是一個採用數據流圖（data flow graphs），用於數值計算的開源軟件庫，被廣泛用於衆多機器學習算法的編程實現，是機器學習領域絕對的“技術明星”。

利用TensorFlow實現機器學習算法大概可以分爲四步：

（1）定義算法公式，也就是神經網絡前向運行時的計算；
（2）定義loss，選定optimizer，使用優化器優化loss；
（3）開啓迭代的數據訓練操作；
（4）計算準確率，做出評測。

而對於大規模機器學習，谷歌已經構建了一個基於TensorFlow的生產規模的機器學習平臺：TensorFlow Extended（TFX）。它提供了一個配置框架來解釋由TFX組件組成的ML管道，可以使用Apache Airflow和Kubeflow Pipeline進行編排。

無論是TensorFlow還是TFX，都爲機器學習的算法實現提供了方便好用的工具，我們可以通過詳盡的文檔進一步瞭解實踐。

7、AI可能在哪些領域快速實現智能化改造？

人工智能的高速發展不單純侷限於理論，在商業應用方面，也有很多非常不錯的應用實踐。比如機器翻譯、語音識別、輿情勘測、智能駕駛等等。得益於如今日益進步的雲端基礎設施，人工智能在很多領域的改造工作並不那麼複雜。

在谷歌雲技術晚場上，本組導師就帶領組員對可能快速實現智能化改造的領域進行了展望，其中有利用OCR文字識別技術實現“看圖說話”應用，投放在少兒教育領域；也有在網絡營銷領域開發AI應用，幫助進行客戶引流或做信息流優化；還有將AI應用於企業內部，智能定製員工KPI、智能篩選簡歷。

最有創意的設想是“AI實現垃圾分類”，通過計算機視覺技術自動進行的垃圾的分類、分揀，當能解決掉很多麻煩。

一個產業若想健康發展，至少需要兩大支柱，一是基礎技術準備充分、技術設施準備就緒；二是商業價值已經被髮掘，實驗性應用可以投放。兩者互爲補充，缺一不可。本組議題的討論，也爲衆多開發者打開了新的思路。

七組議題涵蓋了雲計算與AI領域最引人矚目的技術領域，在超過一個小時的深入交流後，每組都選派代表進行了總結性的分享。在這些分享的背後，是一次次固有知識的互相碰撞與新知識的糅合誕生。

關於大規模機器學習與雲原生架構，我們與谷歌雲聊了聊

1、構建混合雲及多雲管理平臺的具體方案

2、在雲端對海量數據進行智能分析的技術關鍵

3、如何打造雲原生架構，踐行雲原生思想？

4、揭開雲遊戲的面紗，並探索5G時代的服務運行模式

5、AutoML，只需你提供數據，剩下的交給系統

6、如何利用TensorFlow實現大規模機器學習

7、AI可能在哪些領域快速實現智能化改造？

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

從 Amazon Graviton3 發佈，看 2022 雲計算的核心方向

什麼纔是實現元宇宙的關鍵路徑？

Linux 年度報告發布：2021 預計虧損300w，重點關注開源硬件

2021 re:Invent ，我們到底該關注哪些發佈？

延續三代的苗鄉三七，運轉百年的鞍鋼集團，該如何實現數智化轉型？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結