後Hadoop時代，愛奇藝如何有效整合大數據和AI平臺？

原創

2021-09-11 08:03

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"採訪嘉賓 | 劉騁昺"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"編輯 | Tina"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"大數據是人工智能的基礎。從大數據到數據分析再到 AI 應用的轉變，這也是一個很自然的發展過程。但是隻有在數據、算法、企業的場景應用三者緊密配合的前提下，纔可以有效地提升整個 AI 業務的流程。因此，愛奇藝在原來的數據積累基礎上，進一步的完善了技術平臺，形成了大數據+AI 的統一架構，同時兼顧了數據、算法訓練、人力物力算力等多方面的因素。那麼愛奇藝在探索和實踐過程中，有哪些沉澱出的經驗可以分享給大家？InfoQ採訪了愛奇藝大數據計算團隊負責人劉騁昺，得到了一個初步的瞭解。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"劉騁昺將在2021年11月5-6日全球人工智能與機器學習技術大會（北京站）2021上進行主題爲《"},{"type":"link","attrs":{"href":"https:\/\/aicon.infoq.cn\/2021\/beijing\/presentation\/3720","title":null,"type":null},"content":[{"type":"text","text":"愛奇藝 Bigdata+AI 統一架構探索與實踐"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"》的演講，更多內容可以通過觀看演講進行了解。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"嘉賓簡介：劉騁昺"},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"，畢業於上海交通大學計算機系，2014 年加入愛奇藝，先後負責 Hadoop 運維和研發，計算引擎和平臺的設計和開發工作，對大數據服務的底層優化和平臺建設有豐富經驗。目前是大數據計算團隊負責人，負責Spark\/Flink計算引擎、離線工作流、實時計算、實時分析、機器學習平臺等相關工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：您們選擇On-Prem 還是 Cloud 來實現大數據+AI平臺？爲什麼？您們是如何做決策的？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"劉騁昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"目前我們採用On-Prem和Cloud的混合雲部署模式，以私有云部署爲主體，在部分業務探索引入公有云服務。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"經過初步探索，我們發現公有云和私有云各有優劣，且能相互補充。公有云的優勢在於按量付費，對於探索性的業務（如不確定使用什麼硬件最合適），公有云的試錯成本較低；對於峯谷效應明顯的業務，公有云的自動擴縮容能力也能夠幫助我們降低成本。私有云在運維支持端、穩定且高負載場景的成本端的表現更好。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在我們看來，我們採用的混合雲部署模式主要有兩方面的好處。一方面，通過搭建統一的服務管理平臺，對用戶屏蔽底層使用的私有云或公有云資源，降低業務接入與切換的難度；另一方面，利用私有云部署，獲得對雲廠商的議價能力，同時保持對公有云動態的及時跟進，不斷審視和改進私有云的服務能力。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：在之前的未曾改造的愛奇藝大數據平臺上運行機器學習任務，存在哪些挑戰？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"劉騁昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"機器學習與大數據平臺的結合，我們主要討論特徵數據處理與模型訓練兩方面。傳統的大數據平臺一般以Hadoop（HDFS+YARN）爲基礎，運行MapReduce、Hive、Spark、Flink等計算框架。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在特徵數據處理方面，我們最常用的是Hive和Spark，要把計算任務跑起來難度不大，主要的挑戰在於工程效率與大數據量下的性能表現。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"相比而言，在模型訓練方面的挑戰更大，主要體現在："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"1）框架支持：需要在Hadoop上支持分佈式地運行機器學習框架（如TensorFlow、PyTorch等）；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"2）資源調度：機器學習任務單進程的CPU、內存資源佔用經常較大，且不同進程的資源需求不同，需要考慮這些在Hadoop集羣上如何分佈才能最大化資源利用率；另外，有的模型訓練需要用到GPU，YARN從3.0版本開始加入了對GPU的支持，在後續版本逐步完善；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"3）Docker支持：機器學習任務對環境依賴較多且各不同，因此加入對Docker的支持就顯得十分必要，而老版本的Hadoop集羣對Docker的支持比較初級，所以也需要對Hadoop集羣做版本升級。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：大數據+AI平臺的“整合”，關鍵要解決的核心問題是什麼？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"劉騁昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"核心問題是數據和計算的整合。傳統的機器學習把數據放在一臺獨立的機器上，僅利用單機的計算資源進行模型訓練，如此一來，大數據和AI成了兩個完全獨立的系統。而只有充分利用大數據平臺豐富的存儲和計算資源，才能充分發揮AI的威力。因此，整合的核心問題是把AI相關的數據接入大數據平臺，並利用大數據平臺的計算資源運行分佈式的模型訓練，"},{"type":"text","marks":[{"type":"color","attrs":{"color":"#3a3a3a","name":"user"}}],"text":"將特徵生產、樣本生產、模型訓練、模型管理打通"},{"type":"text","text":"。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"有了數據和計算的整合，下一步是元數據的統一管理，可以幫助我們解決煙囪式開發的問題，節省開發人力和計算資源，提高數據和模型質量。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：架構上是如何實現存儲計算分離的？您們是如何兼顧存儲和計算的效率？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"劉騁昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"我們通過自研QBFS（愛奇藝大數據文件系統）實現存儲計算分離。QBFS是一個虛擬的文件系統，底層支持多種存儲類型（HDFS、公有云對象存儲、私有云對象存儲等），通過虛擬路徑與底層存儲的映射關係，實現計算任務在任何集羣都能訪問QBFS中的數據，即事實上的存儲計算分離。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"存儲計算分離在取得分層存儲降低存儲成本、跨集羣統一訪問、透明遷移等優勢的同時，勢必會帶來一些問題，如跨集羣訪問效率下降、網絡流量上升等。我們的應對措施有如下幾點："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"1）使用先進的壓縮算法、EC等技術，降低文件大小；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"2）通過優化文件格式，採用列式存儲，降低讀取的數據量；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"3）使用分佈式緩存技術（如Alluxio），避免對同一份數據的多次讀取（目前處於測試階段）；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"4）數據讀取與計算同時進行：以TensorFlow爲例，使用Dataset API實現數據讀取Pipeline，在計算的同時讀取下一步計算所需的數據，使得計算可以連續進行，數據讀取不成爲限制計算時長的因素。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：是否存在多租戶的問題？您們通過什麼技術手段解決這些供需關係？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"劉騁昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"我們的大數據+AI平臺是支持多租戶的，租戶的粒度是一個具體的業務或者項目。需要解決的問題有："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"1）平臺接入：用戶在平臺上提交任務，平臺以超級用戶代理爲業務用戶，提交任務到集羣，這裏用到了Hadoop的proxy user的機制；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"2）計算資源隔離：利用YARN的scheduler，業務根據需求申請計算隊列，管理員通過設置隊列的min、max、weight、max applications等屬性控制各種條件下一個隊列能夠申請的資源量，實現計算資源的分配與隔離。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：構建統一的大數據+AI平臺系統最容易出現的瓶頸是什麼？您們是如何解決的？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"劉騁昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在特徵數據處理方面，大量的計算任務會佔據大量的計算資源，拖慢整體的產出時間。平臺通過建立統一的特徵庫，實現基於配置的特徵計算，統一優化計算效率，並加強特徵複用，減少重複計算，使得產出時間得到保障。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在模型訓練方面，大規模分佈式訓練會佔用較多的CPU、內存、網絡帶寬等資源。平臺通過監控資源利用率，合理分佈不同類型的進程（如搭配內存需求大的任務和CPU需求大的任務），採用合適的機型等措施，提高資源利用率。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：針對愛奇藝的場景，研發這套平臺時，您們做了哪些定製化的工作？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"劉騁昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"定製化的工作主要體現在特徵算子上。我們整理了特徵計算中常用的10多種計算邏輯，在啓用平臺之前，這些邏輯一般通過SQL表達，多種邏輯的組合使得SQL較長，可讀性較差。我們將這些邏輯抽象成算子，算子之間通過協同工作形成一張DAG圖，以此來代替SQL，增強邏輯的可讀性，並統一優化計算效率。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：運行這套平臺之後，它對業務最大的改善目前體現在哪裏？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"劉騁昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"首先，大規模分佈式的模型訓練更加便利，而且性能也得到了大幅提升，業務可以採用更多的數據，更早產出模型，提升業務效果。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"其次，特徵管理、生產、監控與複用爲業務提供了更規範化的方式，避免了煙囪式開發，提升了開發、計算效率和數據質量。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：展望未來，您們看到可能的大數據+AI平臺的發展方向\/技術趨勢是什麼？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"劉騁昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在未來，隨着更多的業務場景採用機器學習，模型的複雜度越來越高，大數據平臺中AI計算所佔的比例會進一步提高。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在AI技術方面，由於短視頻和信息流技術的發展，實時化的online learning會被更多業務場景採用。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"最後，隨着多方合作需求增加，以及國家對隱私保護和數據安全的法規逐步落地，以聯邦學習和多方安全計算爲代表的隱私計算技術會得到更廣泛的應用。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"活動推薦"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"11 月 5-6 日，AICon 全球人工智能與機器學習技術大會將落地北京國際會議中心。包括主題演講在內，本次大會共設置了 NLP 技術與應用、人工智能前沿技術、通用機器學習技術、計算機視覺實踐、推薦廣告技術與實踐、AI 工程師團隊建設與管理、認知智能的前沿探索、AI 與產業互聯網結合、大數據計算和分析、智能語音前沿技術應用、大規模預訓練模型進展、自動駕駛技術等 14 個專題。目前大會門票限時 8 折特惠中，購票歡迎聯繫票務小姐姐文柳：13269078023（電話同微信）"}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

RocketMQ 事件驅動：雲時代的事件驅動有啥不同？

作者：林清山（隆基）前言：從初代開源消息隊列崛起，到 PC 互聯網、移動互聯網爆發式發展，再到如今 IoT、雲計算、雲原生引領了新的技術趨勢，消息中間件的發展已經走過了 30 多個年頭。目前，消息中間件在國內許多行業的關鍵應用中扮演着

2024-04-15 21:12:21

智能製造與AI大模型

隨着科技的飛速發展，人工智能（AI）已經滲透到我們生活的方方面面，尤其在製造業中，AI大模型的應用正在改變着傳統的生產模式。本文將探討AI大模型在智能製造領域的應用，以及它如何成爲提升生產力的關鍵力量。首先，AI大模型爲智能製造提供了強大

2024-04-10 23:29:40

技術引領，策略升級：騰訊雲與你共探數字金融新篇章

引言 2024 年 3 月 27 日下午，在北京騰訊總部，一場關於大模型與數據要素時代數字金融發展的深入討論火熱進行中。【TVP 走進騰訊：大模型與數據要素時代的數字金融發展論壇】是在騰訊二十年發展歷程和數字化實踐的基礎上，進一步探索

2024-04-03 23:09:31

通義靈碼走進武漢大學：讓 AI 編碼助手激活大學生的創造力

阿里雲面向全國大學生正式啓動雲工開物“高校訓練營“，計劃在 15 座城市、70 所全國高校巡迴開營，幫助學生用雲計算與 AI 工具進行雲上開發及應用創新。首期高校訓練營-通義靈碼專場在武漢大學開營。本次分享，以阿里雲通義靈碼爲核心，聚焦代

2024-04-02 21:12:12

Redis開源協議調整，我們怎麼辦？

本文分享自華爲雲社區《Redis開源協議調整，我們怎麼辦？》，作者：華爲雲PaaS服務小智。 2024年3月20日, Redis官方宣佈，從 Redis 7.4版本開始，Redis將獲得源可用許可證 ( RSALv2 ) 和服務器端公共許可

2024-04-02 10:32:23

阿里雲 ApsaraMQ 率先完成消息隊列全系 Serverless 化，攜手 Confluent 發佈新產品

雲原生時代，消息隊列成爲現代化應用的關鍵組件，也是雲原生架構底層通信的基礎設施。阿里雲消息隊列發展至今已有十多年曆程。 3 月 29 日，在阿里雲最新一期的“飛天發佈時刻”上，阿里云云原生應用平臺負責人丁宇宣佈，雲消息隊列產品升級全新品牌

2024-04-01 21:12:25

AI、腦機接口、大數據，騰訊雲攜手行業領袖共探新一代數字化轉型

引言在數字化轉型的浪潮中，企業正面臨着前所未有的機遇與挑戰。這場轉型，既是技術的革新，也是管理和運營模式的徹底重塑。隨着人工智能、雲計算、大數據等技術的成熟和普及，它們如何實現從理論到實踐的躍遷，如何在企業中發揮最大價值，成爲了業界

2024-03-28 12:05:21

重新審視 CXL 時代下的分佈式內存

消息傳遞與分佈式共享內存隨着摩爾定律增長的逐漸減緩，系統規模的水平擴展已經成爲提升系統性能的關鍵策略。然而，這種擴展依賴於分佈式系統架構的支持，而分佈式編程的固有複雜性給構建高效、可靠及彈性的系統帶來了嚴峻挑戰。因此，簡化分佈式編程依舊

2024-03-22 00:28:31

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

裁員了！別錯過2024年大數據工程師必備的10項技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

DevOps已死？2024年的DevOps將如何發展

隨着我們進入2024年，DevOps也隨之發生變化。新興的技術、變化的需求和發展的方法正在重新定義有效實施DevOps實踐。 IDC預測顯示，未來五年，支持DevOps實踐的產品市場繼續保持健康且快速增長，2022年-2027年的複合年增長

2024-04-08 12:51:44

從模型到部署，教你如何用Python構建機器學習API服務

本文分享自華爲雲社區《Python構建機器學習API服務從模型到部署的完整指南》，作者：檸檬味擁抱。在當今數據驅動的世界中，機器學習模型在解決各種問題中扮演着重要角色。然而，將這些模型應用到實際問題中並與其他系統集成，往往需要構建API

2024-04-08 10:33:17

測試左移已經開始影響DevOps的發展？

在軟件開發的早期，該過程通常是開發人員編寫代碼，再將其交給質量保證（QA）進行測試。這種瀑布開發方法可能會導致質量問題和延遲，因爲問題是在週期後期發現的。一、瞭解DevOps和測試左移 DevOps是Development和Operati

2024-04-07 12:48:37

黑盒Prompt優化：提升大模型反饋效果的新思路

隨着人工智能技術的快速發展，大模型在各種應用場景中發揮着越來越重要的作用。然而，如何提升大模型的反饋效果，使其更加準確、高效地爲用戶提供服務，一直是研究者和開發者關注的焦點。本文提出了一種新的思路——黑盒Prompt優化，旨在通過改進輸入提

2024-03-29 00:01:17

分佈式數據庫技術的演進和發展方向

這些年大家都在談分佈式數據庫，各大企業也紛紛開始做數據庫的分佈式改造。那麼，所謂的分佈式數據庫到底是什麼？採用什麼架構？優勢在哪？爲什麼越來越多企業選擇它？分佈式數據庫技術會向什麼方向發展？帶着這些疑問，一探究竟吧！參與文末的話題互動

2024-03-26 11:34:43

24小時熱門文章

.NET開源強大、易於使用的緩存框架 - FusionCache

最新文章

最新評論文章