對話英特爾戴金權：從筆記本到分佈式大數據，無縫擴展 AI | InfoQ大咖說

原創

2020-11-23 15:43

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"採訪嘉賓 | 戴金權"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在單機環境中，構建算法模型對數據科學家來說不算難事，但如何很方便地將整個分佈式架構構建起來、將算法模型應用到生產數據中，卻不是那麼容易的事情。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"目前，人工智能有不少落地場景，那麼落地的難點主要是哪些？這些算法模型在理想的實驗室場景和現實中的運行環境上都有哪些差別？大數據和AI的技術架構未來趨勢是什麼樣的？InfoQ大咖說請來了英特爾大數據技術全球CTO、大數據分析和人工智能創新院院長戴金權，他講述了他對技術的理解和未來趨勢的判斷。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"視頻回放可查看："}]},{"type":"embedcomp","attrs":{"type":"video","data":{"id":"301807","name":"10月28日大咖說從筆記本到分佈式大數據，無縫擴展AI","poster":"https:\/\/static001.infoq.cn\/resource\/image\/0f\/3d\/0fd05777f2fdff910954a2b686461a3d.jpg","url":"https:\/\/media001.geekbang.org\/06f1f1ef7fce4573aed7e524d3978f8b\/73a0b49069c641c08eeae3ff886b513f-692ac6f0be32c9b45a8c7c425ad98721-sd.m3u8"}}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/www.infoq.cn\/video\/CmFXSlFAAbgTG2zEOETF","title":"","type":null},"content":[{"type":"text","text":"https:\/\/www.infoq.cn\/video\/CmFXSlFAAbgTG2zEOETF"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"InfoQ：今天我們的直播請到了英特爾戴金權老師，您能簡單給我們的觀衆朋友們介紹一下您的個人經歷嗎？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"戴金權"},{"type":"text","text":"：經歷還挺簡單的。我在2002年碩士畢業之後加入英特爾，一開始是做一些大規模的並行計算的工作。到2007年左右，我們開始做大規模的分佈式計算，特別是大規模分佈式的數據處理。那時候還沒有“大數據”這個說法，但是我們開始在Hadoop等開源大數據平臺上做了非常多的研發。2014年左右，我們開始聚焦在大數據平臺上的各種分佈式的機器學習、深度學習，特別是大數據加AI的方向上，一直在做一些前沿技術及應用場景探索方向的工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"當年畢業加入英特爾的時候，英特爾在上海的實驗室還不是特別大，我們在底層系統上做了很多非常核心的研究工作，比如編譯器這種底層基礎軟件。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"現在很多深度學習的編譯器、深度學習的框架等等，其實都會使用非常大量的編譯器的技術。將深度學習、神經網絡的整個計算進行優化等等，就涉及到非常多的底層的系統級別的軟件技術。所以剛加入英特爾的時候所做的那些工作，是我們比較寶貴的經歷。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"InfoQ：這麼多年，您在英特爾也主導了好多技術產品研發工作，比較印象深刻的有哪些呢？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"戴金權"},{"type":"text","text":"：可能有幾個。其中一個就是，我們差不多2007、2008年的時候開始做Hadoop，差不多在2011年的時候，當時Hadoop已經很流行了，已經有很多人在使用，我們在這個過程中看到了很多用戶有很多新的需求，以此我們就開始思考怎麼樣才能夠滿足用戶新的需求，以及什麼是下一代的大數據技術，於是我們就開始投入到了Spark的工作中。雖然那時候Spark還是伯克利的一個PHD項目，但我們覺得Spark可能是一個比較有前景、能夠解決這些問題的一個項目。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"當時我們和伯克利的教授和研究生進行了討論，大家一起合作起來將Spark用到現實中的應用場景中。因此，英特爾應該也算是業界最早的參與到Spark研發過程中的企業，後來和伯克利以及Databricks一起將Spark帶成了Apache頂級項目。這個過程中，我們看到下一代的大數據的技術會是什麼樣子的，並且做了一些前沿的研究，把它變成一個工業級可用的平臺，將一個開源軟件項目構建成爲一個廣泛被接受和使用的項目。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在2017年的時候，我們舉辦了Strata Data & AI Conference北京（我作爲聯席主席），當時的一個主題就是“大數據十年”。大數據經過了十幾年的發展，大家慢慢的會發現以Hadoop爲核心的生態平臺，已經成爲了今天業內大數據分析處理的事實標準。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這裏面有非常多的組件：比如Hadoop裏有分佈式文件系統、調度管理、數據倉庫；比如Spark從某種意義上來說，是一個非常重要的分佈式計算引擎；Flink是更加偏向於實時、低延遲的流式計算引擎。在不同的應用場景裏面用到不同的計算框架，但是總的來說，它們還是一個大的大數據生態系統的一部分，各個部分互相協作，成爲了今天大數據處理分析平臺的基礎。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"InfoQ：現在業界其實有一種說法，就是說大數據分析跟AI平臺融爲一體的模式，正在成爲一種行業的新趨勢。您認爲這兩種有哪些差異和共同點？爲什麼未來會是一個融合的趨勢呢？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"戴金權"},{"type":"text","text":"：AI或者深度學習很多是從企業或大學裏的研究機構開始的，最開始可能會有一些特定的場景。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"比如說ImageNet基準數據集，可以用它"},{"type":"text","text":"進行分類，進行"},{"type":"text","text":"算法、"},{"type":"text","text":"模型上創新"},{"type":"text","text":"。最"},{"type":"text","text":"開始AI發展"},{"type":"text","text":"可"},{"type":"text","text":"能"},{"type":"text","text":"就是在這方面，但是到了今天其實很大的一個問題是怎麼樣將算法、模型上的創新，能夠真正應用到現實的生產環境當中去。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"現實生產環境會遠比在基準數據集上開發模型要複雜得多，而且很多時候還有比如髒數據等各種各樣的情況，那麼如何將深度學習等AI算法模型應用到現實場景中，這就涉及到一些調整。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"大家可以看到有很大一部分場景，特別是跟搜索、廣告、推薦等相關的應用場景，其實是一個典型的大數據流水線系統，通過大數據平臺來處理和管理點擊數據、交易數據。那麼我們做新的AI推薦算法的時候，有很大一部分工作就是處理大規模的數據層，進行特徵提取，進行工作流整合，將AI融入到大數據的流水線中。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"另外一類應用就是計算機視覺，它跟推薦又有所不同，是比較特定的一些算法和應用場景；還有自然語言處理也有自己的應用場景。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但是我們越來越看到，無論是視覺識別還是自然語言處理，現在大家都想把AI的能力嵌入到原來的業務的各個地方，大家有很多的算法、有標註好的數據、有自動標註過程。在文本處理或自然語言處理的過程中，很多人會使用大數據平臺做大規模分佈式的文本處理，然後再把這些AI算法用進來。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我覺得發展成融合大數據和AI的趨勢，是因爲今天AI不再是一個實驗室爲主的應用場景，而是要進入到一非常複雜的現實生產環境中，讓它能夠統一的端到端的運行，我覺得發展到了這個階段，大家就有了這樣的一個需求。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"舉個例子，我們最近和美國漢堡王有個合作，他們使用深度學習的推薦算法進行點餐，你可能不會想到點個漢堡也會用到這些技術。在企業這一端會對各種各樣的算法、模型進行創新，在學術界，又有一些新的方向，如小樣本、無標註，AutoML、自監督學習等，來解決比如說深度學習的問題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"InfoQ：您覺得目前AI在哪些場景上的落地做的不錯呢？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"戴金權"},{"type":"text","text":"：在我看來有幾個大的應用場景。第一個場景是剛纔提到的搜索推薦這一類，金融、人壽、電商都有應用，特別是在互聯網公司裏得到了非常廣泛的應用。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第二個場景，我個人把它總結爲“時間序列分析”。時間序列分析也有非常多的應用場景，比如說在製造行業進行設備預測性維護。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第三個場景在電信行業，比如對5G大規模的基站進行維護分析。還包括一些AIops，利用AI管理數據、設備等，對數據中心這些基礎設施進行管理。利用收集的Log信息進行分析、預測和報警。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"當然另外就是最開始的計算機視覺，這個可能就不用展開了，這個是非常非常多的、各種各樣的應用場景。自然語言處理也是一樣，有非常多的應用場景。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"InfoQ：但是企業想要利用好人工智能去做數據分析，自己也需要有一定的基礎架構，那麼一個典型的堆棧一般會包括哪些部分呢？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"戴金權"},{"type":"text","text":"：這個問題應該分成兩部分來回答，一方面是深度學習或者機器學習的幾個堆棧，底層有一些Library，對一些算子進行優化，當然也包括一些編譯器自動進行優化。上面有像TensorFlow、PyTorch這些機器學習或深度學習的框架。還有一方面是數據處理這一塊，如Spark、Flink、Kafka、Redis這些組件。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但是我覺得更重要一點，是怎麼樣構建一個統一的平臺，讓這些主件能夠在一個端到端的工作流裏，數據能夠非常好的進來存儲和處理，以及進行各種數據分析，包括特徵工程、建模等等。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"需要有這麼一個端到端的流水線，能夠將這些不同的組件有機的整合在一起，提供給你的應用開發人員、數據科學家、AI研究人員來進行使用。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"InfoQ：那麼英特爾的大數據\/AI平臺，在開發中遇到的一些挑戰？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"戴金權"},{"type":"text","text":"：我們有一個開源的項目叫"},{"type":"link","attrs":{"href":"https:\/\/github.com\/intel-analytics\/analytics-zoo","title":"","type":null},"content":[{"type":"text","text":"Analytics"}]},{"type":"link","attrs":{"href":"https:\/\/github.com\/intel-analytics\/analytics-zoo","title":"","type":null},"content":[{"type":"text","text":" "}]},{"type":"link","attrs":{"href":"https:\/\/github.com\/intel-analytics\/analytics-zoo","title":"","type":null},"content":[{"type":"text","text":"Zoo"}]},{"type":"text","text":"，從某種意義上來說，它提供了一個端到端的大數據"},{"type":"text","text":"分析"},{"type":"text","text":"加AI平臺，它把各種不同的組件，從TensorFlow、PyTorch等，再到Spark，Flink，包括Ray等，整合成一個端到端的流水線。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們希望通過提供這麼一個端到端的平臺，用戶可以在Hive或其他數據倉庫進行數據存儲，用Spark DataFrames進行處理，在運行TensorFlow模型，在內存中進行分佈式的訓練和運行推理等等。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"一方面我們用了一些開源組件，另一方面針對英特爾自己的硬件做了優化加速，將這些整合成一個統一的平臺，用戶可以用這個平臺進行處理分析。這是我們最早的一個重點工作，就是說怎麼樣將這些深度學習等AI算法模型可以直接運行在大數據平臺或流水線上，其次還能夠無縫的透明的把它擴展到大規模分佈式環境中。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"InfoQ：其實我們現在已經進入到這個以數字爲中心的世界，但得到分析的數據百分比卻不高，您認爲這是數據處理行業的一個現狀嗎？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"戴金權"},{"type":"text","text":"：我們的確可以看到數據的處理分析"},{"type":"text","text":"確實"},{"type":"text","text":"遠遠沒有達到我們希望的程度。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我可以舉兩個例子。一個例子是歐洲的核子研究機構，運行了世界上最大強子對撞機。對撞機差不多25納秒對撞一次，每秒產生1PB的數據，數據太大導致沒法存儲處理。我們跟他們有合作，他們希望構建一個深度學習的分類器，把這一PB的數據做各種分類，找到其中可能差不多10GB左右的數據，將它存儲下來，然後他們科學家再進行分析。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"另外一個場景是SK電信，針對的是他們的基站。他們可能有幾十萬個基站，每個基站會產生很多指標，差不多每五秒收集一次。因爲這個數據量也是非常驚人的，他們希望挖掘出裏面相關的信息去預測網絡的質量，去做異常檢測，或根因分析，這樣的話出狀況的時候能定位到問題。我們的合作到今天來說，可能第一步還做得不錯，就是我們能把它存下來，收集過來，做一些查詢和展示。我們還需要做一些更高層次的分析。目前我們也有一些初步的結果，比如說我們可以通過深度學習等方法做質量的預測等等，但是跟我們想要做的事情相比還差的比較遠。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"InfoQ：從概念的驗證到這個項目的投產，這個過程有很多的不確定因素，您認爲這個過程當中會導致項目失敗的原因可能會有哪些呢？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"戴金權"},{"type":"text","text":"：第一，需要針對應用場景進行定義。我們要構建一個機器學習應用場景的話，首先需要將問題變成一個正確的數學模型。因爲"},{"type":"text","text":"機"},{"type":"text","text":"器學習、深度學習就是對虛線進行擬合"},{"type":"text","text":"、"},{"type":"text","text":"優化一些指標，優化的指標需要跟應用的需求一致，這是一個非常關鍵的問題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第二，即使將它歸結成了一個已經定義好的問題，但我們還有很多的算法可以選擇。這些算法其實在設計"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"的時候，有很多論文，有很多開源的算法，但它們可能都是針對某一個場景某一個數據集進行設計和驗證的。機器學習有一個很著名的名言就是“沒有免費的午餐”。一個模型並不是在任何場景或任何數據集下都可用，如何將這些實驗室設計出來的模型，很好的運用在實際場景中，還需要一個調優的過程。現在的一個挑戰是，如果每一個應用場景都需要從頭到尾做一遍，我覺得就不太現實，因爲投入產出比會很差。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第三，需要有從數據處理，到模型的實驗，再到最後的上線驗證的平臺，將這些可能有80%的共性的東西進行平臺化，再在上面支撐各種不同的場景，不同的算法模型，並且還可以快速的迭代，這個也是一個決定性因素。這決定了大家能不能有效率的將這個應用給做出來，去改進一些產品、商業指標。如果這個代價太大的話，那麼改進也是一個失敗。做AI應用最後都變成針對某一種場景去做定製，這也是一個很常見的現象。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們在實驗室裏面，可能涉及的模型，可能跟現實中的系統優化的問題不一樣。比如說我舉一個例子，電信公司建設網絡時有一個時間序列預測的需求。我碰到過一些情況，構建的這個時間序列分析的模型開始時工作非常好。當時設計的時候，收集基站過去一個月，或者過去一年的時間的這些指標，進行時間序列預測分析，到使用時卻發現優化的目標跟設計時不一樣。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"爲什麼呢？因爲一個城市有幾十萬到幾百萬個這樣子的"},{"type":"text","text":"基站"},{"type":"text","text":"，我們沒有可能爲每個"},{"type":"text","text":"基站"},{"type":"text","text":"，設計一個訓練模型對它進行預測，在實施過程中就沒法去應用它。機器學習在場景中，模型問題的定義，跟實際的應用當中有偏差，就會導致做的很多工作不符合要求。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"InfoQ：如果我們以人的視覺來看待從驗證到投產的這個過程，那麼其中的算法的研究人員，以及應用的工程師，他們應該具備什麼樣的能力才能更好的保證落地成功呢？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"戴金權"},{"type":"text","text":"：我覺得現在的這個現狀，是算法工程師或者數據科學家構建出一個原型，但到應用中去卻存在一堵牆。算法工程師將原型扔過這堵牆，機器學習工程師或者數據工程師再進行改寫，構建一個可以運行和部署的程序。然後還得再扔過一堵牆，交給運維人員去運維上線。這還是非常普遍的一個現象。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我覺得從某種意義上來說，我們希望算法工程師、數據科學家和機器學習的工程師、數據工程師之間能夠有一個交叉。作爲一個算法的工程師，對模型算法設計非常瞭解，但是也得知道底層的系統是什麼樣子的，他所負責的內容是如何運行在這個系統上的。機器學習工程師也得知道上面的算法是長成什麼樣子的，怎麼樣能夠更好的支持這些算法，現實的生產環境中怎麼樣去部署。很多公司會是不同的團隊，當然也有些公司會是同一個團隊，但是不管怎麼說，都需要他們有一定的交叉，不同組織架構都能有一個共同的技術目標。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"InfoQ：您認爲大數據分析技術未來的趨勢會是什麼樣的？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"戴金權"},{"type":"text","text":"：我覺得主要有兩方面。一方面就是我之前提到，存儲數據可能不是最大的問題，有各種SQL的查詢、基於圖的分析等等技術可以利用起來。另一方面就是如何構建一個模型去做預測分析或一些自動化決策，利用機器學習、深度學習，更好的去分析數據進行數據洞察。將來比較有價值的一些應用場景是，要麼數據很少，或者有標籤的數據很少，可以用自監督學習這樣的方法來解決這些問題。在數據分析領域，圖神經網絡或者一些增強學習的方法，在某些問題上有比較好的前景。另外一個趨勢是模型越來越大，大規模的模型中如何進行數據的自動標註。也需要現有的需求出發，考慮將來的一些靈活性，考慮一些比較新的技術。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Analytics Zoo："},{"type":"link","attrs":{"href":"https:\/\/github.com\/intel-analytics\/analytics-zoo","title":"","type":null},"content":[{"type":"text","text":"https:\/\/github.com\/intel-analytics\/analytics-zoo"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"BigDL："},{"type":"link","attrs":{"href":"https:\/\/github.com\/intel-analytics\/BigDL","title":"","type":null},"content":[{"type":"text","text":"https:\/\/github.com\/intel-analytics\/BigDL"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

倒計時4天！百度Create AI開發者大會“大模型與深度學習技術”論壇亮點搶鮮看！

作爲人工智能的核心基礎技術，深度學習具有很強的通用性，大模型技術在深度學習的基礎上，通過構建更加龐大神經網絡模型和應用transformer等更加領先的算法，使模型的處理能力產生質的飛躍。飛槳（PaddlePaddle）以百度多年的深度學習

2024-04-12 21:33:07

server_id 引發的 MySQL 級聯複製同步異常

MySQL 級聯複製的坑，我幫你們踩了。作者：蔣士峯，愛可生 DBA 團隊成員，熟悉 MySQL，Oracle 等數據庫。每天的積累，時間久了，會帶來不一樣的收貨。愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明

2024-04-16 23:20:27

【安裝部署】Apache SeaTunnel 和 Web快速安裝詳解

版本說明由於作者目前接觸當前最新版本爲2.3.4 但是官方提供的web版本未1.0.0，不兼容2.3.4，因此這裏仍然使用2.3.3版本。可以自定義兼容處理，官方提供了文檔：https://mp.weixin.qq.com/s/Al1V

2024-04-16 12:22:36

MaxCompute 近實時增全量處理一體化新架構和使用場景介紹

隨着當前數據處理業務場景日趨複雜，對於大數據處理平臺基礎架構的能力要求也越來越高，既要求數據湖的大存儲能力，也要求具備海量數據高效批處理能力，同時還可能對延時敏感的近實時鏈路有強需求，本文主要介紹基於 MaxCompute 的離線近實時一體

2024-04-15 23:41:52

雲原生週刊：CNCF 2023 年度調查報告｜ 2024.4.15

開源項目推薦 highlight 該項目是一個開源全棧監控平臺。其功能包括錯誤監控、會話重放、日誌記錄、分佈式跟蹤等。 Helm Compose Helm Compose 是一個 helm 插件，用於在單個配置文件中管理一個或多個圖表的多個

2024-04-15 22:48:41

Higress 全新 Wasm 運行時，性能大幅提升

本文作者：澄潭，阿里雲 API 網關軟件工程師，Higress 開源項目主要貢獻者何良，Intel Web Platform Engineering 軟件工程師，WAMR 開源項目主要貢獻者本文介紹 Higress 將 Wasm 插件

2024-04-15 21:12:23

更優性能與性價比，從自建 ELK 遷移到 SLS 開始

作者：荊磊背景 ELK (Elasticsearch、Logstash、Kibana) 是當下開源領域主流的日誌解決方案，在可觀測場景下有比較廣泛的應用。隨着數字化進程加速，機器數據日誌增加，自建 ELK 在面臨大規模數據、查詢性能等方

2024-04-15 21:12:22

擁抱開源，擁抱未來 | vivo 積極支持並參與 The 2nd OSPO Summit

2024年3月28日-29日，第二屆 OSPO Summit 在深圳市南山區科興科學園會議中心成功舉辦。vivo 作爲本次大會的贊助商和籌備組成員之一，積極支持並參與了本次會議。 OSPO（Open Source Pro

vivo互聯網技術

2024-04-12 23:26:19

美團外賣基於GPU的向量檢索系統實踐

到家搜索業務具有數據量大、過濾比高等特點，爲了在保證高召回率的同時進一步提高檢索性能，美團到家搜索技術團隊與基礎研發機器學習平臺團隊基於GPU實現了支持向量+標量混合檢索的通用檢索系統，召回率與檢索性能均有較大提升。本文將介紹我們在GPU

2024-04-12 21:15:18

RAG應用開發實戰(01)-RAG應用框架和解析器

1 開源解析和拆分文檔第三方的工具去對文件解析拆分，去將我們的文件內容給提取出來，並將我們的文檔內容去拆分成一個小的chunk。常見的PDF word mark down, JSON、HTML。都可以有很好的一些模塊去把這些文件去進行一個

2024-04-12 01:06:38

裁員了！別錯過2024年大數據工程師必備的10項技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

從零開始學習大模型

隨着人工智能技術的快速發展，大模型已成爲許多領域的熱門話題。然而，大模型的創建並不是一件容易的事情。在本文中，我們將從零開始學習如何創建一個大模型，幫助讀者掌握大模型的創建過程。一、數據收集創建大模型的首要任務是收集數據。數據是大模型的

2024-04-16 11:29:26

智能Java開發工具IntelliJ IDEA v2024.1震撼發佈——讓開發工作更簡單！

IntelliJ IDEA，是java編程語言開發的集成環境。IntelliJ在業界被公認爲最好的java開發工具，尤其在智能代碼助手、代碼自動提示、重構、JavaEE支持、各類版本工具(git、svn等)、JUnit、CVS整合、代碼分析

2024-04-12 11:33:56

深度解析大模型推理框架：原理、應用與實踐

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

金融領域中的大模型Lora微調：實戰應用與性能優化

隨着金融行業的快速發展，大數據和人工智能技術的應用越來越廣泛。在這個背景下，深度學習模型在金融領域的應用逐漸受到重視。然而，傳統的深度學習模型在金融場景中面臨着數據量大、模型複雜度高、計算資源有限等挑戰。爲了解決這個問題，Lora框架應運而

2024-04-11 23:28:47

24小時熱門文章

最新文章

最新評論文章