機器學習特徵系統在伴魚的演進

原創

伴鱼技术团队

2021-08-02 09:58

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"前言"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在"},{"type":"link","attrs":{"href":"https:\/\/www.infoq.cn\/u\/banyu\/publish","title":"xxx","type":null},"content":[{"type":"text","text":"伴魚"}]},{"type":"text","text":"，我們在多個在線場景使用機器學習提高用戶的使用體驗，例如：在伴魚繪本中，我們根據用戶的帖子瀏覽記錄，爲用戶推薦他們感興趣的帖子；在轉化後臺裏，我們根據用戶的繪本購買記錄，爲用戶推薦他們可能感興趣的課程等。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵是機器學習模型的輸入。如何高效地將特徵從數據源加工出來，讓它能夠被在線服務高效地訪問，決定了我們能否在生產環境可靠地使用機器學習。爲此，我們搭建了特徵系統，系統性地解決這一問題。目前，伴魚的機器學習特徵系統運行了接近 100 個特徵，支持了多個業務線的模型對在線獲取特徵的需求。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"下面，我們將介紹特徵系統在伴魚的演進過程，以及其中的權衡考量。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"特徵系統 V1"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵系統 V1 由三個核心組件構成：特徵管道，特徵倉庫，和特徵服務。整體架構如下圖所示："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/21\/c5\/2194e3e2088f0317fb62cd4c12dec4c5.jpg","alt":null,"title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵管道包括流特徵管道和批特徵管道，它們分別消費流數據源和批數據源，對數據經過預處理加工成特徵（這一步稱爲特徵工程），並將特徵寫入特徵倉庫。批特徵管道使用 "},{"type":"link","attrs":{"href":"https:\/\/spark.apache.org\/","title":"xxx","type":null},"content":[{"type":"text","text":"Spark "}]},{"type":"text","text":"實現，由 DolphinScheduler 進行調度，跑在 YARN 集羣上。出於技術棧的一致考慮，流特徵管道使用 Spark Structured Streaming 實現，和批特徵管道一樣跑在 YARN 集羣上。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵倉庫選用合適的存儲組件（Redis）和數據結構（Hashes），爲模型服務提供低延遲的特徵訪問能力。之所以選用 Redis 作爲存儲，是因爲："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"伴魚有豐富的 Redis 使用經驗。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"包括 "},{"type":"link","attrs":{"href":"https:\/\/doordash.engineering\/2020\/11\/19\/building-a-gigascale-ml-feature-store-with-redis\/","title":null,"type":null},"content":[{"type":"text","text":"DoorDash Feature Store"}]},{"type":"text","text":" 和 "},{"type":"link","attrs":{"href":"https:\/\/docs.feast.dev\/feast-on-kubernetes\/concepts\/stores#online-store","title":null,"type":null},"content":[{"type":"text","text":"Feast"}]},{"type":"text","text":" 在內的業界特徵倉庫解決方案都使用了 Redis。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵服務屏蔽特徵倉庫的存儲和數據結構，對外暴露 RPC 接口 "},{"type":"codeinline","content":[{"type":"text","text":"GetFeatures(EntityName, FeatureNames)"}]},{"type":"text","text":"，提供對特徵的低延遲點查詢。在實現上，這一接口基本對應於 Redis 的 "},{"type":"codeinline","content":[{"type":"text","text":"HMGET EntityName FeatureName_1 ... FeatureName_N"}]},{"type":"text","text":" 操作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這一版本的特徵系統存在幾個問題："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"算法工程師缺少控制，導致迭代效率低。這個問題與系統涉及的技術棧和公司的組織架構有關。在整個系統中，特徵管道的迭代需求最高，一旦模型對特徵有新的需求，就需要修改或者編寫一個新的 Spark 任務。而 Spark 任務的編寫需要有一定的 Java 或 Scala 知識，不屬於算法工程師的常見技能，因此交由大數據團隊全權負責。大數據團隊同時負責多項數據需求，往往有很多排期任務。結果便是新特徵的上線涉及頻繁地跨部門溝通，迭代效率低。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵管道只完成了輕量的特徵工程，降低在線推理的效率。由於特徵管道由大數據工程師而非算法工程師編寫，複雜的數據預處理涉及更高的溝通成本，因此這些特徵的預處理程度都比較輕量，更多的預處理被留到模型服務甚至模型內部進行，增大了模型推理的時延。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"爲了解決這幾個問題，特徵系統 V2 提出幾個設計目的："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"將控制權交還算法工程師，提高迭代效率。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"將更高權重的特徵工程交給特徵管道，提高在線推理的效率。"}]}]}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"特徵系統 V2"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵系統 V2 相比特徵系統 V1 在架構上的唯一不同點在於，它將特徵管道切分爲三部分：特徵生成管道，特徵源，和特徵注入管道。值得一提的是，管道在實現上均從 Spark 轉爲 Flink，和公司數據基礎架構的發展保持一致。特徵系統 V2 的整體架構如下圖所示："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/71\/71\/71bb73d26679a34950dac22f2a16a071.jpg","alt":null,"title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵生成管道讀取原始數據源，加工爲特徵，並將特徵寫入指定特徵源（而非特徵倉庫）。如果管道以流數據源作爲原始數據源，則它是流特徵生成管道；如果管道以批數據源作爲原始數據源，則它是批特徵生成管道。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵生成管道的邏輯由算法工程師全權負責編寫。其中，批特徵生成管道使用 HiveQL 編寫，由 DolphinScheduler 調度。流特徵生成管道使用 PyFlink 實現，詳情見下圖。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/dd\/50\/ddd1d9531a905b142eb5b23b24591950.jpg","alt":null,"title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"算法工程師需要遵守下面步驟："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"numberedlist","attrs":{"start":null,"normalizeStart":1},"content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":1,"align":null,"origin":null},"content":[{"type":"text","text":"用 Flink SQL 聲明 Flink 任務源（source.sql）和定義特徵工程邏輯（transform.sql）。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":2,"align":null,"origin":null},"content":[{"type":"text","text":"（可選）用 Python 實現特徵工程邏輯中可能包含的 UDF 實現（udf_def.py）。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":3,"align":null,"origin":null},"content":[{"type":"text","text":"使用自研的代碼生成工具，生成可執行的 PyFlink 任務腳本（run.py）。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":4,"align":null,"origin":null},"content":[{"type":"text","text":"本地使用由平臺準備好的 Docker 環境調試 PyFlink 腳本，確保能在本地正常運行。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":5,"align":null,"origin":null},"content":[{"type":"text","text":"把代碼提交到一個統一管理特徵管道的代碼倉庫，由 AI 平臺團隊進行代碼審覈。審覈通過的腳本會被部署到伴魚實時計算平臺，完成特徵生成管道的上線。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這一套流程確保了："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"算法工程師掌握上線特徵的自主權。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"平臺工程師把控特徵生成管道的代碼質量，並在必要時可以對它們實現重構，而無需算法工程師的介入。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵源存儲從原始數據源加工形成的特徵。值得強調的是，它同時還是連接算法工程師和 AI 平臺工程師的橋樑。算法工程師只負責實現特徵工程的邏輯，將原始數據加工爲特徵，寫入特徵源，剩下的事情就交給 AI 平臺。平臺工程師實現特徵注入管道，將特徵寫入特徵倉庫，以特徵服務的形式對外提供數據訪問服務。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵注入管道將特徵從特徵源讀出，寫入特徵倉庫。由於 Flink 社區缺少對 Redis sink 的原生支持，我們通過拓展 "},{"type":"link","attrs":{"href":"https:\/\/github.com\/apache\/flink\/blob\/master\/flink-streaming-java\/src\/main\/java\/org\/apache\/flink\/streaming\/api\/functions\/sink\/RichSinkFunction.java","title":null,"type":null},"content":[{"type":"text","text":"RichSinkFunction"}]},{"type":"text","text":" 簡單地實現了 "},{"type":"codeinline","content":[{"type":"text","text":"StreamRedisSink"}]},{"type":"text","text":" 和 "},{"type":"codeinline","content":[{"type":"text","text":"BatchRedisSink"}]},{"type":"text","text":"，很好地滿足我們的需求。其中，"},{"type":"codeinline","content":[{"type":"text","text":"BatchRedisSink"}]},{"type":"text","text":" 實現了批量寫入，大幅減少對 Redis server 的請求量，增大吞吐，將寫入效率提升了 7 倍，見"},{"type":"link","attrs":{"href":"https:\/\/tech.ipalfish.com\/blog\/2021\/06\/25\/flink-bulk-insert-redis\/","title":null,"type":null},"content":[{"type":"text","text":"博客"}]},{"type":"text","text":"。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵系統 V2 很好地滿足了我們提出的設計目的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"由於特徵生成管道的編寫只需用到 SQL 和 Python 這兩種算法工程師十分熟悉的工具，因此他們全權負責特徵生成管道的編寫和上線，無需依賴大數據團隊，大幅提高了迭代效率。在熟悉後，算法工程師通常只需花費半個小時以內，就可以完成流特徵的編寫、調試和上線。而這個過程原本需要花費數天，取決於大數據團隊的排期。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"出於同樣的原因，算法工程師可以在有需要的前提下，完成更重度的特徵工程，從而減少模型服務和模型的負擔，提高模型在線推理效率。"}]}]}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"總結"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"特徵系統 V1 解決了特徵上線的問題，而特徵系統 V2 在此基礎上，解決了特徵上線難的問題。在特徵系統的演進過程中，我們總結出作爲平臺研發的幾點經驗："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"平臺應該提供用戶想用的工具。這與 Uber ML 平臺團隊在內部推廣的"},{"type":"link","attrs":{"href":"https:\/\/eng.uber.com\/scaling-michelangelo\/","title":null,"type":null},"content":[{"type":"text","text":"經驗"}]},{"type":"text","text":"相符。算法工程師在 Python 和 SQL 環境下工作效率最高，而不熟悉 Java 和 Scala。那麼，想讓算法工程師自主編寫特徵管道，平臺應該支持算法工程師使用 Python 和 SQL 編寫特徵管道，而不是讓算法工程師去學 Java 和 Scala，或是把工作轉手給大數據團隊去做。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"平臺應該提供易用的本地調試工具。我們提供的 Docker 環境封裝了 Kafka 和 Flink，讓用戶可以在本地快速調試 PyFlink 腳本，而無需等待管道部署到測試環境後再調試。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"平臺應該在鼓勵用戶自主使用的同時，通過自動化檢查或代碼審覈等方式牢牢把控質量。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"作者：陳易生"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"原文：https:\/\/tech.ipalfish.com\/blog\/2021\/07\/30\/palfish-feature-system\/"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"原文：機器學習特徵系統在伴魚的演進"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"來源：伴魚技術博客"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"轉載：著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。"}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

京東廣告研發——效率爲王：廣告統一檢索平臺實踐

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

大模型區域落地再加速！百度“文心中國行”西部首站落地成都錦江

4 月 24 日，“文心中國行”西部地區首站落地成都錦江。成都市錦江區白鷺灣新經濟總部功能區、錦江區投資促進局與百度飛槳攜手合作，打造成都人工智能的新產業、新模式、新業態。來自成都政產學研各界的領導、專家、企業嘉賓，共同探討如何降低 AI

2024-04-25 11:41:53

文心中國行走進成都！4 月 24 日一起把握大模型時代的產業新機遇

4 月 24 日，文心中國行將走進成都。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，從人工智能政策解讀、大模型技術，到產業創新應用的實踐案例，讓參會者全方位瞭解大模型時期的發展與創新機遇。大會還特別

2024-04-23 11:41:07

文心大模型“你說我畫”：PaddleHub與PaddleSpeech的協同實踐

在人工智能領域中，自然語言處理和計算機視覺是兩個非常活躍的研究方向。隨着深度學習技術的發展，這兩個領域之間的交叉融合產生了許多令人興奮的應用場景。其中，“你說我畫”就是這樣一個結合自然語言處理和計算機視覺技術的創新應用。 “你說我畫”的核心

2024-04-22 11:29:20

探索時間序列大模型：TimeGPT的魅力與實踐

在數據科學的各個領域中，時間序列分析一直扮演着重要角色。無論是預測股票價格、氣候變化，還是分析醫療數據，時間序列模型都發揮着不可或缺的作用。然而，傳統的時間序列分析方法在處理複雜數據時常常面臨諸多挑戰，如數據稀疏性、非線性關係等。爲了應對這

2024-04-22 11:29:17

京東廣告研發——AIGC在京東廣告創意的技術應用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應用還存在缺乏

2024-04-22 11:16:30

Create 2024 分論壇：百度大模型安全解決方案護航開發者一起創造未來

4月16日，百度Create AI開發者大會在深圳國際會展中心（寶安）舉行，大會以“創造未來”爲主題，匯聚了當前科技和產業革命中的開發者先鋒力量。自去年3月16日發佈知識增強大語言模型文心一言以來，百度不斷推動文心大模型的升級迭代，每一次版

2024-04-19 21:33:25

AI大模型應用架構（ALLMA）白皮書解讀

隨着人工智能技術的不斷髮展，AI大模型成爲推動生產、生活方式變革，助推產業智能化轉型升級，驅動數字經濟高質量發展等社會經濟發展方面的新引擎。爲了全面展示AI大模型的發展全貌，爲各界提供新思路，本文將對AI大模型應用架構（ALLMA）白皮書進

2024-04-19 11:29:39

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

文檔圖像大模型

隨着信息技術的快速發展，文檔處理已經成爲日常生活和工作中不可或缺的一部分。傳統的文檔處理方法往往需要人工參與，效率低下且易出錯。近年來，隨着深度學習技術的突破，文檔圖像大模型在智能文檔處理領域嶄露頭角，爲提升文檔處理性能提供了新的解決方案。

2024-04-18 11:29:52

24小時熱門文章

最新文章

最新評論文章