開源大數據週刊-第100期

資訊

  • 領英開源TonY:構建在Hadoop YARN上的TensorFlow框架
    領英在 YARN 上構建了一個 TensorFlow 框架 TonY 並將其開源。本文介紹了 TonY 的內部細節、領英實現並用來在 Hadoop 上擴展分佈式 TensorFlow 的功能以及實驗結果。
  • Databricks:96%的企業在執行AI項目時面臨着數據相關的問題
    Databricks發佈了美國和歐洲大型公司的AI難題的調查結果。只有1/3的人工智能項目取得了成功,更重要的是企業從概念轉向生產需要六個多月。這些挑戰背後的主要原因是96%的企業面臨着數據相關的問題,如孤島和不一致的數據集。80%的企業引發了重大的組織摩擦,如數據科學家和數據工程師之間缺乏協作。90%的受訪者表示在整個機器學習生命週期中統一數據科學和數據工程的方法將克服AI難題。
  • Spark、Flink、CarbonData技術實踐最佳案例解析
    作爲Spark Structured Streaming最核心的開發人員、Databricks工程師,Tathagata Das(以下簡稱“TD”)在開場演講中介紹了Structured Streaming的基本概念,及其在存儲、自動流化、容錯、性能等方面的特性,在事件時間的處理機制,最後帶來了一些實際應用場景。

技術

  • 如何構建一個企業的大數據分析平臺
    大數據分析處理平臺就是整合當前主流的各種具有不同側重點的大數據處理分析框架和工具,實現對數據的挖掘和分析,一個大數據分析平臺涉及到的組件衆多,如何將其有機地結合起來,完成海量數據的挖掘是一項複雜的工作。在搭建大數據分析平臺之前,要先明確業務需求場景以及用戶的需求,通過大數據分析平臺,想要得到哪些有價值的信息,需要接入的數據有哪些,明確基於場景業務需求的大數據平臺要具備的基本的功能,來決定平臺搭建過程中使用的大數據處理工具和框架。
  • 30PB數據1年內遷移到Spark,eBay的經驗有何可借鑑之處?
    eBay 使用 Teradata 已經有二十年的歷史,這個數倉系統中積累了 60PB 數據和上萬張核心表,他們支撐着 eBay 最核心的商務邏輯和站點功能。從今年開始,eBay 開始將這個龐大的數倉由 Teradata 向 Spark 做遷移,使用 eBay 自己開發的工具,遷移過程中 90% 的工作都可以由自動化完成。與此同時,研究人員通過優化 Spark 框架,節省了一半的內存。
  • 比拼生態和未來,Spark和Flink哪家強?
    在前一篇文章《Spark 比拼 Flink:下一代大數據計算引擎之爭,誰主沉浮?》中,作者對 Spark 和 Flink 的引擎做了對比。但對於用戶來說,引擎並不是考慮數據產品的唯一方面。開發和運維相關的工具和環境、技術支持、社區等等,對能不能在引擎上面做出東西來都很重要,這些構成了一個產品的生態。可以說,引擎決定了功能和性能的極限,而生態能讓這些能力真正發揮出作用。。
  • 喜大普奔!TensorFlow終於支持A卡了
    近日,Google 宣佈推出適用於 ROCm GPU 的 TensorFlow v1.8,其中包括 Radeon Instinct MI25。對於 AMD 正在進行的深度學習加速工作而言,這是一座重大的里程碑。 ROCm 即 Radeon 開放生態系統 (Radeon Open Ecosystem),是我們在 Linux 上進行 GPU 計算的開源軟件基礎。而 TensorFlow 實現則使用了 MIOpen,這是一個適用於深度學習的高度優化 GPU 例程庫。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章