原创 mr 問題

Maptask 超時問題(1) 1.Maptask超時問題情況描述 某個maptask重試四次後導致job失敗,失敗原因就是task超時,如下: ` AttemptID:attempt_1470311300058_6506513_m_00

原创 主流深度學習CTR模型

原文鏈接:https://mp.weixin.qq.com/s/i3_0eUUcbM4q9M09RTNspA 隨着微軟的Deep Crossing,Google的Wide&Deep,以及FNN,

原创 基於TensorFlow Serving的深度學習在線預估

一、前言 隨着深度學習在圖像、語言、廣告點擊率預估等各個領域不斷髮展,很多團隊開始探索深度學習技術在業務層面的實踐與應用。而在廣告CTR預估方面,新模型也是層出不窮: Wide and Deep[^1]、DeepCross Network

原创 使用TensorFlow訓練WDL模型性能問題定位與調優

簡介 TensorFlow是Google研發的第二代人工智能學習系統,能夠處理多種深度學習算法模型,以功能強大和高可擴展性而著稱。TensorFlow完全開源,所以很多公司都在使用,但是美團點評在使用分佈式TensorFlow訓練WDL模

原创 【轉載】網易新聞推薦:深度學習排序系統及模型

DataFun社區 大家好,今天分享的主題是:網易新聞客戶端信息流的個性化推薦中,深度學習排序系統及模型,這也是我們團隊在研發實踐中的一些經驗總結。 首先看一下在信息流場景中,個性化推薦的產品形態。左邊是網易新聞的頭條頻道,右邊是短視頻頻

原创 【轉載】基於 Kubeflow 的機器學習調度平臺落地實戰

作者: 範德良 周佳煊 張振華 機器學習,特別是深度學習,在蘑菇街這樣的電商平臺有大量實際業務的落地場景,比如搜索推薦、圖像算法、交易風控反作弊等等。隨着業務的快速發展,之前已有的基於 Yarn 的調度平臺已經無法滿足大規模機器學習的計

原创 【轉載】搜狗信息流推薦算法實踐(推薦工作流理解-召回、排序)

本文根據搜狗王東老師在 6 月 9 日,DataFunTalk 算法技術沙龍中分享的“搜狗信息流推薦算法交流”編輯整理而成,在未改變原意的基礎上稍做修改。 本次分享將從上面四個方面介紹,挑選了在信息流分享領域最重要的三個方面,從這三個方

原创 Kubernetes Informer 詳解

  Informer 簡介 Informer 基礎功能 Informer 是 Client-go 中的一個核心工具包。在 Kubernetes 源碼中,如果 Kubernetes 的某個組件,需要 List/Get Kubernetes

原创 calico 架構及跨節點通信原理介紹

0、背景及calico簡介 爲了搞定 AI on k8s的網絡環境,即誇節點容器通信的問題,在k8s多個網路解決方案中選擇了延遲表現最好的-calico方案,本文主要介紹calico 架構、組件及網絡通信原理,更多的細節在之後的文章中

原创 docker系列文章-基於centos7的docker ce 安裝教程

目錄 一、背景 二、centos7 上docker 安裝及配置說明 1.添加docker yum 源  2.選擇docker版本 3.docker安裝 4.docker配置 三、docker 常用操作   1. docker 啓動、停止及

原创 docker 系列文章-docker 介紹

目錄   一、docker 是什麼 二、docker中的基本概念 三、reference 一、docker 是什麼 Docker 最初是 dotCloud 公司創始人 Solomon Hykes 在法國期間發起的一個公司內部項目,它是基於

原创 MapReduce job Shuffle 過程的ERROR

1.錯誤描述 error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#43at org.apache

原创 Yarn shuffle OOM錯誤分析及解決

  Reference: 最近再補mapreduce相關的知識,該片文章引用同事前輩大宇神的博客文章!                     http://dj1211.com/?p=358                      大

原创 Spark-2.x 編譯構建及配置安裝

0. Spark-2.x 編譯環境準備 編譯服務器:ip 編譯目錄:/data10/spark/ 1. Spark-2.x編譯 a. note:提高Maven編譯時的堆內存大小,防止編譯過程中產生OOM異常,相關命令如

原创 maptask 超時問題 Timed out after 600 secs

Maptask 超時問題(1) 1.Maptask超時問題情況描述 某個maptask重試四次後導致job失敗,失敗原因就是task超時,如下: ` AttemptID:attempt_1470311300058_6506513_