GPU有限，如何提高batch size

原創

2020-06-22 06:06

那么从：

https://github.com/mathildor/DeepLab-v3/blob/master/g3doc/faq.md

deeplabv3+也是谷歌团队，tensorflow就是他们的产品。可以看到提高batch size 的方法。

batchsize不仅对于batch normalization至关重要，而且梯度下降也需要一定的batchsize，比如batchsize=8

所以可以通过：

减少图片的面积，比如将图片crop到原来的一般大小。或者513*513->321*321,要注意2的倍数问题。
减小网络复杂度，将参数变少，比如换backbone。
并行使用更多GPU，这是普遍的用法，也是必须的，因为通常要8个甚至16个GPU一同工作。

注意使用：

     
      session_config.gpu_options.allow_growth = True
      with tf.train.MonitoredTrainingSession(
            master=FLAGS.master,
            is_chief=(FLAGS.task == 0),
            config=session_config,
            scaffold=scaffold,
            checkpoint_dir=FLAGS.train_logdir,
            summary_dir=FLAGS.train_logdir,
            log_step_count_steps=FLAGS.log_steps,
            save_summaries_steps=FLAGS.save_summaries_secs,
            save_checkpoint_secs=FLAGS.save_interval_secs,
            hooks=[stop_hook]) as sess:
          while not sess.should_stop():
            sess.run([train_tensor])

如果没有gpu_options.allow_growth我的一块gpu能跑batch size=3，如果加了这个设置，能跑batch size=4。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

LLVM技术在GaussDB等数据库中的应用

本文分享自華爲雲社區《【GaussTech第3期】LLVM技術在GaussDB等數據庫中的應用》，作者：GaussDB 數據庫。 Hi，別急！讓技術觸達每一個角落，賦能更多的人，GaussTech第3期《LLVM技術在GaussDB等數據

2024-06-03 10:59:24

Opal 机器学习平台：爱奇艺数智一体化实践

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

解读注意力机制原理，教你使用Python实现深度学习模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

AI从入门到入门之手写数字识别模型java方式Dense全连接神经网络实现

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

如何基于香橙派AIpro对视频/图像数据进行预处理

本文分享自華爲雲社區《如何基於香橙派AIpro對視頻/圖像數據進行預處理》，作者：昇騰CANN。受網絡結構和訓練方式等因素的影響，絕大多數神經網絡模型對輸入數據都有格式上的限制。在計算機視覺領域，這個限制大多體現在圖像的尺寸、色域、歸一

2024-04-19 10:32:52

基于香橙派AIpro将开源框架模型转换为升腾模型

本文分享自華爲雲社區《如何基於香橙派AIpro將開源框架模型轉換爲昇騰模型》，作者：昇騰CANN。在前面的介紹中，我們知道了如何基於香橙派AIpro開發AI推理應用，也大致瞭解到在推理之前，需要把原始網絡模型 (可能是 PyTorch 的

2024-04-12 10:32:18

大模型分布式训练并行技术

隨着深度學習的發展，模型規模逐漸增大，數據量和計算需求也呈爆炸式增長。在單個計算設備上完成大模型的訓練變得不切實際，因此，分佈式訓練成爲了解決這一問題的關鍵。在分佈式訓練中，數據並行是一種非常有效的策略，通過將數據和計算任務分佈到多個計算設

2024-04-10 23:29:41

TorchAcc：基于 TorchXLA 的分布式训练框架

本文旨在探討阿里雲 TorchAcc，這是一個基於 PyTorch/XLA 的大模型分佈式訓練框架。過去十年 AI 領域的顯著進步，關鍵在於訓練技術的革新和模型規模的快速攀升。儘管大模型展現了堪比人類的理解力，但其訓練卻對算力提出了極高的

2024-04-01 23:39:48

爱奇艺 CTR 场景下的 GPU 推理性能优化

01 背景介紹 GPU 目前大量應用在了愛奇藝深度學習平臺上。GPU 擁有成百上千個處理核心，能夠並行的執行大量指令，非常適合用來做深度學習相關的計算。在 CV（計

2024-03-15 15:57:51

京东广告算法架构体系建设--高性能计算方案最佳实践

1、前言推薦領域算法模型的在線推理是一個對高併發、高實時有較強要求的場景。算法最初是基於Wide & Deep相對簡單的網絡結構進行建模，容易滿足高實時、高併發的推理性能要求。但隨着廣告模型效果優化進入深水區，基於Transformer

2024-03-15 13:45:05

语言大模型的浮点运算分配优化策略

隨着人工智能技術的不斷髮展，語言大模型（Large Language Models, LLMs）在自然語言處理、語音識別、機器翻譯等領域的應用越來越廣泛。這些模型通常包含數十億甚至上萬億的參數，對計算資源和浮點運算能力提出了極高的要求。如何

2024-03-15 00:33:17

揭秘QQ的AI绘画大模型技术——QQGC深度解析

隨着人工智能技術的飛速發展，AI繪畫已經成爲了一個備受矚目的領域。在這個領域中，QQGC——QQ的AI繪畫大模型技術，憑藉其卓越的性能和實用性，贏得了廣大用戶的喜愛。那麼，QQGC到底是什麼？它是如何實現的呢？本文將對這些問題進行深入解析。

2024-03-08 00:41:36

阿里云容器服务助力万兴科技 AIGC 应用加速

2023 年堪稱是 AIGC 元年，文生圖領域誕生了 Stable Diffusion 項目，文生文領域誕生了 GPT 家族。一時間風起雲湧，國內外許多企業投身 AIGC 創新浪潮，各大雲廠商緊隨其後紛紛推出自己的大語言模型。在文生圖領域落

2023-12-28 01:18:57

轻松搭建基于服务网格的 AI 应用，然后开始玩

在 2023 年的雲棲大會中，阿里雲服務網格 ASM 推出了《兩全其美：Sidecarless 與 Sidecar 模式融合的服務網格新形態》主題演講，並在演講中展示了一個基於服務網格 ASM 各項能力構建的 DEMO AI 應用。該應用集

2023-12-01 12:48:04

便捷、快速、稳定、高性能！以 GPU 实例演示 Alibaba Cloud Linux 3 对 AI 生态的支持

日前，Alibaba Cloud Linux 3 爲使 AI 開發體驗更高效，提供了一些優化升級，本文爲“Alibaba Cloud Linux 3 AI 能力介紹”系列文章預告篇，以 GPU 實例爲例，爲大家演示 Alibaba Clou

2023-09-09 00:19:13

24小時熱門文章

最新文章

最新評論文章