tensorflow訓練過程控制callback

原創

2020-06-15 09:25

best_mean_reward, n_steps = -np.inf, 0


def callback(_locals, _globals):
	"""
	Callback called at each step (for DQN an others) or after n steps (see ACER or PPO2)
	:param _locals: (dict)
	:param _globals: (dict)
	"""
	global n_steps, best_mean_reward
	
	# Print stats every 1000 calls
	if (n_steps + 1) % 10 == 0:
		# Evaluate policy training performance
		x, y = ts2xy(load_results(log_dir), 'timesteps')
		if len(x) > 0:
			mean_reward = np.mean(y[-100:])
			print("timestep:{}, mean reward per 100 episode: {:.2f}".format(x[-1], mean_reward))
			
			# New best model, you could save the model here
			if mean_reward > 195:
				_locals['self'].save(log_dir + 'best_model.pkl')
				return False
				
	n_steps += 1


def train(env, trian_timesteps, algo):
	
	if algo == 'dqn':
		model = DQN('MlpPolicy', env, verbose=0)
	elif algo == 'ppo':
		env = DummyVecEnv([lambda: env])
		model = PPO2(MlpPolicy, env, verbose=0)
	else:
		env = DummyVecEnv([lambda: env])
		model = A2C(MlpPolicy, env, verbose=0)
		
	model.learn(total_timesteps=int(trian_timesteps), callback=callback)
	model.save("./trained_models/{}-{}-{}".format(algo, env_name, trian_timesteps))
	results_plotter.plot_results([log_dir], trian_timesteps, results_plotter.X_TIMESTEPS, "{}, {}".format(algo, env_name))
	plt.savefig("./trained_models/{}-{}-{}.png".format(algo, env_name, trian_timesteps))
	plt.show()
	print('{} {} training finished.'.format(algo, env))
	del model

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發75-獲取本地有哪些攝像頭名稱/Qt內置函數方式

一、前言在需要打開本地攝像頭的場景中，有個需求繞不開，那就是如何獲取本地有哪些攝像頭設備名稱，這樣可以提供下拉框給用戶選擇，不然你讓用戶去填設備名，你覺得用戶會知道是啥，他會操作嗎？就算你提供了詳細的查看步驟，估計也很難，如果用戶是程序員

2024-05-27 14:31:48

【BI 可視化插件】怎麼做？手把手教你實現

背景對於現在的用戶來說，插件已經成爲一個熟悉的概念。無論是在使用軟件、 IDE 還是瀏覽器時，插件都是爲了在原有產品基礎上提供更多更便利的操作。在 BI 領域，圖表的豐富性和對接各種場景的自定義是最吸引人的特點。雖然市面上現有的 BI 軟

葡萄城技術團隊

2024-05-27 14:30:48

lightdb 24.1新特性

J.1. 版本發佈 13.8-24.1 J.1.1. Oracle 兼容J.1.2. plorasql 增強J.1.3. MySQL 兼容J.1.4. lightdb 新特性J.1.5. ltjdbc 增強版本發佈日期：.

2024-05-27 14:28:37

sql server 修改表字段長度耗時問題分析

　　產品報了一個bug，保存某個單據時報錯，數據庫錯誤。本地調試後發現是某個表字段長度不夠導致，所以解決起來很簡單，優化下長度即可，通過ALTER TABLE修改表字段長度。　　通常這麼做無可厚非，字段不夠當然是加字段了。不過隨着業務量的

2024-05-27 14:27:07

微服務實踐k8s&dapr開發部署實驗（2）狀態管理

新建webapi項目建項目時取消https支持，勾選docker支持， Program.cs中註釋下面語句，這樣部署後才能訪問Swagger // Configure the HTTP request pipeline. //if

2024-05-27 14:25:07

Azure 知識培訓總結

　　結合之前兩年多對於 Azure 知識的學習，爲了響應公司的數字化轉型的需求，同時我們部門也開展了雲計算的學習大講堂，我作爲 Azure 知識的主講人，特此講這些分享認知整理以下，總結分享於大家。一、培訓目的　　在當今的數字化時代，雲

2024-05-27 14:24:37

Lakehouse 還是 Warehouse？(1/2)

Onehouse 創始人/首席執行官 Vinoth Chandar 於 2022 年 3 月在奧斯汀數據委員會發表了這一重要演講。奧斯汀數據委員會是“世界上最大的獨立全棧數據會議”，這是一個由社區驅動的活動，包括數據科學、數據工程、分析、機

2024-05-27 14:22:46

解密Prompt系列30. LLM Agent之互聯網衝浪智能體

這一章我們介紹能自主瀏覽操作網頁的WebAgent們和相關的評估數據集，包含初級任務MiniWoB++，高級任務MIND2WEB，可交互任務WEBARENA，多模態WebVoyager，多輪對話WebLINX，和複雜任務AutoWebGLM

風雨中的小七

2024-05-27 14:22:15

一個免費、時尚、強大的 Windows GitHub 客戶端

前言今天大姚給大家分享一個.NET開源（MIT License）、免費、時尚、功能強大的 Windows GitHub 客戶端：FluentHub。工具功能多任務標籤頁。上下文菜單擴展。對問題和PR進行評論。用戶/組織/代碼庫

2024-05-27 14:21:55

一文帶你瞭解.NET能做什麼？

前言在DotNetGuide技術社區微信交流羣經常看到有小夥伴問：.NET除了能寫桌面應用和Web應用還能做什麼？今天大姚將通過本篇文章來簡單講講.NET能做哪些開發，對.NET感興趣的小夥伴也可以自行領取文末附帶的.NET相關學習資料。

2024-05-27 14:21:55

委託、事務

委託（普通、多播）delegate OutParm delegateName（InParm1,InParm2,......）類似於函數指針 Delegate int Mydelegate(int a,int b) 用處：回調函數、篩選

2024-05-27 14:18:44

【ESP32】製作 Wi-fi 音箱（HTTP + I2S 協議）

用 Wifi 來傳輸音頻數據，會比藍牙更好。使用藍牙方式，不管你用什麼協議，都會對數據重新編碼，說人話就是有損音質，雖然不至於全損。而使用 Wifi 就可以將 PCM 數據直接傳輸，無需再編碼和壓縮。在 ESP32 開發板上可以通過 I2S

2024-05-27 14:16:44

記一次 .NET某企業數字化平臺崩潰分析

一：背景 1. 講故事前些天羣裏有一個朋友說他們軟件會偶發崩潰，想分析看看是怎麼回事，所幸的是自己會抓dump文件，有了dump就比較好分析了，接下來我們開始吧。二：WinDbg 分析 1. 程序爲什麼會崩潰 windbg 還是非常強大

2024-05-27 14:15:43

jenkins使用大全

部署 jenkins 相關網站 Jenkins官網：https://jenkins.io/Jenkins官網文檔：https://www.jenkins.io/zh/doc/Jenkins學習文檔：https://www.w3cschool

2024-05-27 14:13:52

賽克 1530（環形dp）

賽氪OJ-專注於算法競賽的在線評測系統 (saikr.com) 枚舉第一張卡片是由法力值降低還是法力值上升得到的，一共有4種情況，d[i][j][0]表示第i個卡牌選第j個法力值並且上一個卡牌的法力值大於j的所獲得的前i個卡牌的最大運氣值；

2024-05-27 14:10:21

24小時熱門文章

最新文章

最新評論文章