CPU負載均衡之WALT學習【轉】

轉自：https://blog.csdn.net/xiaoqiaoq0/article/details/107135747/

前言

本文繼續整理CPU調度WALT相關內容，主要整理如下內容：

WALT是什麼？
WALT 計算？
WALT 計算數據如何使用？

1. WALT是什麼？

WALT：Windows-Assist Load Tracing的縮寫：
- 從字面意思來看，是以window作爲輔助項來跟蹤CPU LOAD；
- 實質上是一種計算方法，用數據來表現CPU當前的loading情況，用於後續任務調度、遷移、負載均衡等功能；

1.1 爲什麼需要WALT ？

對於一項技術的發展，尤其是一種計算方式的引入，一定是伴隨着過去的技術不在適用於當前事務發展的需要，或者這項技術可以讓人更懶；

1.1.1 PELT的計算方式的不足？

PELT的引進的時候，linux的主流還在於服務器使用，更多關注設備性能的體現，彼時功耗還不是考慮的重點，而隨着移動設備的發展，功耗和響應速度成爲被人們直接感知到的因素，成爲當前技術發展主要考慮的因素：

對於當前的移動設備，在界面處理的應用場景，需要儘快響應，否則user會明顯感覺到卡頓；
對於當前移動設備，功耗更是一個必須面對的因素，手機需要頻繁充電，那銷量一定好不了；
根據用戶場景決定task是否heavy的要求，比如顯示的內容不同，其task重要程度也不同，即同一個類別的TASK也需要根據具體情況動態改變；

而基於當前PELT的調度情況（衰減的計算思路），更能體現連續的趨勢情況，而對於快速的突變性質的情況，不是很友好：

對於快速上升和快速下降的情況響應速度較慢，由於衰減的計算過程，所以實際的Loading上升和下降需要一定週期後才能在數據上反饋出來，導致響應速度慢；
PELT基於其衰減機制，所以對於一個task sleep 一段時間後，則其負載計算減小，但是如果此時該Task爲網絡傳輸這種，週期性的需要cpu和freq的能力，則不能快速響應（因爲該計算方式更能體現趨向性、平均效果）

1.2 WALT如何處理

根據上述的原因，我們瞭解到，當前需要在PELT的基礎上（保持其好處），實現一種更能適用於當前需求的計算方式：

數據上報更加及時；
數據直接體現現狀；
對算力的消耗不會增加（算力）；

1.2.1 WALT 處理

我這裏總結了WALT所能（需要）做到的效果：

繼續保持對於所有Task-entity的跟蹤；
在此前usage（load）的基礎上，添加對於demand的記錄，用於之後預測；
每個CPU上runqueue 的整體負載仍爲所有Task統計的sum；
核心在於計算差異，由之前的衰減的方式變更爲劃分window的方式：數據採集更能快速體現實際變化（對比與PELT的趨勢），如下爲Linux官方的一些資料：
1. A task’s demand is the maximum of its contribution to the most recently completed window and its average demand over the past N windows.
2. WALT “forgets” blocked time entirely：即只統計runable和running time，可以對於Task的實際耗時有更準確的統計，可以通過demand預測；
3. CPU busy time - The sum of execution times of all tasks in the most recently completed window；
4. WALT “forgets” cpu utilization as soon as tasks are taken off of the runqueue；

1.2.2 應用補充

task分配前各個CPU和task負載的統計；
task migration 遷移
大小核的分配；
EAS 分配；

1.3 版本導入

linux 4.8.2 之後導入（但是在bootlin查看code，最新5.8仍沒有對應文件）
android 4.4之後導入（android kernel 4.9 中是有這部分的）

2. Kernel如何啓用WALT

android kernel code中已經集成了這部分內容，不過根據廠商的差異，可能存在沒有啓用的情況：

打開宏測試：
1. menuconfig ==》Genernal setup ==》CPU/Task time and stats accounting ==》support window based load tracking
2. 圖示：
直接修改
1. kernel/arch/arm64/config/defconfig中添加CONFIG_SCHED_WALT=y
build image 驗證修改是否生效：
demo:/sys/kernel/tracing # zcat /proc/config.gz | grep WALT

CONFIG_SCHED_WALT=y
CONFIG_HID_WALTOP=y
測試
當前只是在ftrace中可以看到確實有統計walt的數據，但是沒有實際的應用來確認具體是否有改善或者其他數據（當然Linux的資料中有一些數據，但是並非本地測試）；

3. WALT計算

本小節從原理和code 來說明，WALT採用的計算方式：

windows 是如何劃分的？
對於Task如何分類，分別做怎樣的處理？
WALT部分數據如何更新？
WALT更新的數據如何被調度、EAS使用？

3.1 Windows劃分

首先來看輔助計算項window是如何劃分的？
簡單理解，就是將系統自啓動開始以一定時間作爲一個週期，分別統計不同週期內Task的Loading情況，並將其更新到Runqueue中；

則還有哪些內容需要考慮？

一個週期即window設置爲多久比較合適？這個根據實際項目不同調試不同的值，目前Kernel中是設置的標準是20ms；
具體統計多少個window內的Loading情況？根據實際項目需要調整，目前Kernel中設置爲5個window；

所以對於一個Task和window，可能存在如下幾種情況：

ps：ms = mark_start（Task開始），ws = window_start（當前window開始）， wc = wallclock（當前系統時間）

Task在這個window內啓動，且做統計時仍在這個window內，即Task在一個window內；
Task在前一個window內啓動，做統計時在當前window內，即Task跨過兩個window；
Task在前邊某一個window內啓動，做統計時在當前window內，即Task跨過多個完整window；

即Task在Window的劃分只有上述三種情況，所有的計算都是基於上述劃分的；

3.2 Task 分類

可以想到的是，對於不同類別的Task或者不同狀態的Task計算公式都是不同的，WALT將Task劃分爲如下幾個類別：

上圖中有將各個Task event的調用函數列出來；

3.2.1 更新demand判斷

在更新demand時，會首先根據Task event判斷此時是否需要更新：

對應function：

static int account_busy_for_task_demand(struct task_struct *p, int event)
{
	/* No need to bother updating task demand for exiting tasks
	 * or the idle task. */
	 //task 已退出或者爲IDLE，則不需要計算
	if (exiting_task(p) || is_idle_task(p))
		return 0;

	/* When a task is waking up it is completing a segment of non-busy
	 * time. Likewise, if wait time is not treated as busy time, then
	 * when a task begins to run or is migrated, it is not running and
	 * is completing a segment of non-busy time. */
	// 默認 walt_account_wait_time是1，則只有TASK_WAKE 
	if (event == TASK_WAKE || (!walt_account_wait_time &&
			 (event == PICK_NEXT_TASK || event == TASK_MIGRATE)))
		return 0;

	return 1;
}

3.2.2 更新CPU busy time判斷

在更新CPU busy time時，會首先根據Task event判斷此時是否需要更新：

對應function：

static int account_busy_for_cpu_time(struct rq *rq, struct task_struct *p,
				     u64 irqtime, int event)
{
//是否爲idle task or other task？	
	if (is_idle_task(p)) {
		/* TASK_WAKE && TASK_MIGRATE is not possible on idle task! */
		// 是schedule 觸發的下一個task爲idle task
		if (event == PICK_NEXT_TASK)
			return 0;
	
		/* PUT_PREV_TASK, TASK_UPDATE && IRQ_UPDATE are left */
		// 如果是中斷或者等待IO的IDLE TASK，是要計算busy time的；
		return irqtime || cpu_is_waiting_on_io(rq);
	}

	//wake 喚醒操作不需要計算；
	if (event == TASK_WAKE)
		return 0;

	//不是IDLE TASK則以下幾個類型需要計算
	if (event == PUT_PREV_TASK || event == IRQ_UPDATE ||
					 event == TASK_UPDATE)
		return 1;

	/* Only TASK_MIGRATE && PICK_NEXT_TASK left */
	//默認是0
	return walt_freq_account_wait_time;
}

3.3 數據如何更新？（調用邏輯）

前邊兩個小結已經介紹了Task在window上統計邏輯和不同Task統計不同數據判斷，這裏具體來看核心調用邏輯，首先上一張圖：

這個圖是在xmind導出來的結構圖，不清楚是否可以放大查看，這裏具體介紹流程：

入口函數walt_update_task_ravg
demand更新函數
cpu busy time 更新函數

3.3.1 入口函數介紹

對應function：

/* Reflect task activity on its demand and cpu's busy time statistics */
void walt_update_task_ravg(struct task_struct *p, struct rq *rq,
		 int event, u64 wallclock, u64 irqtime)
{
	//判斷返回
	if (walt_disabled || !rq->window_start)
		return;
	lockdep_assert_held(&rq->lock);
	//更新window_start和cum_window_demand
	update_window_start(rq, wallclock);

	if (!p->ravg.mark_start)
		goto done;
	//更新數據：demand和busy_time
	update_task_demand(p, rq, event, wallclock);
	update_cpu_busy_time(p, rq, event, wallclock, irqtime);

done:
	// trace
	trace_walt_update_task_ravg(p, rq, event, wallclock, irqtime);
	// 更新mark_start	
	p->ravg.mark_start = wallclock;
}

函數主要做三件事情：

更新當前 window start時間爲之後數據更新做準備；
更新對應task的demand數值，需要注意這裏也會對應更新RQ中的數據；
更新對應task的cpu busy time佔用；

這個函數是WALT計算的主要入口，可以看到調用它的位置有很多，即上圖最左側內容，簡單來說就是在中斷、喚醒、遷移、調度這些case下都會更新Loading情況，這裏不一一詳細說明了；

task awakend

task start execute

task stop execute

task exit

window rollover

interrupt

scheduler_tick

task migration

freq change

3.3.2 更新window start

這裏主要是在計算之前更新window_start確保rq 窗口起始值準確：

對應function：

static void
update_window_start(struct rq *rq, u64 wallclock)
{
	s64 delta;
	int nr_windows;
	//計算時間
	delta = wallclock - rq->window_start;
	/* If the MPM global timer is cleared, set delta as 0 to avoid kernel BUG happening */
	if (delta < 0) {
		delta = 0;
		/*
		 * WARN_ONCE(1,
		 * "WALT wallclock appears to have gone backwards or reset\n");
		 */
	}

	if (delta < walt_ravg_window) // 不足一個window週期，則直接返回；
		return;

	nr_windows = div64_u64(delta, walt_ravg_window);//計算window數量
	rq->window_start += (u64)nr_windows * (u64)walt_ravg_window;//統計window_start時間

	rq->cum_window_demand = rq->cumulative_runnable_avg;//實質還得使用cumulative_runnable_avg
}

3.3.3 更新demand

3.3.3.1 demand主要邏輯：