點擊閱讀原文可到大賽官網:https://naic.pcl.ac.cn/landingpage/2021/index.html
賽道一:AI+無線通信
賽題鏈接:https://www.heywhale.com/home/competition/61b810c9902a13001708eb21/
一、初賽階段
1、賽題描述
無線通信複雜多場景下的高維信道智能壓縮反饋及重建
賽題支持單位:東南大學移動通信國家重點實驗室、北京郵電大學-中國移動研究院聯合創新中心
1)賽題背景
當今大規模無線通信系統面臨着天線陣列擴增所帶來的高維信道狀態信息(CSI)的傳輸挑戰。隨着 6G 系統天線數量增長,高維信道信息維數大幅擴增,需要先在發射端進行壓縮再反饋,以減少傳輸開銷,之後在接收端進行解壓和重建,恢復原始的高維信道信息。信道狀態信息體現信道特性,可以被看作是高維低秩的圖像,信道狀態信息壓縮反饋重建的問題則可以被轉化爲高維低秩圖像的壓縮與重建問題。
近年來,人工智能 (AI) 在無線通信領域顯示出巨大潛力。AI 輔助的高維 CSI 壓縮與重建模型已經超越許多傳統算法,取得了非常好的性能。但系統在實際應用中往往面臨豐富且複雜的信道場景,且目前大部分 AI 模型只能適用於單一場景的信道信息,對於多場景信道信息適應能力較差。如何提升智能壓縮反饋網絡對複雜多場景 CSI 的適應性是目前的痛點和難點之一。
該賽題面向真實多場景通信需求,以海量複雜多場景數據爲驅動,充分挖掘 AI 的無限潛力,尋找出高效適用於多種場景 CSI 的智能壓縮反饋重建模型,賦予智能通信系統靈活性和通用性,有望解決現有智能通信方法的侷限,引領未來智能通信系統的前沿研究。
2)初賽任務
大賽將提供真實無線通信場景下采集的信道數據,鼓勵參賽選手採取數據驅動的思路和採用深度學習的方法來設計適用於真實多場景下的信道數據的低複雜度 AI 算法,在保持反饋開銷一定的情況下,儘量追求模型的重建精準度。
針對多個複雜場景下的真實大規模天線陣列通信信道,採集到的數據是 10,000 個信道數據樣本,覆蓋若干個複雜場景與採樣點。每個樣本是一個矩陣(單個樣本可視爲一張圖片)。隨機劃分 8,000 個樣本作爲訓練數據給予選手,2000 個樣本作爲驗證數據給予選手。選手需要設計合理的神經網絡結構來進行信道數據(等同於圖片)的壓縮和重建。
本賽題規定壓縮後的單個樣本大小爲 512 比特,即壓縮後傳輸的管道容量爲 512 比特。本賽題主要考察模型的重建誤差,即原始高維信道信息和經過壓縮重建後的信息之間的誤差。
2、數據描述
初賽訓練集:信道數據來源於多個複雜場景下采樣得到的真實無線信道信息,數據集包含 10,000 個信道數據樣本,覆蓋多個複雜場景,每個場景包含若干樣本。每個樣本是一個 126*128 的二維 CSI 矩陣(可以把單個樣本視爲一張圖片),其中 126 代表時延抽頭數目,128 代表天線數目(32 發 4 收)。每個場景內的 CSI 樣本具有一定的特徵相關度。
真實數據採樣配置參數如下:
數據來源 | 多場景實測數據 |
---|---|
頻段 | 3.5GHz |
帶寬 | 100MHz |
發射端天線配置 | 4×4雙極化天線均勻面陣,(4×4×2=32) |
接收端天線配置 | 1×2雙極化天線均勻線陣,(1×2×2=4) |
時延抽頭數目 | 126 |
樣本數 | N=10000 |
實測數據已經過部分數據預處理工作(包括去噪、DFT 轉化、歸一化處理(到[0,1])、實部虛部分開處理等),數據集格式說明如下:
數據名稱 | 格式說明 |
---|---|
訓練集:Htrain.mat | 8000×126×128×2的實數樣本樣本數:8000實部與虛部:2 |
驗證集:Htest.mat | 2000×126×128×2的實數樣本樣本數:2000實部與虛部:2 |
1)數據樣例
126×128 的 CSI 灰度圖樣例,分別爲實部、虛部、模值可視化
2)數據及參考材料下載
材料名稱 | 材料描述 | 下載鏈接 |
---|---|---|
初賽訓練集 | Htrain.mat包含 8,000 個信道數據樣本,Htest.mat包含 2,000 個信道數據樣本。 | 待上線後更新 |
示例程序(tensorflow版本) | 參考baseline | 待上線後更新 |
示例程序(pytorch版本) | 參考baseline | 待上線後更新 |
本次比賽數據由鵬城實驗室提供,僅可用於本次比賽,不得用於任何商業用途。
賽道二:AI+視覺特徵編碼
賽題鏈接:https://www.heywhale.com/home/competition/61b81042902a13001708eb17/
一、賽題背景
爲配合國家“加快數字化發展,建設數字中國”戰略,促進視覺信息智能編碼技術領域的原始創新積累,本次人工智能大賽設立“ AI+視覺特徵編碼賽道”(以下簡稱賽道)。
賽道面向視覺大數據應用,針對碼率約束條件下的機器視覺任務,探索視覺信息壓縮技術與智能處理分析技術的融合。傳統方案中視覺信息編碼和機器視覺任務作爲獨立模塊分別優化。區別於傳統路線,本賽道綜合考慮了視覺信息編碼效率和機器視覺任務性能,結合傳統信號處理技術與人工智能技術,提升精度,優化效率,改善泛化性。
賽道鼓勵選手:
聯合優化視覺信息編碼效率和機器視覺任務性能。
視覺特徵壓縮碼流應具有較好的泛化性。
視覺特徵壓縮模型與再識別算法應儘量降低計算複雜度。
賽題支持單位:中山大學電子與信息工程學院、北京大學計算機學院、數據堂(北京)科技股份有限公司
1、初賽任務
初賽任務包括行人/車輛視覺特徵編碼和行人/車輛再識別單獨的兩部分。
賽道主辦方提供行人/車輛的原始視覺特徵,選手按規定的預設碼率對特徵進行壓縮和重建。根據原始視覺特徵的重建誤差得分。
在初賽第一階段,選手需要進行再識別任務,獲取再識別性能得分。第一階段排名前 200 的團隊將進入初賽第二階段,進行重建特徵任務的測評,獲取重建誤差得分。
初賽得分爲重建誤差得分和再識別性能得分的加權平均值。
若初賽得分一致,將依據特徵重建任務中提供的模型算法先進性與創新性進行排序。
單幅圖像的特徵壓縮操作點(Operating Point)預設 3 個碼率:64 字節、128 字節和 256 字節。視覺特徵壓縮超過預設碼率視作無效。
2、複賽任務
複賽任務包括 3 部分聯合任務:行人/車輛視覺特徵提取、行人/車輛視覺特徵壓縮編碼以及行人/車輛重識別。
賽道主辦方提供行人/車輛圖像,選手需提取具有良好泛化性與語義抽象力的視覺特徵,按規定的預設碼率對該特徵進行壓縮和重建,並使用重建特徵進行再識別任務,獲得再識別任務性能得分。特徵壓縮超過預設碼率視作無效。
選手對大賽提供的視覺特徵進行壓縮和重建,根據特徵的重建誤差得分。特徵壓縮超過預設碼率視作無效。
複賽得分爲重建誤差得分和再識別任務性能得分的加權平均值。賽道主辦方將通過代碼及文檔複覈刷掉違規與存在嚴重異常的隊伍。
選手得分相近的情況下,依據文檔提供的模型算法先進性與計算複雜性的定量/定性分析進行排序。
單幅圖像的特徵壓縮操作點(Operating Point)預設 3 個碼率:64 字節、128 字節和 256 字節。視覺特徵壓縮超過預設碼率視作無效。
3、決賽任務
決賽任務包括 3 部分聯合任務:行人/車輛視覺特徵提取、行人/車輛視覺特徵壓縮編碼以及行人/車輛重識別。
賽道主辦方提供行人/車輛圖像,選手需提取具有良好泛化性與語義抽象力的視覺特徵,按規定的預設碼率對該特徵進行壓縮和重建,並使用重建特徵進行再識別任務,獲得再識別任務性能得分。特徵壓縮超過預設碼率視作無效。
選手對大賽提供的視覺特徵進行壓縮和重建,根據特徵的重建誤差得分。特徵壓縮超過預設碼率視作無效。
決賽客觀得分是重建誤差得分和再識別任務性能得分的加權平均值。主觀得分基於專家委員會對於特徵提取與壓縮編碼技術的先進性、複雜度、場景適配性的綜合考量。決賽最終得分是客觀得分和主觀得分的加權平均,客觀得分的權重爲80%,主觀得分的權重爲20%。
決賽將在鵬城雲腦超算平臺上進行。
單幅圖像的特徵壓縮操作點(Operating Point)預設 3 個碼率:16 字節、32 字節和 64 字節。視覺特徵壓縮超過預設碼率視作無效。
二、數據描述
初賽所用的訓練集將提供行人/車輛的原始視覺特徵,選手按規定的預設碼率對特徵進行壓縮和重建。根據原始視覺特徵的重建誤差得分。
所有參賽隊伍需要基於大賽提供的訓練集進行模型訓練與調優,並在給定的測試集上運行結果。
初賽、複賽、決賽的難度將遞增。
1、初賽訓練集
含有 259,450 個訓練特徵文件和對應的ID標籤,可以用於模型訓練
每個特徵文件提供行人或車輛的對應ID標籤,共有 259,478 個匹配對應關係
標註文件將由文本文件提供。文本文件每一行提供一個標註
標註格式爲:文件名 ID
文件組織結構如下:
train
├── train_feature
└── train_list.txt
2、初賽測試集
初賽測試集僅用於第一階段(再識別任務)的測評,測試集分 A/B 榜,不提供 ID 標籤,其中:
A榜( 開放時間:2021-12-20 (12:00:00 中午) 至 2022-02-13 (12:00:00 中午) ):測試集由 gallery_feature_A 與 query_feature_A 組成,其中 query_feature_A 包含 20,000 個特徵文件,gallery_feature_A 包含 428,794 個特徵文件,用於參賽隊伍模型評估;
B榜( 開放時間: 2022-02-13 (12:00:00 中午)至 2022-02-15 (12:00:00 中午)):測試集由 gallery_feature_B 與 query_feature_B 組成,其中 query_feature_B 包含 10,000 個特徵文件,gallery_feature_B 包含 210,939 個特徵文件。測試集將於B榜提交開始後在大賽頁面提供下載,用於第一階段最終的成績評定和排名。
文件組織結構如下:
test_A
├── gallery_feature_A
└── query_feature_A
test_B
├── gallery_feature_B
└── query_feature_B
三、數據下載
數據名稱 | 數據描述 | 下載鏈接 |
---|---|---|
初賽訓練集 | 含有 259,450 個特徵文件,特徵文件名與對應的原始圖像一致,特徵文件爲小端儲存的 32 位浮點數表示的固定長度序列。 | 待上線後更新 |
初賽第一階段A榜 | query包含 20,000 個特徵文件,gallery包含 428,794 個特徵文件,特徵文件名與對應的原始圖像一致,特徵文件爲小端儲存的 32 位浮點數表示的固定長度序列。 | 待上線後更新 |
初賽第一階段B榜 | query包含 10,000 個特徵文件,gallery包含 210,939 個特徵文件,特徵文件名與對應的原始圖像一致,特徵文件爲小端儲存的 32 位浮點數表示的固定長度序列。 | 待上線後更新 |