DAIC-WOZ數據集

該數據庫是更大的語料庫(遇險分析訪談語料庫(DAIC))的一部分(Gratch等2014年),其中包含旨在支持診斷心理困擾的臨牀訪談焦慮,抑鬱和創傷後應激障礙等疾病。 這些採訪是收集作爲更大的努力的一部分,以創建一個可以採訪人並識別人的計算機代理精神疾病的言語和非言語指標(DeVault等,2014)。 收集的數據包括音頻和錄像和廣泛的問卷答覆; 語料庫的這一部分包括“綠野仙蹤”採訪,該採訪由動畫化的虛擬採訪者Ellie進行,由人控制面試官在另一個房間裏。 數據已被轉錄和標註爲多種語言和非語言特徵。

數據集介紹

該軟件包包括會話300-492的189個文件夾。 某些會議因技術原因已被排除在外原因(請參見下文)。 數據按會話分組。
在這裏插入圖片描述
排除的會議:342,394,398,460
包括的會議有特別說明:
• 373 –在5:52-7:00左右有一箇中斷,協助人員進入房間修理未成年人
技術問題,會議持續進行並完成。
• 444 – 4:46-6:27左右中斷,參與者的電話響了,協助人員進入房間以幫助他們將其關閉。 會議持續進行並完成。
•451,458,480 –會話在技術上已經完成,但是缺少了Ellie(虛擬人)的部分成績單。 參與者的筆錄仍然包括在內,但沒有面試官的問題。
•402 –在對話結束之前,視頻記錄被剪切約2分鐘。

train_split_Depression_AVEC2017.csv:此文件包含參與者ID ,PHQ8(Kroenke等人,20009)二進制標籤(PHQ8分數> = 10),PHQ8分數和參與者性別,並對每個正式訓練分割的PHQ8問卷的問題 。
PHQ8指患者的健康問卷。 詳細信息在文檔文件夾文件中提供:scherer_etal2015_VowelSpace.pdf
dev_split_Depression_AVEC2017.csv:此文件包含參與者ID,PHQ8二進制標籤,PHQ8問卷中每個問題的分數,參與者性別和PHQ8爲問卷中對與正式進行分割有利的每個問題的回答。

test_split_Depression_AVEC2017.csv:此文件包含參與者ID和參與者性別官方測試分組。
每個會話文件夾都包含以下文件(其中XXX是會話號,例如XXX = 301 in
文件夾301_P)。
在這裏插入圖片描述
Utility files shared(提供共享的函數文件):
在這裏插入圖片描述

########################################################

文件說明和功能文檔

本節介紹了每個會話共享的特定文件。 來自同一文件軟件按軟件分組。

1. CLNF框架輸出

T. Baltrušaitis, P. Robinson, L-P. Morency. OpenFace:開源的面部行爲分析。2016年IEEE冬季計算機視覺應用會議(WACV)
http://ieeexplore.ieee.org/abstract/document/7477553/
Link: https://github.com/TadasBaltrusaitis/OpenFace

Files:
1、XXX.CLNF_features.txt:
臉上有68個2D點。 文件格式如下:
“frame, timestamp(seconds), confidence, detection_success, x0, x1,…, x67, y0, y1,…,
y67”. 點以像素座標表示。
2、XXX_CLNF_AUs.csv :
“frame, timestamp, confidence, success, AU01_r, AU02_r, AU04_r, AU05_r, AU06_r, AU09_r, AU10_r, AU12_r, AU14_r, AU15_r, AU17_r, AU20_r, AU25_r, AU26_r, AU04_c, AU12_c, AU15_c, AU23_c, AU28_c, AU45_c”用“ _r”表示的值是每個動作單元的迴歸輸出和“ _c”是反映一個動作單元的二進制標籤存在或不存在0。 行動單位:
https://en.wikipedia.org/wiki/Facial_Action_Coding_System
3、XXX.CLNF_features3D.txt:
臉上有68個3D點。 文件格式如下:
“frame, timestamp(seconds), confidence, detection_success, X0, X1,…, X67, Y0, Y1,…, Y67, Z0, Z1,…, Z67”. 這些點在世界座標空間中以毫米爲單位,攝像頭位於(0,0,0)且軸與攝像頭對齊。
4、XXX.CLNF_gaze.txt:
“frame, timestamp(seconds), confidence, detection_success, x_0, y_0, z_0, x_1, y_1, z_1, x_h0, y_h0, z_h0, x_h1, y_h1, z_h1”
聚焦輸出爲4個向量,前兩個向量在世界座標空間中描述兩隻眼睛的聚焦方向,後兩個向量描述頭部座標空間(因此,如果眼睛向上滾動,即使
頭部轉動或傾斜)

5、XXX.CLNF_hog.bin:
使用Felzenswalb的HoG在對齊的112x112區域上以二進制文件格式顯示HOG臉 這導致每幀4464矢量。 它的存儲方式是字節流每幀都是:
“num_cols, num_rows, num_channels, valid_frame, 4464d
vector”. In the util folder there is a function。來自CLM的“Read_HOG_files.m”框架將HOG二進制格式讀取到matlab矩陣中。
6、XXX.CLNF_pose.txt:
“frame_number, timestamp(seconds), confidence, detection_success, X, Y, Z, Rx, Ry, Rz”。姿勢是6個數字的輸出,X,Y,Z是位置座標,Rx,Ry,Rz是頭部旋轉座標。 位置在世界座標中以毫米爲單位,旋轉爲以弧度和歐拉角約定(爲得到適當的旋轉矩陣,使用R = Rx * Ry * Rz)。
所有.txt文件都包含適當的標題。 每行代表一幀的結果。
“置信度”是[0,1]中的度量,代表跟蹤的置信度。

2、音頻文件

Audio file: XXX_AUDIO.wav (scrubbed)
頭戴式麥克風(Sennheiser HSP 4-EW-3)的音頻記錄頻率爲16kHz。 音頻文件可能包含少量的虛擬面試官(暫停); 使用成績單文件緩解
處理時出現此問題。 從音頻記錄中擦除可識別的語音,即在各時間波形歸零; 使用成績單文件和關鍵字**“ scrubbed_entry”**以發現這些實例。 清理後的條目也會在功能文件中清零。

3、成績單文件

XXX_TRANSCRIPT.csv (scrubbed)
轉錄約定:
•語料庫中的大寫單詞,但很少見。 如果存在,則大寫沒有意義,除了它是位置名稱。
•不完整的單詞應標註如下:
如果語音被截斷,請寫下完整的預期詞,然後加上在尖括號中實際發音的部 分:人。;
評論只供人類讀者使用;
抄寫整個單詞的原因是爲了避免混淆。
通過在非單詞上訓練處理模塊。
無法識別的單詞表示爲“ xxx”

語音重疊由重疊的時間戳指示。
•成績單文件是 “tab separated” 文件。
•參與者ID 363上方的虛擬採訪者的筆錄會自動生成,並且在方括號中提供語音內容之前包含語音的唯一標識符。
例如: 165.854 166.324 Ellie yeah3 (yeah)

4、音頻特徵

音頻功能是使用COVAREP工具箱(v.1.3.2)提取的,該工具箱位於:
https://github.com/covarep/covarep
文件:
•XXX_COVAREP.csv (scrubbed): 提取了以下功能:
1、所有音頻功能(包括共振峯;請參見下文)均爲10毫秒。 因此,
音頻功能以100Hz採樣。
2、F0, VUV, NAQ, QOQ, H1H2, PSP, MDQ, peakSlope, Rd, Rd_conf, MCEP_0-24、HMPDM_0-24, HMPDD_0-12
3、可以在COVAREP網站上找到每個功能的說明,以及提供的COVAREP出版物中。 此外,有關特徵提取的確切步驟的信息,詳細信息請參見
通過github提供的COVAREP腳本中引用的出版物。
4、一個重要方面是,如果VUV(發聲/發聲)提供了標記({0,1}),
當前段已濁或清濁。 在清音的情況下,即VUV = 0,人聲褶皺沒有振動,因此值例如F0,NAQ,QOQ,不應使用H1H2,PSP,MDQ,peakSlope和Rd。
5、清理後的條目設置爲零。

** XXX_FORMANT.csv (scrubbed) **

*包含前5個共振峯,即聲道
共振頻率,這些頻率在整個採訪中都會被追蹤。
清理後的條目設置爲零。

參考文獻

Jonathan Gratch, Ron Artstein, Gale Lucas, Giota Stratou, Stefan Scherer, Angela Nazarian,
Rachel Wood, Jill Boberg, David DeVault, Stacy Marsella, David Traum, Skip Rizzo, Louis-Philippe
Morency, “The Distress Analysis Interview Corpus of human and computer interviews”,
Proceedings of Language Resources and Evaluation Conference (LREC), 2014
DeVault, D., Artstein, R., Benn, G., Dey, T., Fast, E., Gainer, A., Georgila, K., Gratch, J., Hartholt,
A., Lhommet, M., Lucas, G., Marsella, S., Morbini, F., Nazarian, A., Scherer, S., Stratou, G., Suri,
A., Traum, D., Wood, R., Xu, Y., Rizzo, A., and Morency, L.-P. (2014). “SimSensei kiosk: A virtual
human interviewer for healthcare decision support”. In Proceedings of the 13th International
Conference on Autonomous Agents and Multiagent Systems (AAMAS’14), Paris
Degottex, G.; Kane, J.; Drugman, T.; Raitio, T.; and Scherer, S., COVAREP - A collaborative voice
analysis repository for speech technologies. In Proceedings of IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP 2014), pages 960-964, 2014.
Kroenke K, Strine TW, Spitzer RL, Williams JB, Berry JT, Mokdad AH. The PHQ-8 as a measure of
current depression in the general population. Journal of affective disorders. 2009 Apr
30;114(1):163-73.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章