最近需要用到voxceleb2的视频数据集做点东西, 但是发现从官网下载实在太过于费劲, 好不容易下载下来, 将将近300GB的文件切片上传至百度云. 希望能对需要这个数据集做事情的童鞋有点帮助.
^.^
1. 写在前面
我们使用的是牛津大学Zisserman大神率领的团队做的 <Voxceleb2: Deep Speaker Recognition>[1]
数据集的视频部分(因为我主要是做图像, 视频这块的…).
VoxCeleb2为超过6,000名名人提供超过100万个话语,上传到YouTube。该数据集具有性别平衡,61%的发言者为男性。发言者涉及各种不同的种族,口音,专业和语言。数据集中包含的视频是在大量具有挑战性的视觉和听觉环境中拍摄的。其中包括红地毯,室外体育馆和安静的室内工作室的采访,大量观众的演讲,专业拍摄多媒体的摘录,甚至是手持设备拍摄的粗略视频。喋喋不休,欢笑,重叠的语音和不同的房间声学。我们还为数据集中的说话人提供面部检测和面部轨迹,并且面部图像在野外也是类似的,具有姿势(包括轮廓),光照,图像质量和运动模糊的变化。
下图是Voxceleb2数据的分布情况, 可以看出, 男性数据占整体的61%, 女性占整体的39%. 在国籍方面, 美国29%排名第一, Voxceleb2主要以欧洲人为主.
对Voxceleb2的音频和视频文件的差别, 我有1句总结: " Voxceleb2的音频和视频是对应的同样的文件, 只不过视频文件是既有视频, 也有对应的音频, 但没有字幕. “”
此外, 由于视频数据量过大 (将近300G), 下载非常麻烦, 耗费了我将近2周, 在别人的帮助下才终于搞定. 于是我决定将其上传到百度云, 供需要的童鞋下载, 减轻他们的痛苦.
voxceleb2数据集概率图
2. 官方下载流程
当然, 如果你有强大的手段能高速的下载voxceleb2数据集, 可以直接从官方下载.
-
① 先填写一个表格, 获取下载所需的账号和密码. 填完会很快收到如下内容的邮件(马赛克部分即为账号和密码)
-
② 得到账号密码后, 即可在voxceleb2链接
[2]
下下载视频数据了, 可以用网页下载, 也可以用命令行wget -c xxxx(地址) --user xxx --password xxx
进行下载,-c
是断点续传功能, 因为数据量太大, 避免下载中断. -
③ 将voxceleb deva到devi都下载完毕后, 需要使用
cat vox2_dev* > vox2_mp4.zip
得到260G左右的压缩包, 将其解压即可得到145569个视频片段. 我们就可以对此进行处理, 来适配自己的任务了. (下面是我的处理日志)
3. 网盘
因为下载实在麻烦, 而且每个分卷都是30GB, 超出了百度网盘单个文件的上限, 因此我将压缩包vox2_mp4.zip
分解为15G的压缩卷, 将其上传到百度云上. 供大家下载使用, 减少痛苦~
下载完毕后, 使用cat voxceleb2_a* > vox2_mp4.zip
, 然后再解压vox2_mp4.zip
即可得到视频文件.
参考文献
[1] J. S. Chung*, A. Nagrani*, A. Zisserman <VoxCeleb2: Deep Speaker Recognition>
[2] The VoxCeleb2 Dataset