1 用法
# This script takes a list of utterance-ids or any file whose first field
# of each line is an utterance-id, and filters an scp
# file (or any file whose "n-th" field is an utterance id), printing
# out only those lines whose "n-th" field is in id_list. The index of
# the "n-th" field is 1, by default, but can be changed by using
# the -f <n> switch
用法:utils/filter_scp.pl utt.list utt2spk_all |sort -u > utt2spk
也可以這麼寫,加了一個<
新寫法:utils/filter_scp.pl < utt.list utt2spk_all |sort -u > utt2spk
utils/filter_scp.pl utt.list utt2spk_all |sort -u > utt2spk
utils/filter_scp.pl < utt.list utt2spk_all |sort -u > utt2spk
2 中文解釋
輸入參數【utt.list】
每行是一個utterance-id
輸入參數【utt2spk_all 】
每行是一個含有很多field字段的文本,其中第n序號字段是utterance-id
-f <n>
默認n爲1,即utt2spk_all 中的第1個字段就是utterance-id,可以自己指定
3 作用
將utt2spk_all 中 滿足utterance-id在utt.list中
的行給導出並重新生成給utt2spk文件
而 utt.list生成
可以從文本轉寫txt中得到,用以下命令:
awk '{print $1}' transcripts.txt > utt.list
transcripts.txt內容
transcripts.txt是一個以空格隔開的含有兩個字段(分別是utterance-id、text)的多行文本
通過awk打印出第一個字段(utterance-id)到utt.list
4 注意
awk 列數下標默認從1開始
其實utils/filter_scp.pl的作用是,utt2spk_all表 和 utt.list表(id表)【取交集】