kaldi源碼分析(四)-單音素訓練

steps/train_mono.sh

單音素訓練是使用kaldi進行所有傳統聲學模型訓練的起始部分,尤爲重要。在進行聲學模型訓練時,首先使用單高斯模型進行模型訓練。
聲學模型的對齊就是對每一幀數據進行標註,以英文識別爲例,數據的標註指的是將每一幀與其所表示的音素進行標記。

下面就講一下訓練的過程:

  1. 首先是初始化GMM,使用的腳本是 gmm-init-mono,輸出是0.mdl和tree文件;0.mdl爲初始化的GMM-HMM模型,其中tree表示的是決策樹,該決策樹在迭代過程中暫時不起作用。
  2. compile training graphs,使用的腳本是/kaldi/source/bin/compile-training-graphs,輸入是tree,0.mdl和L.fst,輸出是fsts.JOB.gz,其是在訓練過程中構建graph的過程;我的理解是就是構建詞圖lattice。
  3. 接下來是一個均勻對齊的操作,align-equal-compiled;
  4. 然後是基於GMM的聲學模型進行最大似然估計得過程,腳本爲 gmm-est;
  5. 然後進行迭代循環中進行操作,如果本步驟到了對齊的步驟,則調用腳本kaldi-kaldi/src/gmmbin/gmm-align-compiled;
  6. 重新估計GMM,累計狀態,用腳本/kaldi/src/gmmbin/gmm-acc-states-ali;調用新生成的參數(高斯數)重新估計GMM,調用腳本/kaldi-trunk/src/gmmbin/gmm-est;
  7. 對分散在不同處理器上的結果進行合併,生成.mdl結果,調用腳本gmm-acc-sum;
  8. 增加高斯數,如果沒有超過設定的迭代次數,則跳轉到步驟5重新進行訓練
  9. 最後生成的.mdl即爲聲學模型文件

#  本腳本使用的是CMN歸一化針對每一個說話人
# Begin configuration section.
nj=4
cmd=run.pl
scale_opts="--transition-scale=1.0 --acoustic-scale=0.1 --self-loop-scale=0.1"
num_iters=40    # Number of iterations of training
max_iter_inc=30 # Last iter to increase #Gauss on.
initial_beam=6 # beam used in the first iteration (set smaller to speed up initialization)
regular_beam=10 # beam used after the first iteration
retry_beam=40
totgauss=1000 # Target #Gaussians.
careful=false
boost_silence=1.0 # Factor by which to boost silence likelihoods in alignment
realign_iters="1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 23 26 29 32 35 38";
config= # name of config file.
stage=-4
power=0.25 # exponent to determine number of gaussians from occurrence counts
norm_vars=false # deprecated, prefer --cmvn-opts "--norm-vars=false"
cmvn_opts=  # can be used to add extra options to cmvn.
delta_opts= # can be used to add extra options to add-deltas
# End configuration section.

echo "$0 $@"  # Print the command line for logging

if [ -f path.sh ]; then . ./path.sh; fi
. parse_options.sh || exit 1;

if [ $# != 3 ]; then
  echo "Usage: steps/train_mono.sh [options] <data-dir> <lang-dir> <exp-dir>"
  echo " e.g.: steps/train_mono.sh data/train.1k data/lang exp/mono"
  echo "main options (for others, see top of script file)"
  echo "  --config <config-file>                           # config containing options"
  echo "  --nj <nj>                                        # number of parallel jobs"
  echo "  --cmd (utils/run.pl|utils/queue.pl <queue opts>) # how to run jobs."
  exit 1;
fi

data=$1
lang=$2
dir=$3

oov_sym=`cat $lang/oov.int` || exit 1;

# 按照任務數,將訓練數據分成nj份,每個任務處理其中的一份數據。

mkdir -p $dir/log
echo $nj > $dir/num_jobs
sdata=$data/split$nj;
[[ -d $sdata && $data/feats.scp -ot $sdata ]] || split_data.sh $data $nj || exit 1;

# 特徵歸一化選項,這裏默認指定要對variance進行歸一化,還可從外部接收其他歸一化選項,如果外部指定不對variance進行歸一化,則外部指定生效。

$norm_vars && cmvn_opts="--norm-vars=true $cmvn_opts"
echo $cmvn_opts  > $dir/cmvn_opts # keep track of options to CMVN.

feats="ark,s,cs:apply-cmvn $cmvn_opts --utt2spk=ark:$sdata/JOB/utt2spk scp:$sdata/JOB/cmvn.scp scp:$sdata/JOB/feats.scp ark:- | add-deltas ark:- ark:- |"
example_feats="`echo $feats | sed s/JOB/1/g`";

echo "$0: Initializing monophone system."

[ ! -f $lang/phones/sets.int ] && exit 1;
shared_phones_opt="--shared-phones=$lang/phones/sets.int"

if [ $stage -le -3 ]; then
  # Note: JOB=1 just uses the 1st part of the features-- we only need a subset anyway.
  # 獲取特徵的維度
  if ! feat_dim=`feat-to-dim "$example_feats" - 2>/dev/null` || [ -z $feat_dim ]; then
    feat-to-dim "$example_feats" -
    echo "error getting feature dimension"
    exit 1;
  fi
  # Flat-start(又稱爲快速啓動),作用是利用少量的數據快速得到一個初始化的 HMM-GMM 模型和決策樹
  # $lang/topo 中定義了每個音素(phone)所對應的 HMM 模型狀態數以及初始時的轉移概率
  # --shared-phones=$lang/phones/sets.int 選項指向的文件,即$lang/phones/sets.int(該文件生成roots.txt中開頭爲share split的部分,表示同一行元素共享pdf,允許進行決策樹分裂),文件中同一行的音素(phone)共享 GMM 概率分佈。tree文件由sets.int產生。
  # --train-feats=$feats subset-feats --n=10 ark:- ark:-| 選項指定用來初始化訓練用的特徵,一般採用少量數據,程序內部會計算這批數據的means和variance,作爲初始高斯模型。sets.int中所有行的初始pdf都用這個計算出來的means和variance進行初始化。
  $cmd JOB=1 $dir/log/init.log \
    gmm-init-mono $shared_phones_opt "--train-feats=$feats subset-feats --n=10 ark:- ark:-|" $lang/topo $feat_dim \
    $dir/0.mdl $dir/tree || exit 1;
fi
# 計算當前高斯數,(目標高斯數 - 當前高斯數)/ 增加高斯迭代次數 得到每次迭代需要增加的高斯數目
numgauss=`gmm-info --print-args=false $dir/0.mdl | grep gaussians | awk '{print $NF}'`
incgauss=$[($totgauss-$numgauss)/$max_iter_inc] # per-iter increment for #Gauss

# 構造訓練的網絡,從源碼級別分析,是每個句子構造一個phone level 的fst網絡。
# $sdaba/JOB/text 中包含對每個句子的單詞(words level)級別標註, L.fst是字典對於的fst表示,作用是將一串的音素(phones)轉換成單詞(words)
# 構造monophone解碼圖就是先將text中的每個句子,生成一個fst(類似於語言模型中的G.fst,只是相對比較簡單,只有一個句子),然後和L.fst 進行composition 形成訓練用的音素級別(phone level)fst網絡(類似於LG.fst)。
# fsts.JOB.gz 中使用 key-value 的方式保存每個句子和其對應的fst網絡,通過 key(句子) 就能找到這個句子的fst網絡,value中保存的是句子中每兩個音素之間互聯的邊(Arc),例如句子轉換成音素後,標註爲:"a b c d e f",那麼value中保存的其實是 a->b b->c c->d d->e e->f 這些連接(kaldi會爲每種連接賦予一個唯一的id),後面進行 HMM 訓練的時候是根據這些連接的id進行計數,就可以得到轉移概率。
if [ $stage -le -2 ]; then
  echo "$0: Compiling training graphs"
  $cmd JOB=1:$nj $dir/log/compile_graphs.JOB.log \
    compile-train-graphs $dir/tree $dir/0.mdl  $lang/L.fst \
    "ark:sym2int.pl --map-oov $oov_sym -f 2- $lang/words.txt < $sdata/JOB/text|" \
    "ark:|gzip -c >$dir/fsts.JOB.gz" || exit 1;
fi

if [ $stage -le -1 ]; then
  echo "$0: Aligning data equally (pass 0)"
  $cmd JOB=1:$nj $dir/log/align.0.JOB.log \
# 訓練時需要將標註跟每一幀特徵進行對齊,由於現在還沒有可以用於對齊的模型,所以採用最簡單的方法 -- 均勻對齊
# 根據標註數目對特徵序列進行等間隔切分,例如一個具有5個標註的長度爲100幀的特徵序列,則認爲1-20幀屬於第1個標註,21-40屬於第2個...
# 這種劃分方法雖然會有誤差,但待會在訓練模型的過程中會不斷地重新對齊。
    align-equal-compiled "ark:gunzip -c $dir/fsts.JOB.gz|" "$feats" ark,t:-  \| \
# 對對齊後的數據進行訓練,獲得中間統計量,每個任務輸出到一個acc文件。
# acc中記錄跟HMM 和GMM 訓練相關的統計量:
# HMM 相關的統計量:兩個音素之間互聯的邊(Arc) 出現的次數。
#                 如上面所述,fst.JOB.gz 中每個key對於的value保存一個句子中音素兩兩之間互聯的邊。
#                 gmm-acc-stats-ali 會統計每條邊(例如a->b)出現的次數,然後記錄到acc文件中。
# GMM 相關的統計量:每個pdf-id 對應的特徵累計值和特徵平方累計值。
#                 對於每一幀,都會有個對齊後的標註,gmm-acc-stats-ali 可以根據標註檢索得到pdf-id,
#                 每個pdf-id 對應的GMM可能由多個單高斯Component組成,會先計算在每個單高斯Component對應的分佈下這一幀特徵的似然概率(log-likes),稱爲posterior。
#                 然後:
#                    (1)把每個單高斯Component的posterior加到每個高斯Component的occupancy(佔有率)計數器上,用於表徵特徵對於高斯的貢獻度,
#                        如果特徵一直落在某個高斯的分佈區間內,那對應的這個值就比較大;相反,如果一直落在區間外,則表示該高斯作用不大。
#                        gmm-est中可以設置一個閾值,如果某個高斯的這個值低於閾值,則不更新其對應的高斯。
#                        另外這個值(向量)其實跟後面GMM更新時候的高斯權重weight的計算相關。
#                    (2)把這一幀數據加上每個單高斯Component的posterior再加到每個高斯的均值累計值上;
#                        這個值(向量)跟後面GMM的均值更新相關。
#                    (3)把這一幀數據的平方值加上posterior再加到每個單高斯Component的平方累計值上;
#                        這個值(向量)跟後面GMM的方差更新相關。
#                 最後將均值累計值和平方累計值寫入到文件中。
    gmm-acc-stats-ali --binary=true $dir/0.mdl "$feats" ark:- \
    $dir/0.JOB.acc || exit 1;
fi

# In the following steps, the --min-gaussian-occupancy=3 option is important, otherwise
# we fail to est "rare" phones and later on, they never align properly.
# 根據上面得到的統計量,更新每個GMM模型,AccumDiagGmm中occupancy_的值決定混合高斯模型中每個單高斯Component的weight;
# --min-gaussian-occupancy 的作用是設置occupancy_的閾值,如果某個單高斯Component的occupancy_低於這個閾值,那麼就不會更新這個高斯,
# 而且如果 --remove-low-count-gaussians=true,則對應得單高斯Component會被移除。
if [ $stage -le 0 ]; then
  gmm-est --min-gaussian-occupancy=3  --mix-up=$numgauss --power=$power \
    $dir/0.mdl "gmm-sum-accs - $dir/0.*.acc|" $dir/1.mdl 2> $dir/log/update.0.log || exit 1;
  rm $dir/0.*.acc
fi


beam=6 # will change to 10 below after 1st pass
# note: using slightly wider beams for WSJ vs. RM.
x=1
while [ $x -lt $num_iters ]; do
  echo "$0: Pass $x"
  if [ $stage -le $x ]; then
    if echo $realign_iters | grep -w $x >/dev/null; then
      echo "$0: Aligning data"
      # gmm-boost-silence 的作用是讓某些phones(由第一個參數指定)對應pdf的weight乘以--boost 參數所指定的數字,強行提高(如果大於1)/降低(如果小於1)這個phone的概率。
      # 如果多個phone共享同一個pdf,程序中會自動做去重,乘法操作只會執行一次。
      mdl="gmm-boost-silence --boost=$boost_silence `cat $lang/phones/optional_silence.csl` $dir/$x.mdl - |"
      # 執行force-alignment操作。
      # --self-loop-scale 和 --transition-scale 選項跟HMM 狀態跳轉相關,前者是設置自轉因子,後者是非自傳因子,可以修改這兩個選項控制HMM的跳轉傾向。
      # --acoustic-scale 選項跟GMM輸出概率相關,用於平衡 GMM 輸出概率和 HMM 跳轉概率的重要性。
      # --beam 選項用於計算對解碼過程中出現較低log-likelihood的token進行裁剪的閾值,該值設計的越小,大部分token會被裁剪以便提高解碼速度,但可能會在開始階段把正確的token裁剪掉導致無法得到正確的解碼路徑。
      # --retry-beam 選項用於修正上述的問題,當無法得到正確的解碼路徑後,會增加beam的值,如果找到了最佳解碼路徑則退出,否則一直增加指定該選項設置的值,如果還沒找到,就拋出警告,導致這種問題要麼是標註本來就不對,或者retry-beam也設計得太小。
      $cmd JOB=1:$nj $dir/log/align.$x.JOB.log \
        gmm-align-compiled $scale_opts --beam=$beam --retry-beam=$[$beam*4] --careful=$careful "$mdl" \
        "ark:gunzip -c $dir/fsts.JOB.gz|" "$feats" "ark,t:|gzip -c >$dir/ali.JOB.gz" \
        || exit 1;
    fi
       # 更新模型 
    $cmd JOB=1:$nj $dir/log/acc.$x.JOB.log \
      gmm-acc-stats-ali  $dir/$x.mdl "$feats" "ark:gunzip -c $dir/ali.JOB.gz|" \
      $dir/$x.JOB.acc || exit 1;

    $cmd $dir/log/update.$x.log \
      gmm-est --write-occs=$dir/$[$x+1].occs --mix-up=$numgauss --power=$power $dir/$x.mdl \
      "gmm-sum-accs - $dir/$x.*.acc|" $dir/$[$x+1].mdl || exit 1;
    rm $dir/$x.mdl $dir/$x.*.acc $dir/$x.occs 2>/dev/null
  fi
  # 線性增加混合高斯模型的數目,直到指定數量。
  if [ $x -le $max_iter_inc ]; then
     numgauss=$[$numgauss+$incgauss];
  fi
  # 提高裁剪門限。
  beam=10
  x=$[$x+1]
done

( cd $dir; rm final.{mdl,occs} 2>/dev/null; ln -s $x.mdl final.mdl; ln -s $x.occs final.occs )

utils/summarize_warnings.pl $dir/log

echo Done

# example of showing the alignments:
# show-alignments data/lang/phones.txt $dir/30.mdl "ark:gunzip -c $dir/ali.0.gz|" | head -4
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章