2012.11.7

這幾天一直在做在線的語音識別Demo,核心的識別器是基於Google的的開放接口,使用十分方便,輸入爲flac格式的文件,輸出了JSON格式的結果。但外圍框架十分繁瑣,大部分在於使用了MIT的Wami網頁錄音接口。整個的框架涉及的模塊較多,有首先是HTML調用了PHP寫的錄音程序,生成Wav文件,由外圍工具flac將其轉換爲flac格式的文件,再由Python寫的識別程序進行識別,並最終將結果返回給HTML頁面,顯示給用戶。完整的流程還沒有搭建完,但各個模塊都已可正常工作。下圖爲規劃的框架圖:

 

期間遇到的問題:

1.*.tar.gz文件在rz上傳至服務器上後不能解壓,報錯“gzip: stdin: invalid compressed data--format violated. 。”不知是何種原因,後用SSH上傳解決。

2.用VIM查看二進制文件,像Wav,Flac這種結構化的二進制文件,已習慣直接看其二進制的頭文件,用vim -b *.wav後,再用%!xxd即可看到其16進制格式的內容,排列比UltraEdit還整齊一些。

0000000: 0038 4001 0000 0000 0000 0000 0000 ff00  .8@.............
0000010: 0102 5200 0400 0002 ff54 0001 0165 0001  ..R......T...e..
0000020: 005a 0014 0a0b 0158 0000 1772 0000 1771  .Z.....X...r...q
0000030: 0000 1770 1000 0001                      ...p....

注:Vim 把這些信息當作普通文本來對待。修改了十六進制部分並不導致可顯示字符部分的改變,反之亦然。只有十六進制部分的修改纔會被採用。右邊可顯示文本部分的修改忽略不計。

3.在配置網頁錄音時的不能錄音問題,其原因有兩個:1.在服務端的網絡要是可對外的,因爲MIT的相關接口要能進來;2.服務器端的保存音頻文件的目錄及父目錄要有可寫權限。chmod a+x mingyang2

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章