2012.11.7

原創

2018-09-05 00:58

這幾天一直在做在線的語音識別Demo，核心的識別器是基於Google的的開放接口，使用十分方便，輸入爲flac格式的文件，輸出了JSON格式的結果。但外圍框架十分繁瑣，大部分在於使用了MIT的Wami網頁錄音接口。整個的框架涉及的模塊較多，有首先是HTML調用了PHP寫的錄音程序，生成Wav文件，由外圍工具flac將其轉換爲flac格式的文件，再由Python寫的識別程序進行識別，並最終將結果返回給HTML頁面，顯示給用戶。完整的流程還沒有搭建完，但各個模塊都已可正常工作。下圖爲規劃的框架圖：

期間遇到的問題：

1.*.tar.gz文件在rz上傳至服務器上後不能解壓，報錯“gzip: stdin: invalid compressed data--format violated. 。”不知是何種原因，後用SSH上傳解決。

2.用VIM查看二進制文件，像Wav，Flac這種結構化的二進制文件，已習慣直接看其二進制的頭文件，用vim -b *.wav後，再用%!xxd即可看到其16進制格式的內容，排列比UltraEdit還整齊一些。

0000000: 0038 4001 0000 0000 0000 0000 0000 ff00 .8@.............
0000010: 0102 5200 0400 0002 ff54 0001 0165 0001 ..R......T...e..
0000020: 005a 0014 0a0b 0158 0000 1772 0000 1771 .Z.....X...r...q
0000030: 0000 1770 1000 0001 ...p....

注：Vim 把這些信息當作普通文本來對待。修改了十六進制部分並不導致可顯示字符部分的改變，反之亦然。只有十六進制部分的修改纔會被採用。右邊可顯示文本部分的修改忽略不計。

3.在配置網頁錄音時的不能錄音問題，其原因有兩個：1.在服務端的網絡要是可對外的，因爲MIT的相關接口要能進來；2.服務器端的保存音頻文件的目錄及父目錄要有可寫權限。chmod a+x mingyang2

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

2012.11.7

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

linux下編寫動態鏈接庫文件

Windows 7下筆記本無線網絡共享

從A點開始到B點通過最短的路一共有多少條

搭建thrift服務

CRF條件隨機場簡介

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結