超級忙碌的一週

archiva項目又是沒有動過,課外書如果不是今天莫名其妙熬夜,也差不多沒有看。。。本週真是過得快。。。總結一下下我肯定會忘記的東西。。。:

一。重新看了看mpeg4的大綱。

         1。mpeg4希望建立起一個multimedia的系統,同時包括local的和remote的,類似於現今的文件系統,既然是文件系統,自然要定義一下系統方式,也就是DMIF network interface(DNI)。 DNI同學不過是一個定義了的接口,做事情的同學是TransMux Layer,這個同學比較任性,只要做的成事情,隨便怎麼做都可以,他通常使用的工具是UDP/IP, MEPG2 TS, AAL2 ATM, H223 PSTN等等。

         2。既然號稱multimedia了,那麼自然包羅萬象。video,text,audio,speech,2D/3D image全有了。這些在以前標準裏面擔任主角的同學們都降了一個檔次,被通稱爲object了,管理他們的是一個叫Scene description的老大。Scene description很牛,作爲文本文件的他可以單獨佔用一個流。聽說這樣可以方便他拍用戶和製作人員的馬屁,讓他們直接修改那些明星object的屬性。

         3。audio同學在我看的文檔裏面似乎沒有什麼進步,還是AAC,還有一個我不知道的TwinVQ。現在聽說AAC集團新加入了AAC plus,用了超級先進的***bond技術(忘記了),碼率大減。而speech就是HVXC和CELP,唉,又是我不太懂的東西,不過最先進的應該是WMA,去年纔出來的。在人造聲音方面,先是TTS的codec,mpeg4對於人工智能自然懶的多研究,定義了一個接口(TTSI)了事。然後就是structured audio了(比如著名的midi),但是mpeg4裏面當然不能叫做midi啦,所以用了比midi全面和通用的SAOL和SASL作爲接口。

        4。imgae和animation部分作爲video的一個子集也入了標準,包括了2d/3d Mesh+texture,臉部和身體動畫,對於Mesh的壓縮似乎利用偏移向量和affine矩陣,texture用了可愛的wavelet(天生具有scalability的好東西,可惜對於video的壓縮率不夠,值得研究啊),人臉不懂,貌似定義了一些預定動作和與聲音同步的方式;身體也就和3d的mesh差不多啦。。。

        5。video是我的最愛啊,這次嚴重考慮了網絡傳輸時候的robust,搞出了很多回復和定位的方法,比較有創意的是把運動向量和dct係數分的很開了,RVLC也終於入了mpeg。

        6。還有要記錄的的就是著名的fine grain scalablity技術,不過現在大家都應該知道了吧。。。

 

 

二。2個關於video segment的paper。

         第一篇是完全看不懂的數學,我看至關鍵部分很歡暢的放棄了。。。提一下paper的title:robost Segmentation and Tracking of Colored Objects in Video (IEEE Trans. on cCRICUITS AND SYSTEMS FOR VIDEO TECH. 2004).

         第二個我貌似懂過的,但是現在又不太懂了,在看了一眼回憶了大概,貌似是用KMCC做出第一個frame的segment(輸入是CIEL空間的顏色,避免luma的影響),然後自己設計了啓發式的trace方法去trace接下去每一個frame的segment(比較搞,用了bayes分類),和別人不一樣的是,他沒有先組合segment成object,而是trace完了才幹的,據他說效果不錯。組合的算法也號稱獨創,獨創往往意味着啓發式。。。大家心照:)。 貼一下title:Video Ojbect Segmentation Using Bayes -Based Temporal Trracking and Trajectory-Based Region Merging(IEEE Trans. on cCRICUITS AND SYSTEMS FOR VIDEO TECH.2004).

         兩個paper其實和我的research毫無關係啊,白白看了一個晚上。。。

 

嗯。其他的,忘了就忘了吧。。。。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章