https://arxiv.org/pdf/2305.06355.pdf
一個理解視頻的大語言模型, 跟視頻裏面內容可以隨便問模型. 還是老方法直接第三章走起.
3. VideoChat:
直接看圖:
VideoChat分2個部分, 一個是VideoChat-Text 一個是VideoChatEmbed
VideoChat-Text 是 把視頻裏面內容轉化爲文字.
https://arxiv.org/pdf/2305.06355.pdf
一個理解視頻的大語言模型, 跟視頻裏面內容可以隨便問模型. 還是老方法直接第三章走起.
3. VideoChat:
直接看圖:
VideoChat分2個部分, 一個是VideoChat-Text 一個是VideoChatEmbed
VideoChat-Text 是 把視頻裏面內容轉化爲文字.