達芬奇機器人變身‘模仿達人’,通過看視頻模仿手術縫合、穿針、打結等動作...

點擊上方“3D視覺工坊”,選擇“星標”

乾貨第一時間送達

模仿是最原始的學習方法,也是實現人工智能的基石。

通過深度學習和算法,機器人也可以通過看視頻學會各種各樣的技能。

先看個圖:

是不是覺得有點眼熟。

沒錯,它就是技藝高超,被大家所熟知的達芬奇機器人。

這次它又被賦予了新功能:通過觀看教學視頻,學會外科手術中的相關任務。比如縫合,穿針,以及打結等動作。

讓達芬奇機器人變成‘模仿藝人’的關鍵,是一個叫做Motion2Vec的半監督式學習算法,近日由谷歌大腦,英特爾公司和加利福尼亞大學伯克利分校合作開發。

起初,加州大學伯克利分校的教授曾使用YouTube視頻作爲機器人學習各種動作(例如跳躍或跳舞)的指南。機器人模仿視頻中的動作,成功學習了20多種雜技,比如側空翻、單手翻、後空翻等高難度動作。

谷歌此前也有過相關研究,例如使用視頻來教授四足機器人學習狗狗的靈活動作。

這些經歷促成了他們彼此的合作,他們將這些知識應用於最新項目Motion2Vec中,在這個過程中,使用了實際手術過程的視頻進行指導和訓練。

在最近發佈的論文中,研究人員概述了他們如何使用YouTube視頻訓練兩臂的達芬奇機器人在織布機上插入針頭並進行縫合。

人類在看視頻的時候可以迅速理解內容,但機器人目前無法做到這一點,它們只是將其視爲像素流。因此,要以機器人的方式讓他們理解並學習——弄清並分析這些像素,然後將視頻分割成有意義的序列。

事實上,Motion2Vec算法的開發主要基於暹羅網絡和遞歸神經網絡。

暹羅網絡(Siamesenetwork)就是“連體的神經網絡”,神經網絡的“連體”是通過共享權值來實現的。它的主要功能是衡量兩個物體的相似度。比如,看看某兩個人長得像不像。

這樣,研究人員就可以將視頻中相同動作段的圖像放到一起,並給它們做一個標記,比如‘針頭插入’,或‘瞄準位置’等,從而對視頻中的圖像進行分割和分類。

然後,研究人員使用遞歸神經網絡來找到那些沒有被標記的圖像,這些圖像會反饋到暹羅網絡中以改善動作片段的比對。

對於縫合任務,研究團隊僅需要78個教學醫學視頻即可訓練其AI引擎執行該過程,成功率爲85%。

這似乎意味着機器人可以在外科手術中承擔一些更基本,重複性的任務,但它們目前還無法完全代替醫生來做手術。

加州大學伯克利分校實驗室的負責人KenGoldberg解釋說“我們想要看到的是,機器人在做基本縫合任務,而外科醫生能夠監視手術過程,比如像機器人表明他們想要在哪一排進行縫合,或傳達出希望進行六次覆膜縫合的想法。” “這樣,機器人能代替外科醫生做最基本的任務,讓醫生們得到更多的休息,並能夠專注於手術中更復雜或更細微的部分。”

論文直通車

論文題目:

Motion2Vec:Semi-Supervised Representation Learning from Surgical Videos

論文鏈接:

http://www.ajaytanwani.com/docs/Tanwani_Motion2Vec_arxiv_2020.pdf

項目來源:

https://sites.google.com/view/motion2vec

END

推薦閱讀

重磅!3DCVer-學術論文寫作投稿 交流羣已成立

掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿 微信交流羣,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。

同時也可申請加入我們的細分方向交流羣,目前主要有3D視覺CV&深度學習SLAM三維重建點雲後處理自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流等微信羣,請掃描下面微信號加羣,備註:”研究方向+學校/公司+暱稱“,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備註,否則不予通過。添加成功後會根據研究方向邀請進去相關微信羣。原創投稿也請聯繫。

▲長按加微信羣或投稿

▲長按關注公衆號

3D視覺從入門到精通知識星球:針對3D視覺領域的知識點彙總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發佈3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業爲一體的鐵桿粉絲聚集區,近1000+星球成員爲創造更好的AI世界共同進步,知識星球入口:

學習3D視覺核心技術,掃描查看介紹,3天內無條件退款

 圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章