2020 Radical analysis network for learning hierarchies of Chinese characters學習

Abstract

漢字是寶貴的財產,在於其由基礎字根庫和結構化的字形構成了龐大的漢字數量。本文引入RAN(radical analysis network自由基分析網絡或字根分析網絡)充分利用上述特徵來實現漢字的識別。RAN使用注意力機制實現漢字字根的提取和字根間的空間結構特徵(字形特徵)。然後RAN解碼出包含已提取字根和字形特徵的漢字層次結構。把漢字看做由字根構成比把每個漢字看成一個整體更受人們歡迎,因爲它既能大大降低詞彙量,還能忽視形近字的冗餘信息,並且使得系統能識別未見過的字,例如零基礎學習。文中介紹的方法獲得了自然場景文本行識別競賽MTWI 2018的冠軍,突出了該算法較基於整字建模的中文識別算法的優勢。通過實驗,我們評估RAN在自然場景的的實際表現,此外,新增denseRNN編碼器,多注意力機制和HSV表示的RAN可用於場景文本識別。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章