NLP和計算機視覺在AI教育的那些年，數據桎梏一直是難點

2020-06-20 02:18:01

教育技術的迭代發生了很多次，如果把學校教育作爲知識傳播的核心來講，第一次迭代是郵寄函授，第二次迭代是廣播電視大學的出現，第三次迭代就是互聯網。

而在第三次迭代中，大數據、人工智能的應用將個性化教育推上了風口。國家層面也有體現，例如包括《新一代人工智能發展規劃》與《教育信息化2.0行動計劃》等政策的出臺，給於了人工智能技術應用在教育領域的方向認可。

那麼，AI技術如何應用在教育領域，教育領域的哪些方面能夠使用人工智能技術？

從“學習”的角度來看，三種學習類別，分別是人際交往類的學習、知識傳承學習、文明發展類的學習。

其中，人際交往類的學習的例子是如語言學習、禮儀習慣、品德養成、管理有效等；知識傳承類的學習例子，如如文字、數學、物理、化學、邏輯、運籌等；文明發展類學習的例子，如科學探索知識、工程技術、生命科學、行爲科學等。

顯然，第一類更是靠模仿和習慣養成，學習環境很重要；第二類是靠師傳面授，需要前人對知識規律性的總結、推導、系統分析、約定認知等；第三類文明發展類的學習需要系統的基礎知識，需要靈感和想象力、需要有批判精神，也需要模型場地和實驗驗證等。

針對這三類學習模式的特點，AI技術可以推動在線教育取代知識傳承類的教育，也可以爲人際交往類的教育提供有效的學習場景。

如教學應用場景下，用大數據的學情分析，優質教學資源的推薦，教案的按需生成，虛擬化課堂場景試則是推動了知識傳承類的在線教育發展；提供虛擬學習環境，對“禮儀行爲”進行打分測評則是AI對人際交往類的教育的推動。

具體到案例層面，當前的一些“學習場景輔助術”已經有了落地應用。

例如，之前有一篇有關課堂監控技術的論文刊登在《IEEE Transactions on Visualization and Computer Graphics》上，在論文中，來自香港科技大學、哈爾濱工程大學等機構的研究者提出了一種名爲 EmotionCues 的系統。該系統主要關注如何記錄學生面部表情，並據此來分析學生在課堂上的情緒變化、注意力集中程度。

雖然，願景很好，作者希望能夠通過AI系統掌握學生在課堂上的情緒反饋，判斷學生的學習狀態，以此來提醒老師該如何改善課堂內容、提高授課質量。

但是測試的時候發現，這套AI分析系統是有缺陷的，比如在檢測學習興趣較爲強烈時的愉悅感效果較好，對於憤怒或者悲傷等表情的解讀能力還是有所欠缺，有時候單單因爲皺一下眉頭，卻被“理解”爲憤怒。

爲什麼會出現這種問題呢？如果細究此AI系統的工作流程，在數據處理那一步，其採用的 FER 2013 數據集，雖然一直廣泛用於面部表情識別。但也因爲分辨率較低，錯誤標籤而廣爲詬病。另外，人類人眼在這個數據集的判別準確率也就在65%左右，所以更別說處於“黑盒”狀態的AI技術了。

所以，數據集纔是限制人工智能在教育領域應用的最大限制！

自然語言處理下的AI教育

上述是在教學課堂中的應用，其涉及的是計算機視覺技術，而作爲人工智能皇冠上的明珠，自然語言處理也能發揮很多的應用潛力。

常用的一些自然語言處理方法包括，機器學習（深度學習）、規則和邏輯、語言學。對應的常見的自然語言處理應用包括：搜索引擎、機器翻譯、語音識別、問答系統。

更爲細緻一些，詞性標註、句法分析以及多輪對話用在了自動評分，輔導口語寫作等外語和母語教育領域。而文本閱讀分析，文本簡化，生成題目也與教育文本處理息息相關。

雖然，這些年隨着算法和算力的提升，NLP有了一定的提升，但是在技術層面仍然遇到了難點。例如，下面這個例子，一句話就有6種理解方法（重讀紅色詞）：“我從來沒說他偷過錢”——

1.我從來沒說他偷過錢=>別人說過，我沒說過

2.我從來沒說他偷過錢=>就是從沒說過3.我從來沒說他偷過錢=我沒說，但是我用其他方式表達過

4.我從來沒說他偷過錢=>我說過有人偷過，但不是他

5.我從來沒說他偷過錢=>不是偷，可能借過

6.我從來沒說他偷過錢=>偷的不是錢，是別的東西

7.我從來沒說他偷過我的錢=>他偷過錢，但不是我的錢

其實，不光是邏輯層面，知識庫、數據庫層面的缺乏也是當前的難點，例如下面的they指的是什麼？

We gave monkeys the bananas because they were hungry.（they指猴子）

We gave monkeys the bananas because they were over-ripe.（they指香蕉）

再者，一些比喻用法和開放性的用法如果不在數據庫裏，現有的自然語言處理技術很難get到點，比如網絡中常用的“灌水”，“潛水”就無法按照字面意思理解。

以上三個難點，關乎着在線教育領域利用語音和文本理解技術批改學生的口述練習題的場景；關乎着利用語義理解的分析，批改作文的場景；關乎分析學生知識薄弱點的應用場景......

而解決這些難點的方案，深諳AI+教育的新東方在線COO潘欣曾說過：人工智能最核心的不僅是算法，還需要數據，而對整個教育培訓行業來說，最缺的就是數據。有了數據再談人工智能是更切合實際的，如果沒有數據就是空中樓閣。

也就是說，當前部署人工智能教育的企業在覈心算法技術上的差距並不明顯。

從NLP中的語音分支來看，以智能發音評測爲例，基礎測評功能的實現技術門檻不高。然而，如果要評測系統能夠精準的、全方位的，評價各個發音人的發音情況，則就需要海量精準化、多維度的標記數據。

更爲具體一些，當前在一些NLP模型中，常用的語音評測技術，比如用於英語口語教學中的語音評測，一般都是採用智能打分技術對學習者的口語進行評測，而目前智能打分技術主要還是基於GOP(Goodness Of Pronunciation)方法。

GOP方法依賴於兩個過程，一個是強制對齊(Forced Alignment，簡稱FA)，一個是自由音素(Free Phoneme，簡稱FP)解碼，其中FA就是基於聲學模型和參考文本(即需要學習者跟讀的文本)把每個單詞的時間邊界找到，同時得到每個單詞的似然度(Likelihood)；

而FP解碼是用同樣的音頻，但是其解碼的單位是音素級別，每個音素可以跟任何其他音素，在最理想的情況下，即聲學模型足夠好，音素識別率100％準確的情況下，對於那些讀的特別好的音頻，FP解碼出來的音素序列和參考文本擴展出來的音素序列幾乎一致，而對於那些讀的特別差的音頻，FP解碼出來的音素序列和參考文本擴展出來的音素序列幾乎完全不同。

數據的短缺是絕大多數教育公司或者研究員面臨的最大問題，多維度的高質量數據纔是模型表現優秀的競爭突破口。專業規範的數據不僅能夠提高訓練AI模型的效率，對“成本”節省的重要性也是不言而喻。

如何獲取高質量的數據

數據獲取的方式有很多，開源使用一些知名的開源數據平臺的免費數據，如openSLR等，也可以利用產品累積的線上數據，標註之後訓練模型。但是線上數據質量參差不齊，數據挑選和標註的資金、人力和時間成本較高。

另一個解決方式是尋求專業數據服務公司的幫助，利用他們細分場景、規範且高質量的數據輸出獲得標準化的數據集。顯然，這種方式也是需要付出資金和成本。

另外，關於開源的數據集，這裏給大家推薦一個北京愛數智慧科技有限公司發佈了智能教育行業具有代表性的英語發音語音評測數據集。

包含14+小時中國人說英語的數據，說話人性別比例接近1:1。數據集在近場環境錄製，不存在明顯混響、噪音情況。該數據集邀請了外教從流利度、停頓、發音正確率、語調、重音等六個維度進行綜合性打分。

該數據集有五個優勢，分別是：匹配在線教育應用場景、年齡段選擇、多維度、客觀性、科學性。

匹配在線教育應用場景：經模型驗證，該中式英語數據集準確率高，可用於識別語法錯誤、拼寫錯誤，對用詞提供修改建議。
年齡段選擇：符合市場上對英語學習需求量比較大，投入比較多的年齡段。
多維度：6個維度打分：流利度，停頓，發音，語調，重音，綜合。
客觀性：Native Speaker打分，客觀可信。
科學性：細顆粒度打分，精準定位發音問題。

NLP和計算機視覺在AI教育的那些年，數據桎梏一直是難點

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

萬字長文帶你入門 GCN

神經網絡原來這麼簡單，機器學習入門貼送給你

貝葉斯網絡之父Judea Pearl：新因果科學與數據科學、人工智能的思考

不會畫餅的領導，不值得託付

NLP和計算機視覺在AI教育的那些年，數據桎梏一直是難點

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結