人類概念學習的複雜度 complexity of human concept learning

原創

2020-07-03 17:46

內容來自兩篇論文：

藉助一篇博士論文《基於認知的文本語境生成和度量研究》內容，大致看懂了核心思想，下面摘抄一部分中文出來

這篇2000年Nature雜誌上發表的一篇認知科學方面的論文，題爲“人類概念學習的布爾表達式複雜度的最小化”。

它首次通過化簡布爾表達式來度量人類概念學習的複雜度。根據認知科學中對人類概念學習的研究，有一個簡單而符合經驗的規律：一個概念的主觀難度正比於它的布爾表達式的複雜度。

一個布爾概念(boolean concept )的對象是由一些二元的特徵組成，例如物體概念可以由兩個布爾特徵構成：體積(大、小)和形狀(圓、方)。

一個概念的布爾表達式的複雜度就是與這個概念等價的最短布爾表達式的長度，通常長度就是變量的總個數（包含正反變量）。

爲了方便書寫我們用ab代替a∧b，a+b 代替a∨b，a’代替~a。例如，概念ab+ab’等於a(b+b’)，這樣就等於a，所以有概念複雜度1；由於ab+a’b’沒有更短的表達式，所以概念複雜度是4。

布爾表達式的複雜度實際上是一種內在數學複雜度的常用度量方法，也是概念的不可壓縮性的體現。

假設有一個概念包括n個特徵和m個對象，這樣一個概念可以表達爲m個分離的n個特徵聯合的累加和，通常表示成一個分離的

析取範式（disjunctive normal formula，DNF）（析取範式...終於見到離散數學的東東...）。

因此，這樣一個概念可以表達爲一個包含m×n個變量的 DNF。DNF是一個完全沒有壓縮的形式；它逐個描述了符合概念的所有對象。當用一些啓發式的方法對DNF化簡時，它的長度會減短。這些布爾表達式的複雜度的值可以預測主觀的困難程度。

不同的啓發式方法化簡DNF能力也不一樣，導致最後理解概念的複雜度不一樣。同時不同DNF用不同方法得到化簡效果也不一。

寫到這我有想起了一篇只能看懂頭尾的論文：On data mining, compression, and Kolmogorov complexity

它認爲一般理解的數據挖掘其實等價於壓縮和estimation Kolmogorov complexity ，這些都是undecided. 因此數據挖掘無法自動化，面對不同的數據，我們需要各式各樣的算法。因此數據挖掘會是門藝術，尋找最適合模型的藝術.

作者在2006年發表了這兩篇論文的擴展和詳細論述，暫時還沒研讀完，有機會讀完再和大家分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.