如下兩句話:
(1)喬布斯執掌的蘋果成爲全球市值第一的公司。
(2)山東產的蘋果,又大又圓,很好喫 。
在對蘋果這個詞進行語義理解時,有了Attention,就能通過上下文來輔助判斷。
比如第一句話的,上下文中的喬布斯和公司兩個詞貢獻很大,我們能將“蘋果”理解爲是一個公司。
第二句的“蘋果”,有個“產”字和“喫”字,我們能將“蘋果”理解爲是一種水果。
爲什麼雙向RNN不能通過上下文理解,判斷“蘋果”的語義,而Attention就行?
因爲RNN通過一個隱藏層記錄當前及之前所見過的詞彙,已經將語義信息雜糅在一起,而往往理解“蘋果”這個詞的語義時候,通過幾個詞就行,而不是整句。