AI攻破高數核心，1秒內求解微分方程、不定積分，性能遠超Matlab

本文經AI新媒體量子位（公衆號ID:QbitAI）授權轉載，轉載請聯繫出處。

大家都知道，AI (神經網絡) 連加減法這樣的簡單算術都做不好：

可現在，AI已經懂得微積分，把魔爪伸向你最愛的高數了。

它不光會求不定積分：

還能解常微分方程：

一階二階都可以。

這是Facebook發表的新模型，1秒給出的答案，超越了Mathematica和Matlab這兩隻付費數學軟件30秒的成績。

團隊說，這是Seq2Seq和Transformer搭配食用的結果。

用自然語言處理 (NLP) 的方法來理解數學，果然行得通。

這項成果，已經在推特上獲得了1700贊。許多小夥伴表示驚奇，比如：

感謝你們！在我原本的想象中，這完全是不可能的！

而且，據說算法很快就要開源了：

到時候讓付費軟件怎麼辦？

巨大數據集的生成姿勢

要訓練模型做微積分題目，最重要的前提就是要有大大大的數據集。

這裏有，積分數據集和常微分方程數據集的製造方法：

函數，和它的積分

首先，就是要做出“一個函數&它的微分”這樣的數據對。團隊用了三種方法：

第一種是正向生成 (Fwd) ，指生成隨機函數 (最多n個運算符) ，再用現成的工具求積分。把工具求不出的函數扔掉。

第二種是反向生成 (Bwd) ，指生成隨機函數，再對函數求導。填補了第一種方法收集不到的一些函數，因爲就算工具求不出積分，也一定可以求導。

第三種是用了分部積分的反向生成 (Ibp) 。前面的反向生成有個問題，就是不太可能覆蓋到f(x)=x3sin(x)的積分：

F(x)=-x3cos(x)+3x2sin(x)+6xcos(x)-6sin(x)

因爲這個函數太長了，隨機生成很難做到。

另外，反向生成的產物，大多會是函數的積分比函數要短，正向生成則相反。

爲了解決這個問題，團隊用了分部積分：生成兩個隨機函數F和G，分別算出導數f和g。

如果fG已經出現在前兩種方法得到的訓練集裏，它的積分就是已知，可以用來求出Fg：

∫Fg=FG-∫fG

反過來也可以，如果Fg已經在訓練集裏，就用它的積分求出fG。

每求出一個新函數的積分，就把它加入訓練集。

如果fG和Fg都不在訓練集裏，就重新生成一對F和G。

如此一來，不借助外部的積分工具，也能輕鬆得到x10sin(x)這樣的函數了。

一階常微分方程，和它的解

從一個二元函數F(x,y)說起。

有個方程F(x,y)=c，可對y求解得到y=f(x,c)。就是說有一個二元函數f，對任意x和c都滿足：

再對x求導，就得到一個微分方程：

fc表示從x到f(x,c)的映射，也就是這個微分方程的解。

這樣，對於任何的常數c，fc都是一階微分方程的解。

把fc替換回y，就有了整潔的微分方程：

這樣一來，想做出“一階常微分方程&解”的成對數據集，只要生成一個f(x,c)，對c有解的那種，再找出它滿足的微分方程F就可以了，比如：

二階常微分方程，和它的解

二階的原理，是從一階那裏擴展來的，只要把f(x,c)變成f(x,c1,c2) ，對c2有解。

微分方程F要滿足：

把它對x求導，會得到：

fc1,c2表示，從x到f(x,c1,c2)的映射。

如果這個方程對c1有解，就可以推出另外一個三元函數G，它對任意x都滿足：

再對x求導，就會得到：

最後，整理出清爽的微分方程：

它的解就是fc1,c2。

至於生成過程，舉個例子：

現在，求積分和求解微分方程兩個訓練集都有了。那麼問題也來了，AI要怎麼理解這些複雜的式子，然後學會求解方法呢？

將數學視作自然語言

積分方程和微分方程，都可以視作將一個表達式轉換爲另一個表達式，研究人員認爲，這是機器翻譯的一個特殊實例，可以用NLP的方法來解決。

第一步，是將數學表達式以樹的形式表示。

運算符和函數爲內部節點，數字、常數和變量等爲葉子節點。

比如 3x^2 + cos(2x) - 1 就可以表示爲：

再舉一個複雜一點的例子，這樣一個偏微分表達式：

用樹的形式表示，就是：

採用樹的形式，就能消除運算順序的歧義，照顧優先級和關聯性，並且省去了括號。

在沒有空格、標點符號、多餘的括號這樣的無意義符號的情況下，不同的表達式會生成不同的樹。表達式和樹之間是一一對應的。

第二步，引入seq2seq模型。

seq2seq模型具有兩種重要特性：

輸入和輸出序列都可以具有任意長度，並且長度可以不同。

輸入序列和輸出序列中的字詞不需要一一對應。

因此，seq2seq模型非常適合求解微積分的問題。

使用seq2seq模型生成樹，首先，要將樹映射到序列。

使用前綴表示法，將每個父節點寫在其子節點之前，從左至右列出。

比如 2 + 3 * (5 + 2)，表示爲樹是：

表示爲序列就是 [+ 2 * 3 + 5 2]。

樹和前綴序列之間也是一一映射的。

第三步，生成隨機表達式。

要創建訓練數據，就需要生成隨機數學表達式。前文已經介紹了數據集的生成策略，這裏着重講一下生成隨機表達式的算法。

使用n個內部節點對表達式進行統一採樣並非易事。比如遞歸這樣的方法，就會傾向於生成深樹而非寬樹，偏左樹而非偏右樹，實際上是無法以相同的概率生成不同種類的樹的。

所以，以隨機二叉樹爲例，具體的方法是：從一個空的根節點開始，在每一步中確定下一個內部節點在空節點中的位置。重複進行直到所有內部節點都被分配爲止。

不過，在通常情況下，數學表達式樹不一定是二叉樹，內部節點可能只有1個子節點。如此，就要考慮根節點和下一內部節點參數數量的二維概率分佈，記作 L(e,n)。

接下來，就是對隨機樹進行採樣，從可能的運算符和整數、變量、常量列表中隨機選擇內部節點及葉子節點來對樹進行“裝飾”。

最後，計算表達式的數量。

經由前面的步驟，可以看出，表達式實際上是由一組有限的變量、常量、整數和一系列運算符組成的。

於是，問題可以概括成：

最多包含n個內部節點的樹
一組p1個一元運算符（如cos，sin，exp，log）
一組p2個二進制運算符（如+，-，×，pow）
一組L個葉子值，其中包含變量（如x，y，z），常量（如e，π），整數（如 {-10，…，10}）

如果p1 = 0，則表達式用二叉樹表示。

這樣，具有n個內部節點的二叉樹恰好具有n + 1個葉子節點。每個節點和葉子可以分別取p1和L個不同的值。

具有n個二進制運算符的表達式數量就可以表示爲：

如果p1 > 0，表達式數量則爲：

可以觀察到，葉子節點和二元運算符的數量會明顯影響問題空間的大小。

△不同數目運算符和葉子節點的表達式數量

勝過商業軟件

實驗中，研究人員訓練seq2seq模型預測給定問題的解決方案。採用的模型，是8個注意力頭（attention head），6層，512維的Transformer模型。

研究人員在一個擁有5000個方程的數據集中，對模型求解微積分方程的準確率進行了評估。

結果表明，對於微分方程，波束搜索解碼能大大提高模型的準確率。

而與最先進的商業科學計算軟件相比，新模型不僅更快，準確率也更高。

在包含500個方程的測試集上，商業軟件中表現最好的是Mathematica。

比如，在一階微分方程中，與使用貪婪搜索解碼算法（集束大小爲1）的新模型相比，Mathematica不落下風，但新方法通常1秒以內就能解完方程，Mathematica的解題時間要長的多（限制時間30s，若超過30s則視作沒有得到解）。

而當新方法進行大小爲50的波束搜索時，模型準確率就從81.2%提升到了97%，遠勝於Mathematica（77.2%）

並且，在某一些Mathematica和Matlab無力解決的問題上，新模型都給出了有效解。

△商業科學計算軟件沒有找到解的方程

邀請AI參加IMO

這個會解微積分的AI一登場，就吸引了衆多網友的目光，引發熱烈討論。網友們紛紛稱讚：鵝妹子嚶。

有網友這樣說道：

這篇論文超級有趣的地方在於，它有可能解決複雜度比積分要高得高得高得多的問題。

還有網友認爲，這項研究太酷了，該模型能夠歸納和整合一些sympy無法實現的功能。

不過，也有網友認爲，在與Mathematica的對比上，研究人員的實驗設定顯得不夠嚴謹。

默認設置下，Mathematica是在複數域中進行計算的，這會增加其操作的難度。但作者把包含複數係數的表達式視作“無效”。所以他們在使用Mathematica的時候將設置調整爲實數域了？

我很好奇Mathematica是否可以解決該系統無法解決的問題。 30s的限制時間對於計算機代數系統有點武斷了。

但總之，面對越來越機智的AI，已經有人發起了挑戰賽，邀請AI挑戰IMO金牌。

Facebook AI研究院出品

這篇論文有兩位共同一作。

Guillaume Lample，來自法國佈雷斯特，是Facebook AI研究院、皮埃爾和瑪麗·居里大學在讀博士。

他曾於巴黎綜合理工學院和CMU分別獲得數學與計算機科學和人工智能碩士學位。2014年進入Facebook實習。

François Charton，Facebook AI研究院的客座企業家（Visiting entrepreneur），主要研究方向是數學和因果關係。

AI攻破高數核心，1秒內求解微分方程、不定積分，性能遠超Matlab

巨大數據集的生成姿勢

函數，和它的積分

一階常微分方程，和它的解

二階常微分方程，和它的解

將數學視作自然語言

△不同數目運算符和葉子節點的表達式數量

勝過商業軟件

△商業科學計算軟件沒有找到解的方程

邀請AI參加IMO

Facebook AI研究院出品

AI攻破高數核心，1秒內求解微分方程、不定積分，性能遠超Matlab

"狗屁不通文章生成器"登頂GitHub熱榜，一鍵生成萬字形式主義大作

機器學習免費跑分神器：集成各大數據集，連接GitHub就能用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結