AI2的mosaic和Aristo項目簡介

Mosaic項目

common sense for AI
the mosaic team seeks to define,develop,and improve common sense for ai-an important, fundamental skill required to go beyond the narrow and brittle ai applications we have today.
馬賽克團隊致力於定義,開發和改進人工智能的常識,這是超越當今狹窄而脆弱的人工智能應用程序所需的一項重要的基本技能。

子項目

visual commonsense reading
commonsense knowledge graphs
swag:situations with adversarial generations
mosaic commonsense benchmarks
winogrande:adversarial winograd schema challenge at scale

commonsense knowledge graphs

Exploring semi-structured representations of commonsense.
ATOMIC

mosaic commonsense benchmarks

Measuring progress on Machine Common Sense.
大象能穿過門嗎? — 判斷機器是否具備常識
SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference

Aristo項目

system that read and reason
the aristo project aims to build systems that demonstrate a deep understanding of the world,integrating technologies for reading,learning,reasoning and explanation
亞里士多德計劃旨在建立一個對世界有深刻理解的系統,整合閱讀,學習,推理和解釋技術

Aristo研究領域

probing reasoning with language models 利用語言模型進行推理
通過語義片段探究自然語言推理模型
Probing Natural Language Inference Models through Semantic Fragments

multihop reasoning 多跳推理

explanation 解釋

reasoning about actions 關於動作的推理

Aristo數據集

爲了支持我們的研究並使社區中的其他人蔘與進來,我們開發了一些機器推理數據集,這些數據集說明了Aristo團隊當前正在處理的各種挑戰。

ARC:AI2推理挑戰賽

(7787道多選題)
旨在促進對高級問題的研究,特別是需要推理,使用常識方法和其他方法進行更深入的文本理解的問題。
示例:
只需要看一下即可確定礦物的哪個屬性?
A 光澤 B 質量 C 重量 D 硬度

OBQA:OpenBook問題解答,使用“教科書”和常識

旨在促進對高級問答的研究,探索對主題(將突出的事實概括爲一本開放書)及其表達語言的更深刻理解。
特別是,包含需要多步推理的問題,使用常識和豐富的文字理解能力。
示例:
哪一個會讓熱量流過最多?
A 一條新牛仔褲 B 自助餐廳中的鋼勺 C 商店裏的棉花糖 D Calvi klein棉質帽子

ProPara:包含描述過程或步驟的段落

ProPara旨在在程序文本的背景下促進對自然語言理解的研究。這要求識別該段中描述的動作,並跟蹤所涉及實體發生的狀態更改。

構成該數據集基礎的程序段落是衆包而不是合成的,因此它們反映了人工生成內容的細微差別以及隨之而來的挑戰。

ProPara數據集涵蓋了廣泛的主題(約200個),從科學程序(如“火山爆發時會發生什麼?”和“心臟如何工作?”)到日常活動(如“如何使用洗碗機”和“描述露營的典型步驟”。

示例ProPara 問題
鑑於此五句程序段 :

①太陽的重力將其質量向內拉。②太陽有很大的壓力。③壓力迫使氫原子在覈反應中融合在一起。④反應產生的能量發出不同種類的光。⑤光線傳播到地球。

考慮兩個參與者實體:

氫原子
陽光或光
預測以下四個問題的答案:

有什麼輸入?
也就是說,哪些參與者在程序開始之前存在,而在程序結束之後不存在?或者,消耗了哪些參與者?
答:輸入是氫原子。
有什麼輸出?
也就是說,程序結束後有哪些參與者存在,而程序開始前不存在?或者,產生了哪些參與者?
答:輸出是光(或日光)。
什麼是轉換?
也就是說,哪些參與者轉換爲其他參與者?
答案:句子3 中氫的參與原子被轉換爲光(或日光)。
有什麼舉動?
也就是說,哪些參與者從一個位置移動到另一個位置?
答案:句子5中的參與者光(或日光)從太陽移動到地球。

QASC:通過句子組合進行問題解答,測試多跳質量檢查

QASC(即通過句子組合進行問題解答)旨在通過問題將多跳推理研究進一步推進,這些問題從問題本身無法清楚地分解爲更簡單的事實。此屬性使得從大型語料庫(也提供)中檢索相關事實並將其組合在一起以回答問題都具有挑戰性。

QASC 問題示例
這是訓練集中JSON格式的示例問題。它包含多項選擇題(“問題”),已知的正確答案(“ answerKey”)和三個相關事實(字段“ fact1”,“ fact2”和“ combinedfact”)。

{
  "id": "3UWN2HHPUY4HEFIDUEODFN4T2J5SNS",
  "question": {
    "stem": "What can trigger immune response?",
    "choices": [
      { "label": "A", "text": "harmful substances" },
      { "label": "B", "text": "Transplanted organs" },
      { "label": "C", "text": "desire" },
      { "label": "D", "text": "an area swollen with pus" },
      { "label": "E", "text": "death" },
      { "label": "F", "text": "pain" },
      { "label": "G", "text": "colors of the spectrum" },
      { "label": "H", "text": "Contaminated wounds" }
    ]
  },
  "answerKey": "B",
  "fact1": "Antigens are found on cancer cells and the cells of transplanted organs.",
  "fact2": "Anything that can trigger an immune response is called an antigen.",
  "combinedfact": "transplanted organs can trigger an immune response"
}

WIQA:有關段落描述的過程的“如果…”問題

WIQA數據集V1具有39705個問題,其中包含一個段落的攝動和可能的影響。數據集分爲29808個訓練問題,6894個開發問題和3003個測試問題。
數據說明

QuaRel and QuaRTz:測試對定性關係的理解

舉例:
John was looking at sunscreen at the retail store. He noticed that sunscreens that had lower SPF would offer protection that is
A longer B shorter

SciTail:具有自然句子的文字蘊涵(27k對)

SciTail 問題示例
前提:樹木中的生物活動所必需的水和其他物質,通過木質部的薄而空心的管子穿過整個莖和樹枝。 假設:莖通過管道系統將水輸送到植物的其他部位。 標籤:需要

前提:切下植物莖,將莖插入管中,然後將莖浸入水盆中。 假設:莖通過管道系統將水輸送到植物的其他部位。 標籤:中性

SciTail中的示例來自多項選擇科學問題,方法是將問題和正確的選擇轉換爲假設,然後將檢索到的句子轉換爲前提。在這種情況下,我們使用了:

多項選擇題:

以下哪一項最能說明莖如何將水輸送到植物的其他部位?

(A)通過一種叫做葉綠素的化學物質。
(B)通過光合作用。
(C)通過管道系統。
(D)通過將水轉化爲食物。
從問題和答案選擇中得出的假設(C):

莖杆通過管道系統將水輸送到工廠的其他部分。

檢索到的前提 :

樹木中生物活性所必需的水和其他物質,在木質部或木質組織的細空心管中穿過莖和樹枝。

已檢索的前提 :

切下植物莖,將莖插入管中,然後將莖浸入水盆中。”

SciQ:13k衆包科學問題

此數據集包含13679個有關物理,化學和生物學的衆包科學考試問題。問題採用多項選擇題形式,每個問題有4個答案選項。對於大多數問題,提供了附加的段落以及正確答案的支持證據。

成績

爲了推動和展示我們的研究,我們開發了Aristo System來回答現實世界中的科學問題。 在2019年,該系統在8年級紐約攝政科學考試中取得了里程碑式的成功,在考試的非圖譜,多項選擇(NDMC)問題上得分超過90%,即使在三年前,最好的系統也得分不到60% 。

demo

論文

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章