生物相關的化學實體(ChEBI)本體的最近發展(Recent Developments in the ChEBI Ontology)

引言

ChEBI——生物相關的化學實體(Chemical Entities of Biological Interest)——是諸如分子、離子這些化學實體以及它們在生物領域的角色所形成的本體。到2011年4月爲止,它已經包含了總共大約25,000個類。這裏,我們對本體中的最新發展和變化給出報告,並對影響未來變化的現有工作給予簡要概括。


1 最近變化

1.1 映射頂級本體BFO

爲了遵照我們增加與生物領域其他本體互操作性的目標,ChEBI已經承擔起提供對頂級本體BFO(Basic Formal Ontology)映射的任務。映射多種本體到一個常見的頂級本體之下使得我們更容易建立本體間的關聯,因爲它通過一個清晰的本體承諾減少了翻譯中的二義性。

ChEBI映射BFO的情況在圖1中有說明,並且我們提供了一個OWL文件可供下載,地址爲:ftp://ftp.ebi.ac.uk/pub/databases/chebi/ontology/

1.2 “分子結構”根的重命名

ChEBI對子本體中的根術語如化學實體中定義的分子、離子等進行重命名,由“分子結構(molecular structure)”改爲“化學實體(chemical entity)”。雖然原來的名字能精確地反映子本體(子本體中的實體分類是結構特徵的基礎)的組織原則,但它不足以達到自動推理的要求,因爲它會通過is a關係的傳遞導致不正確的推理。例如:caffeine is a molecular structure.修改之後,我們得到正確的推理:caffeine is a chemical entity。

1.3 擴展物質層次

爲了能夠充分處理本體中用戶要求的混合物和聚合物,ChEBI擴展了“化學物質(chemical substance)”層次。這與該本體的早前版本相比,在範圍上反映出微小的變化,這是爲了顯式地排除聚合的化學物質。引入這一改變後便允許對我們用戶強烈要求的一些實體進行充分地分類,其他合適的本體也便不復存在。

我們已經在“化學實體(chemical entity)”下創建一個新的頂級術語:化學物質(chemical substance)。我們將進一步區分純淨物和混合物。純淨物的一個例子是分子實體中的macroscopic homogeneous collection(例如水),而混合物的例子包括一個non-homogeneous collection——由至少兩種不同順序的實體組成。特別地,這允許我們正確地對消旋混合物建模,這在藥物的充分表示中是十分重要的,因爲藥物中發現的許多活躍物質都是由消旋混合物來表達的。大部分的化學數據庫都回避了表示消旋混合物的問題,或者表達不一致。

我們對消旋混合物比較青睞的本體表示方法在圖2中有說明。



1.4 重構天然產物

天然產物在藥物發現和新城代謝研究方面都備受關注,因爲它們代表經過很多條件下自然選擇出來的分子,在某些方面活性非常強。然而,對於明確構成一個天然產物的物質的核心定義卻很少有顯式提出的,而且又因各個組織而異。在諸多可能中有一些候選定義,從更傾向於包含的到更傾向於排除的列表如下:

1-所有可以從有機生命體中獨立出來的化學物質;

2-所有的代謝物(初級和次級);

3-僅包括次級代謝物;

4-僅包括植物中的次級代謝物。

ChEBI現在在本體中包含了與兩個不同地區天然產物相關的類。首先,常見的天然產物家族在化學實體本體中顯式地進行分類。其次,“代謝物”被確定在角色本體中。化學實體本體中一個天然產物的例子是:

cinchonine is a heterocyclic natural product

is a natural product.

文本定義如下:“Cinchonan(奎寧,金雞納霜) in which a hydrogen at position 9 is substituted by hydroxy (S configuration). It occurs in the bark of most varieties of Cinchona shrubs, and is frequently used for directing chirality in asymmetric synthesis.”

由於天生的二義性,現在設計的努力包括反對類中顯式地包含天然產物的名稱,取而代之的是對分子進行分類,例如cinchonine顯式地記爲次級代謝產物。未來的工作將包括將種類作爲顯式內容加入代謝物的定義。


2 正在進行的工作和未來的變化

2.1 焦點集中在免疫學

現在正在進行的與La Jolla過敏反應和免疫學機構(La Jolla Institute for Allergy and Immunology,LIAI)的大規模合作將注意力集中在爲免疫學相關的化合物做註釋,例如用作抗原和免疫原的那些。ChEBI迄今已對超過1,000個這樣的化合物進行了註釋。

2.2 關係定義和再評估

ChEBI正在進行一個大型的對所使用關係的再評估。這些關係要儘可能保持它們與RO的一致性,並且爲特定化學關係提供形式化定義。作爲該過程的一部分,ChEBI將引入RO關係如disjoint from等。如果被證明不利於完整的邏輯定義,ChEBI還可能反對某種特定化學關係如has parent hydride。

2.3 解開角色(Disentangling Role)和化學實體

在2009年之前,ChEBI中過多的使用了is a關係,既用來連接分子實體與化學類,又確定了化學實體在各種上下文中所扮演的角色。爲了實現這一點,我們還引入has role關係來用於連接分子實體與角色,例如,分子實體acetylsalicylic acid (CHEBI:15365) has role non-narcotic analgesic (CHEBI:35481)。初始的理順過程使用編程來實現,接下來需要一系列的手工過程來清理髮生錯誤的一些例子,例如當化學實體缺少結構時或者僅被分類到一個role parent。現在在進行的努力是爲了完全定義類,既保證它的結構又保證它基於角色的特徵,例如實體tricyclic antidepressant (CHEBI:36809)被定義爲is a organic tricyclic compound並且has role antidepressant。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章