拿不到谷歌DeepMind Protein AI的代码,这家实验室自己写了一个模型

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"这家谷歌子公司解决了生物学研究中的一项基本问题,但没有及时分享其解决方案。所以华盛顿大学的一个团队试图重建它。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"对于研究蛋白质结构的生物学家来说,他们的研究领域最近的历史可以分为两个时期:在"},{"type":"link","attrs":{"href":"https:\/\/predictioncenter.org\/casp14\/","title":"","type":null},"content":[{"type":"text","text":"CASP14"}]},{"type":"text","text":"(第14届蛋白质结构批判性评估会议,该会议两年举办一次)之前,以及那次会议之后。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在此之前的几十年中,科学家们经过一年又一年的努力,一点点探索根据蛋白质所包含的氨基酸序列预测蛋白质结构这个问题的解决方案。在2020年12月的CASP14之后,谷歌子公司DeepMind的研究人员成功攻克了这个问题。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"作为一家专注于深度学习(人工智能技术的一个分支)的研究公司,DeepMind此前曾因构建击败围棋世界冠军的人工智能系统而登上媒体头条。如今它使用一个名为AlphaFold2的神经网络在蛋白质结构预测领域取得了成功,这标志着它首次建立了一个可以解决真正科学问题的模型。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果我们能帮助科学家弄清楚蛋白质是什么样子,就可以推动对细胞内部运作机制的研究,并找出抑制特定蛋白质作用的方法,进而助力新药的研究过程。7月15日,《自然》期刊发表了一篇未编辑的"},{"type":"link","attrs":{"href":"https:\/\/www.nature.com\/articles\/s41586-021-03828-1","title":"","type":null},"content":[{"type":"text","text":"手稿"}]},{"type":"text","text":",详细介绍了DeepMind模型的工作原理,且DeepMind公开分享了他们的代码。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但是在这届CASP之后的七个月里,另一支团队接过了接力棒。6月,也就是DeepMind手稿发表前一个月,由华盛顿大学蛋白质设计研究所所长David Baker领导的团队"},{"type":"link","attrs":{"href":"https:\/\/www.infoq.cn\/article\/OEcfh1vwtqEjJtNUGzSR","title":"","type":null},"content":[{"type":"text","text":"发布"}]},{"type":"text","text":"了他们自己的蛋白质结构预测模型。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"一个月来,这个名为RoseTTAFold的模型是其他科学家可以实际用上的最成功的蛋白质预测算法。尽管它没有达到与AlphaFold2同样水平的性能峰值,但该团队构建了一种工具,让研究人员无需动手编写代码即可提交氨基酸序列并获得预测结果,让那些最不擅长计算机的科学家也可以使用这个模型。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"一个月后,就在《自然》发布DeepMind早期手稿的同一天,《科学》期刊发表了Baker实验室介绍RoseTTAFold的论文。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"RoseTTAFold和AlphaFold2都是复杂的多层神经网络。给定蛋白质的氨基酸序列,它们就能输出预测的3D结构。它们的设计有一些有趣的相似之处,比如一种“多轨”结构,使它们能分别分析蛋白质结构的不同方面。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"这些相似之处并非巧合——华盛顿大学团队使用DeepMind团队在CASP上的15分钟演讲中提到的理念设计了RoseTTAFold——DeepMind在那次演讲中概述了AlphaFold2的创新元素。但前者也因那次简短演讲后的不确定性而受到了鼓舞——当时DeepMind团队没有给出任何迹象,表明它会在什么时候让科学家们接触到这一前所未有的技术。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"一些研究人员担心,一家私营公司可能会违背标准的学术实践,并不会让更广泛的社区了解自己的代码。“所有人都惊呆了,媒体报道铺天盖地,然后基本上就是无线电静默了,”Baker说。“你所处的境地如此奇妙:你的领域有了重大进展,但你不能在此基础上再接再厉。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Baker和他实验室的博士后Minkyung Baek看到了机会。他们可能没有DeepMind团队用来解决蛋白质结构问题的代码,但他们知道了这是可以做到的。他们也知道DeepMind是使用哪种方法来实现的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“即使在那个时候,David也在说,‘这是一个存在证明。DeepMind已经证明这些方法是可行的,’”马里兰大学帕克分校生物科学与生物技术研究所教授兼CASP活动的组织者John Moult说。“这对他来说已经足够了。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"由于不知道DeepMind团队何时或是否会将其工具提供给希望使用它的结构生物学家,Baker和Baek决定尝试构建自己的版本。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"欧洲生物信息学研究所名誉主任Janet Thornton说,弄清楚蛋白质的三维结构对于理解细胞的内部运作机制是至关重要的。“DNA编码了一切信息,但它实际上并没有做任何事情,”她说。“所有工作都是由蛋白质完成的。”科学家们使用了各种实验技术来试图找出蛋白质的结构,但有时数据根本不足以提供明确的答案。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"使用蛋白质独特的氨基酸序列来预测其结构的计算机模型,可以帮助研究人员弄清楚这些令人困惑的数据到底意味着什么。在过去的27年里,CASP为科学家们提供了一种系统的方法来评估他们算法的性能。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“我们一直在前进,但速度相当缓慢,”Thornton说。但是对于AlphaFold2,她的评价是,“它带来的改进非常显著——实际上比我们多年来累积的进步更大。所以在这方面,这是向前跨越了一大步。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Baker实验室使用自己的模型在CASP14上获得了第二好的性能,这为他们重现DeepMind的方法提供了一个坚实的起点。他们将DeepMind团队成员对AlphaFold2的评价与他们自己的方法做了系统性对比,当他们找出了DeepMind最重要的那些进步,就着手将它们一一构建成一个新的模型。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"他们采用的一项关键创新是多轨网络的想法。大多数神经网络模型沿着单个“轨迹”(通过网络的路径)来处理和分析数据,轨迹中有一系列模拟“神经元”的层,每一层都会转换前一层的输出并传递给下一层。这有点像传话游戏,其中每一位玩家听到上一位玩家说的单词后,就悄悄告诉下一个人——只不过在神经网络中,信息会逐渐重新排列成更有用的形式,而不是像在游戏中一样逐渐失真。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepMind设计的AlphaFold2将蛋白质结构信息的不同方面分成了两个独立的轨道,这两个轨道互相反馈一些信息——就像同时有两组传话游戏,两组玩家之间相邻的人们会来回传递一些信息。到了RoseTTAFold这里,Baker和Baek发现使用三个轨道效果最好。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"“当你画一些复杂的图形时,你不会一次画完,”Baek说。“你会从非常粗略的草图开始,逐步添加一些片段并添加一些细节。蛋白质结构预测有点像这种过程。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"为了观察RoseTTAFold在现实世界中的运行情况,Baker和Baek联系了一些遇到了无法解决的蛋白质结构问题的结构生物学家。一天晚上7点,加州大学旧金山分校的生物化学和生物物理学教授David Agard,向他们发送了由感染特定病毒的细菌产生的蛋白质的氨基酸序列。结构预测结果在凌晨1点发给了教授。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在六个小时内,RoseTTAFold解决了困扰Agard两年的问题。“我们实际上可以看到它是如何从两种细菌酶的组合进化而来的,进化过程可能发生在数百万年前,”Agard说。现在克服了这个瓶颈后,Agard和他的实验室就可以继续研究这种蛋白质的运作机制了。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"尽管RoseTTAFold没有达到与AlphaFold2相同的性能水平,但Baker和Baek知道是时候向世界发布他们的工具了。“这显然还是非常有用的,因为这些人正在解决很多长期以来一直悬而未决的生物学问题,”Baker说。“我们当时决定,'好吧,让科学界了解并用上这个工具会是好事一桩。'”6月15日,他们发布了一款可以让任何人轻松运行他们模型的工具,以及他们即将发表的科学论文的"},{"type":"link","attrs":{"href":"https:\/\/www.biorxiv.org\/content\/10.1101\/2021.06.14.448402v1","title":"","type":null},"content":[{"type":"text","text":"预印版"}]},{"type":"text","text":"。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"与此同时,据DeepMind领导AlphaFold项目的John Jumper称,一篇详细介绍该系统的深度科学论文已经(在《自然》中接受审查了,当然Baker他们还不知道这件事。DeepMind已于5月11日将其手稿提交给了《自然》。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"那时,科学界对DeepMind的时间表知之甚少。在Baker的预印版发布三天后,情况发生了变化。6月18日,DeepMind首席执行官Demis Hassabis在Twitter写道:“我们一直在全力完成我们的完整方法论文(目前正在审查)以及随附的开源代码,并为科学界提供对AlphaFold的广泛免费访问。”“很快就会有更多东西出来的!”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"7月15日,就在Baker的RoseTTAFold论文发表的同一天,《自然》发布了DeepMind未经编辑但经过同行评审的AlphaFold2"},{"type":"link","attrs":{"href":"https:\/\/www.nature.com\/articles\/s41586-021-03819-2","title":"","type":null},"content":[{"type":"text","text":"手稿"}]},{"type":"text","text":"。同时,DeepMind在GitHub上"},{"type":"link","attrs":{"href":"https:\/\/github.com\/deepmind\/alphafold","title":"","type":null},"content":[{"type":"text","text":"免费提供"}]},{"type":"text","text":"了AlphaFold2的代码。一周后,该团队发布了一个庞大的"},{"type":"link","attrs":{"href":"https:\/\/www.alphafold.ebi.ac.uk\/","title":"","type":null},"content":[{"type":"text","text":"数据库"}]},{"type":"text","text":",其中包含了通过他们方法预测的350,000个蛋白质结构。革命性的蛋白质预测工具及其大量预测结果终于走进了科学社区。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"根据Jumper的说法,DeepMind的论文和代码直到CASP演示后七个多月才发布的原因并不特殊:“那天我们还没有准备好开源,或发布这篇具体介绍细节的论文,”他说。在5月份提交论文后,团队正在完成同行评审过程,Jumper说他们试图尽快发表论文。“老实说,我们一直在尽量加快脚步,”他说。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepMind团队的手稿是通过《自然》的文章加速预审流程发表的,期刊经常使用这个流程来审查Covid-19论文。在给《连线》期刊的一份声明中,《自然》的一位发言人写道,这一过程旨在“为我们的作者和读者提供服务,以尽快提供特别值得注意且对时间敏感的同行评审研究成果。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Jumper和DeepMind科学团队的负责人Pushmeet Kohli对于Baker的论文是否影响了他们在《自然》的发表时间这个话题给出了看法。“从我们的角度来看,我们在5月份贡献并提交了这篇论文,因此从某种意义上说,它的发表时间已经不是我们能控制的了,”Kohli说。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但CASP组织者Moult认为,华盛顿大学团队的工作可能帮助了DeepMind的科学家说服他们的母公司在更短的时间内免费提供他们的研究成果。“我了解他们——他们是非常杰出的科学家,我觉得他们应该会希望尽可能开放,”Moult说。“内部应该会存在一些冲突,因为它是一家商业企业,它最后必须以某种方式来赚钱。”DeepMind的母公司Alphabet是全球市值第四的企业。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Hassabis认为AlphaFold2的发布对科学界和Alphabet都是有利的。他在接受WIRED采访时说:“这都是开放的科学成果,我们将它提供给全人类,没有任何附加条件——系统、代码和数据库全部公开。”当被问及他们是否出于商业原因讨论过将代码保密时,他说:“这是一个很好的问题,它涉及我们交付价值的途径。价值可以通过很多不同的方式传递,对吗?商业途径显然是一种方法,但声誉也是一个重要的途径。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Baker很快就赞扬了DeepMind团队的论文,也赞赏了他们无保留公开代码的做法。他说,从某种意义上说,RoseTTAFold是针对DeepMind背离科学合作精神行事的这种可能性的一种预防措施。“如果他们没那么开明,并决定不发布代码,那么至少世界上还会有一个起点,”他说。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"话虽如此,他认为如果DeepMind的信息早点发布,他的团队本可以推动AlphaFold2表现得更好,或者让它适应设计人造蛋白质的问题——这是Baker实验室的主要关注点。“毫无疑问,如果比如说在12月初,在CASP刚结束之后他们就说,‘这就是我们的代码,我们就是这样做的',那么我们肯定会走得更远,”Baker说。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"对于蛋白质结构预测的一些实际应用来说,时间可能是至关重要的。例如,了解对病原体生存至关重要的蛋白质的三维结构可以帮助科学家开发药物来对抗病原体。这些应用甚至可以用来对抗疫情;例如,DeepMind去年8月使用了AlphaFold2的一个版本来预测一些SARS-CoV-2蛋白质的结构。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Baker认为,学术界和工业界之间需要越来越深入的信息共享。人工智能中的问题需要大量的时间和资源来解决,而像DeepMind这样的公司可以获得大学实验室无法想象的人员和计算能力。“几乎可以肯定的是,工业界将继续取得很多重大进展,我认为这一趋势只会加速,”Baker说。“这些公司将面临很多内部压力,决定是像DeepMind那样公开这些进展,还是尝试将其商业化。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"原文链接:"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/www.wired.com\/story\/without-code-for-deepminds-protein-ai-this-lab-wrote-its-own\/","title":"","type":null},"content":[{"type":"text","text":"https:\/\/www.wired.com\/story\/without-code-for-deepminds-protein-ai-this-lab-wrote-its-own\/"}]}]}]}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章