首页 » 国外科研 >

解释用于解码DNA的监管指令的人工智能

2021-11-29 10:50:11来源:

研究人员使用高分辨率实验中的DNA序列来培训称为BPNET的神经网络,然后揭示了“黑匣子”的内部工业,以揭示基因组的监管代码的序列模式和组织原则。

STOWS医学研究所的研究人员与慕尼黑斯坦福大学和慕尼黑技术大学的同事合作,在技术巡回演出中发达了先进的可解释的人工智能(AI),以解释在DNA中编码的监管指令。在2021年2月18日在线发布的报告中,在自然遗传学中,该小组发现,在蛋白质-DNA相互作用的高分辨率地图上培训的神经网络可以在整个基因组中发现细微的DNA序列模式,并提供更深入的了解这些组织序列以调节基因。

神经网络是功能强大的AI模型,可以从PERSE类型的数据(如图像,语音信号或文本)学习复杂的模式,以预测具有令人印象深刻的高精度的相关性。然而,许多人将这些模型视为无法解释的,因为学习的预测模式很难从模型中提取。这种黑匣子的性质已经阻碍了神经网络对生物学的广泛应用,在那里对预测模式的解释是至关重要的。

生物学中的一个大型未解决的问题之一是基因组的第二个代码 - 其监管代码。DNA碱基(通常由字母A,C,G和T)编码如何编码如何构建蛋白质的指令,而且还编码在生物体中制作这些蛋白质的时间和地点。该监管代码被称为转录因子的蛋白质读取,所述转录因子结合短延伸的DNA称为基序。然而,图案的特定组合和安排指定了监管活动是一个非常复杂的问题,这一点是难以放下的。

现在,由STOWER调查员Julia Zeitlinger,博士和施斯·昆达·博士(斯坦福大学)设计了一支跨学科和计算研究人员的跨学科团队设计了一个用于基对网络的神经网络名为BPNET - 这可以解释为揭示监管代码通过以前所未有的精度预测从DNA序列的转录因子结合。关键是以最高可能的分辨率进行转录因子-DNA结合实验和计算建模,降至近期DNA碱基的水平。这种增加的分辨率允许它们开发新的解释工具以提取诸如转录因子绑定主题的关键元素序列模式和组合规则,通过该组合规则作为监管代码。

“这极其令人满意,”Zeitlinger说:“随着结果与现有的实验结果美妙地享有精美,并揭示了我们惊讶的新颖洞察力。”

例如,神经网络模型使研究人员能够发现一个引人注目的规则,治理了所谓的纳米历史的转录因子的结合。他们发现当以周期性方式存在时,纳米纳米在其基序的倍数存在时与DNA合作结合,使得它们出现在螺旋DNA螺旋的同一侧。

“已经存在一条长痕的实验证据,即这种主题周期性有时存在于监管代码中,”Zeitlinger说。“然而,确切的情况是难以捉摸的,纳米队没有被嫌疑人。发现Nanog有这样的模式,并看到其互动的其他细节,因为我们没有专门搜索这种模式。“

“这是使用神经网络为此任务的关键优势,”纸张第一作者žigaavsec说。AVSEC和Kundaje在德国慕尼黑技术大学的Julien Gagneur博士学位博士学位博士学位期间,创建了AVSEC访问斯坦福的第一个版本。

“更传统的生物信息学使用基于现有知识的预定义的刚性规则来解决模型数据。然而,生物学非常丰富,复杂,“AVSEC说。“通过使用神经网络,我们可以培养更灵活,更细微的模型,从没有以前的知识的情况下从头开始学习复杂的模式,从而允许新的发现。”

BPNET的网络架构类似于用于图像中面部识别的神经网络的网络架构。例如,神经网络首先检测像素中的边缘,然后了解边缘形式的面部元素,如眼睛,鼻子或嘴巴,最终检测面部元素如何形成面部。BPNet从原始DNA序列学习并学习从原始DNA序列学习,并学习检测序列图案,并且最终是元素预测基本分辨率绑定数据的高阶规则。

一旦培训模型以高度准确,就会用解释工具提取学习模式。输出信号追溯到输入序列以显示序列图案。最后一步是使用该模型作为Oracle和系统地查询它,与特定的DNA序列设计类似,类似于实验测试假设的特定DNA序列设计,以揭示序列图案以组合方式函数的规则。

“美丽是,该模型可以预测更多序列设计,我们可以通过实验测试,”Zeitlinger说。“此外,通过预测实验扰动的结果,我们可以识别验证模型的最具信息的实验。”实际上,在CRISPR基因编辑技术的帮助下,研究人员通过实验证实,模型的预测是高度准确的。

由于该方法灵活且适用于各种不同的数据类型和细胞类型,因此它有望导致对监管代码的快速增长理解以及遗传变异如何影响基因调节。Zeitlinger Lab和Kundaje实验室都已经使用BPNET来可靠地识别其他细胞类型的绑定图案,将图案与生物物理参数相关联,并在基因组中学习其他结构特征,例如与DNA包装相关的基因组中的其他结构特征。为了使其他科学家能够使用BPNet并为自己的需求进行调整,研究人员使整个软件框架提供了文档和教程。

参考:“转录因子绑定的基本分辨率模型揭示了Soft Motif语法”,由žigaavsec,melanie weilert,avanti shrikumar,sabrina krueger,amr alexandari,khyati dalal,robin fropf,查尔斯·麦纳尼亚,朱利安Gagneur,Anshul Kundaje和Julia Zeitlinger,18 2021年2月,Nature Genetics.doi:
10.1038 / s41588-021-00782-6

该研究的其他贡献者包括Melanie Weilert,Sabrina Krueger,Phd,Khyati Dalal,Robin Fropf,Phd和Charles Mcanany,Phd,来自家机;来自斯坦福大学的Avanti Shrikumar,博士和AMR Alexandari。

这项工作是由家庭医学研究所和国家人类基因组研究所(奖项R01HG009674和U01HG009431至AK和R01HG010111至JZ)以及国家卫生研究院(DP2GM123485至AK)的国家卫生研究院(NIH)。附加支持包括德国BundesministeriumFürbildungund forschung(Project Mechml 01IS18053F至Z.A.)和斯坦福Biox奖学金和Howard Hughes Medical Institute International Coustion Shight奖学金(向A.)。在国家儿童健康和人类发展研究所(U54HD090216),主任办公室(仪器S100121743)和国家学院,在NIH奖(U54HD090216)办公室(U54HD090216)所支持的家里的医学研究所和堪萨斯医疗中心基因组学核心研究所进行排序一般医学科学(COBRE P30GM122731)。内容仅是作者的责任,并不一定代表NIH的官方观点。

放置调查结果摘要

DNA是众所周知的,用于编码蛋白质。它还包含另一个代码 - 一个监管代码 - 指示在生物体中制作蛋白质的时间和地点。在2021年2月18日在线发布的报告中,朱莉娅Zeitlinger实验室的研究人员,STOWS医学研究所的调查员博士,斯坦福大学和慕尼黑技术大学的合作者描述了它们如何解释人工智能帮助破译基因组的监管代码。

研究人员开发了一种神经网络,其内部工作可以揭示,以揭示来自高分辨率基因组学数据的调节DNA序列模式及其高级组织原理。Zeitlinger实验室预计使用这种类型方法产生的预测模型,规则和地图将导致更好地了解DNA调节区域的自然和疾病相关的遗传变异。