首页 » 国内科研 >

机器学习发现了人类基因组中的自然选择

2020-02-10 17:03:50来源:

查明人类基因组在何处以及如何进化,就像在大海捞针一样。每个人的基因组包含30亿个称为核苷酸的构建基块,研究人员必须汇编成千上万个人的数据,才能发现模式,这些模式指示出进化压力如何塑造了基因。

为了找到这些模式,越来越多的遗传学家正在转向一种称为深度学习的机器学习形式。该方法的支持者说,与传统的统计方法相比,深度学习算法对自然选择的遗传特征应具有什么样的特征进行了较少的明确假设。

俄勒冈大学尤金分校的遗传学家安德鲁·科恩(Andrew Kern)说:“机器学习正在自动进行进化论证。”“毫无疑问,它正在推动事情向前发展。”

一种称为“ eepSweep”的深度学习工具。由麻省理工学院麻省理工学院和哈佛大学的研究人员开发的,已经标记出20,000个单核苷酸,需要进一步研究。这些简单的突变中的某些或全部可能已经帮助人类度过了疾病,干旱或查尔斯·达尔文(Charles Darwin)所说的“生命条件”?研究人员上个月在加利福尼亚州圣地亚哥举行的美国人类遗传学会年会上报道了该研究。

自1970年代以来,遗传学家创建了数学模型来描述DNA中自然选择的指纹。如果发生突变,使一个人比邻居更能生存和繁殖后代,那么具有该基因变异的人口比例将随着时间的推移而增长。

一个例子就是这种突变,使许多成年人能够喝牛奶。它可以使人体产生乳糖酶(一种消化牛奶中糖分的酶),直至成年。通过使用统计方法分析人类基因组,研究人员发现该突变在数千年前在欧洲各社区迅速传播-大概是因为牛奶中的营养成分帮助人们生育了健康的孩子1,2。如今,近80%的欧洲血统的人都携带这种变体。

训练营

然而,遗传学家们一直在努力寻找和确认遍布整个种群的基因组其他特定片段,因为它们提供了适应性优势。深度学习在这类任务上表现出色:发现隐藏在大量数据中的细微模式。

但是有一个问题!深度学习算法通常在暴露于真实数据后经过训练来学习对信息进行分类。以Facebook为例,它会根据人们已经贴上标签的图片准备算法来识别人脸。由于遗传学家尚不知道自然选择会影响基因组的哪些部分,因此他们必须在模拟数据上训练其深度学习算法。

罗德岛普罗维登斯布朗大学的人口遗传学家Sohini Ramachandran说,生成模拟数据需要研究人员确定自然选择的特征。“没有”有地面真实数据,因此担心的是我们可能没有正确地进行模拟。 / p>

纽约伊萨卡市康奈尔大学的人口遗传学家菲利普·梅瑟(Philipp Messer)表示,由于深度学习算法就像黑盒子一样运作,因此很难知道它们使用什么标准来识别数据模式。他补充说:“如果模拟是错误的,则不清楚响应是什么意思。”

使用深度学习算法的研究人员确实有一些窥视黑匣子的方法。DeepSweep的创造者在插入模拟基因组中的自然选择特征上训练了他们的算法。当他们在真实的人类基因组数据上对其进行测试时,该算法将乳糖酶突变归零,使成年人可以喝牛奶。Broad研究所的计算遗传学家Joseph Vitti说,这增强了团队对该工具的信心。

然后,研究人员使用统计方法筛选了“ 1000个基因组计划”(一项国际倡议,该计划对来自全球2,504人的DNA进行测序)的数据,并使用统计方法来识别可能处于进化压力下的区域。这些构成了构成人类基因组的三十亿个构建基块的三分之一。接下来,DeepSweep评估了每个区域。到分析结束时,它已提供了20,000个要探索的单突变的列表。

在接下来的几个月中,Vitti和他的同事们将通过在活细胞的DNA中编辑它们来研究这些突变的作用,并比较它们存在与不存在时发生的情况。

在狩猎

其他几位研究人员正在训练深度学习算法,以寻找基因组中适应的迹象。由克恩(Kern)开发的深度学习模型表明,起初,人类中的大多数突变既无益无益3。相反,它们似乎在种群中随波逐流,增加了自然遗传变异性,并且只有在环境变化使拥有突变的人具有进化优势时才变得更加频繁。

2月,Ramachandran和她的同事报告了他们开发的称为SWIF(r)4的深度学习算法。当他们将其应用于来自南部非洲的Khomani San族的45个成员的基因组时,它标记了与代谢相关的基因附近的变异。研究人员推测,这种变化可能发生在数千年前,他们帮助该小组的成员在不可靠的食物周期中储存了脂肪。

突变的影响仍然需要测试。但是,与DeepSweep识别的变体一样,SWIF(r)挑选出的候选人为研究人员提供了一个起点。

“这是寻找自然选择信号的强大方法,”布罗德研究所计算机遗传学家帕迪斯·萨贝蒂(Pardis Sabeti)说,他是Vitti博士的导师。“有些人不认为”我刚开始时可以查明变体。有人认为这是不可能的。

自然563,167(2018)