首页 » 国外科研 >

加速药品和生物技术中的数据驱动的发现

2021-10-17 10:50:10来源:

PARADIGM4允许用户将数据集成在基因组测序,生物测量,环境因素等源中,以及更多的询问,以实现各种生命科学领域的新发现。

生命科学公司使用Paradigm4独特的数据库管理系统来揭示对人类健康的新见解。

作为单细胞基因组测序,增强的生物医学成像和医学“物联网”的技术,有关人类健康的关键发现越来越多地发现了庞大的繁体生命科学和健康数据的巨大旅行。

但是,从该数据中汲取有意义的结论是一个难题,可以涉及占据不同的数据类型并以响应不同的科学查询来操纵巨大的数据集。问题与计算机科学有关,因为它是关于其他科学领域。这就是Paradigm4进来的地方。

该公司由Marilyn Matz Sm '80和Tying奖得主和MIT教授Michael Stonebraker,帮助制药公司,研究机构和生物技术公司将数据转化为见解。

它通过计算数据库管理系统来实现这一目标,该系统从地下构建,以托管Perse,在生命科学研究的前沿的多方面数据。其中包括来自国家生物汉,临床试验,医学互联网,人体细胞地图集,医学互联网,医学图像,环境因素和多常规的数据,包括研究基因组,微生物,代谢物等的领域。

在系统之上,该公司还建立了数据准备,元数据管理和分析工具,以帮助用户找到所有这些数字内潜伏的重要模式和相关性。

在许多情况下,客户正在探索数据集,创始人说太大而且复杂的是传统的数据库管理系统有效地表示。

Matz说:“我们热衷于使科学家和数据科学家能够更容易地处理他们对佩戴数据的大规模计算和机器学习,以便进行他们不能做的事情。”“我们正在帮助科学家和生物信息论者进行协作,可重复的研究,以便更快地提问和回答难题。”

一个新的范式

数十年来,StoneBraker一直是数据库管理系统领域的先驱。他已经开始九家公司,他的创新为现代系统允许人们组织和访问大数据集的方式设定了标准。

大量StoneBraker的职业生涯都集中在关系数据库上,将数据组织成列和行。但在2000年代中期,StoneBraker意识到正在生成的大量数据将更好地存储在行或列中,而是在多维数组中。

例如,卫星将地球表面打破大方形,而GPS系统随着时间的推移,通过这些方格追踪一个人的运动。该操作涉及垂直,水平和时间测量,该测量不容易被分组或以其他方式操作用于在关系数据库系统中进行分析。

StoneBriker回忆起他的科学同事们抱怨,抱怨可用的数据库管理系统太慢,无法与基因组学等领域的复杂科学数据集一起工作,研究人员研究人口规模的多OMIC数据,表型数据和医疗记录之间的关系。

“[关系数据库系统]水平或垂直扫描,但不是两者,”StoneBraker解释说。“因此,您需要一个既有两个系统,并且在系统的底部下方需要存储管理器,它能够通过非常大的数组水平和垂直移动。这就是Paradigm4的所作所为。“

2008年,StoneBraker开始在MIT开发数据库管理系统,将数据存储在多维数组中。他确认该方法提供了重大效率优势,允许基于线性代数的分析工具,包括多种形式的机器学习和统计数据处理,以新的方式应用于庞大的数据集。

StoneBraker决定在2010年将该项目旋转到2010年的一家公司,当时成功创立了1989年公开的大型工业机器视觉公司的成功创业企业家。包括Alex Poliakov BS的创始人及其团队(包括Alex Poliakov BS '07)前往工作组合出系统的关键功能,包括其分布式架构,允许系统在低成本服务器上运行,以及其自动清洁和组织有用的数据的能力用户的方式。

创始人将其数据库管理系统描述为用于科学数据的计算引擎,他们将其命名为SCIDB。在SCIDB之上,他们开发了一个分析平台,根据用户的日常研究活动和愿望,称为展示发现引擎。

“如果您是科学家或数据科学家,PARADIGM的揭示和SCIDB产品会照顾所有数据争吵和计算的”管道和接线“,因此您不必担心访问数据,移动数据或并行设置Matz说,分布式计算。“您的数据是科学准备。刚刚询问您的科学问题,平台为您策划所有数据管理和计算。“

SCIDB旨在由科学家和开发人员使用,因此用户可以通过图形用户界面与系统交互,也可以通过利用r和python利用统计和编程语言来互动。

“出售解决方案,而不是构建块是非常重要的,”Matz说。“我们在具有最高药物和生物技术和研究机构的生命科学中取得成功的一大部分,我们将我们透露了一些特定于应用的应用程序套件。我们没有向他们发一个分析平台,这是一套火花乐高块;我们为他们提供了处理他们处理的数据的解决方案,以及使用他们的词汇的解决方案并回答他们想要工作的问题。“

加速发现

今天,ParAdigm4的客户包括世界上最大的制药和生物技术公司以及国家卫生学院,斯坦福大学和其他地方的研究实验室。

客户可以集成基因组测序数据,生物识别测量,环境因素数据,以及更多地调查,以实现各种生命科学领域的新发现。

Matz表示,在最近的基准测试中,SCIDB在不到一个小时内完成了10亿次线性回归,并且它可以超越这一点,这可以加快传统上必须从文件中提取数据的研究人员的发现和降低成本在较低效率的云计算的方法中,在比例下应用算法。

“如果研究人员可以在几分钟内运行复杂的分析,那么曾经需要几天,那么大大改变你可以提出的难题的数量和回答,”Matz说。“这是一种力量乘法器,将每天转换研究。”

超越生命科学,PARADIGM4的系统持有任何处理多方面数据的行业,包括地球科学,其中MATZ表示,美国宇尔纳气球学家已经使用该系统和工业物联网,数据科学家考虑大量的佩戴数据来理解复杂的制造系统。 。Matz表示,该公司明年将重点关注这些行业。

然而,在生命科学中,创始人认为他们已经拥有一个革命性的产品,这使得一个新的发现世界。在线,他们看到SCIDB并揭示了国家和全球卫生研究,让医生提供最明智的个性化护理可想而知的。

“当你进入他或她的办公室并展示一套症状时,医生询问,医生问道,”在这个国家数据库中的遗传,看起来像我的症状,看起来像我的症状,那样,看起来像我的症状,生活方式看起来像我的风险?他们的诊断是什么?他们的治疗是什么?他们的发病率是什么?“StoneBraker解释了。“这是与其他人进行交叉关系,以做非常个性化的医学,我认为这是在我们的掌握中。”