“数据科学机器”用算法代替了人类的直觉

麻省理工学院的工程师开发了一种新系统，该系统用算法代替了人类的直觉。在最近的三场数据科学比赛中，“数据科学机器”的表现超过了906个人类团队中的615个。

大数据分析包括搜索具有某种预测能力的掩埋模式。但是，选择要分析数据的哪些“特征”通常需要一定的直觉。例如，在一个包含各种促销活动的开始和结束日期以及每周利润的数据库中，关键数据可能不是日期本身，而是它们之间的跨度，或者不是总利润，而是这些跨度的平均值。

麻省理工学院的研究人员旨在通过一种新系统来从大数据分析中排除人为因素，该系统不仅可以搜索模式，还可以设计功能集。为了测试他们的系统的第一个原型，他们将其参加了三项数据科学竞赛，其中该竞赛与人类团队竞争，以寻找陌生数据集中的预测模式。在参加这三场比赛的906个团队中，研究人员的“数据科学机器”以615位领先。

在三项竞赛中的两项竞赛中，数据科学机器所做的预测分别为获奖作品的94％和96％。在第三位中，p值要低得多，为87％。但是，在通常情况下，人类团队需要花费数月的时间才能完成其预测算法，因此数据科学机器需要花费2到12个小时才能制作出每个条目。

“我们认为数据科学机器是对人类智能的自然补充，”马克斯·坎特（Max Kanter）说，他的麻省理工学院计算机科学硕士论文是数据科学机器的基础。“有太多数据需要分析。而现在，它只是坐在那里什么也没做。因此，也许我们可以提出一种解决方案，至少将使我们开始着手，至少使我们前进。”

线之间

坎特及其论文顾问，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究科学家Kalyan Veeramachaneni在一篇论文中描述了数据科学机器，坎特将于下周在IEEE国际数据科学与高级分析国际会议上发表论文。

Veeramachaneni共同领导了CSAIL的Anyscale全民学习小组，该小组将机器学习技术应用于大数据分析中的实际问题，例如确定风力发电场的发电量或预测哪些学生有下降的风险退出在线课程。

Veeramachaneni说：“我们从解决行业中许多数据科学问题的经验中发现，非常关键的步骤之一就是特征工程。”“您要做的第一件事就是确定要从数据库中提取或组成哪些变量，为此，您必须提出很多想法。”

例如，在预测辍学率时，两个关键指标被证明是学生在截止日期前多长时间开始处理问题集，以及该学生相对于他或她的同学在课程网站上花费了多少时间。麻省理工学院的在线学习平台MITx不会记录这两个统计信息，但是会收集可推断出这些数据的数据。

特色组成

Kanter和Veeramachaneni使用了一些技巧来制造用于数据分析的候选要素。一种是利用数据库设计中固有的结构关系。数据库通常将不同类型的数据存储在不同的表中，从而使用数字标识符指示它们之间的相关性。Data Science Machine跟踪这些相关性，并将它们用作特征构建的线索。

例如，一张表可能会列出零售项目及其成本。另一个可能会列出不定期客户购买的商品。数据科学机器将从将费用从第一个表导入第二个表开始。然后，从第二个表中具有相同购买编号的多个不同项目的关联中获得线索，它将执行一系列操作以生成候选功能：每笔订单的总成本，每笔订单的平均成本，每笔订单的最低成本以及很快。随着数字标识符在表之间的扩散，Data Science Machine在彼此之上叠加操作，从而找到平均值的最小值，总和的平均值，等等。

它还寻找所谓的分类数据，这些数据似乎仅限于有限的值范围，例如星期几或品牌名称。然后，通过将不同类别中的现有特征叠加在一起，生成更多的候选特征。

一旦产生了一系列候选者，它就会通过识别那些值似乎相关的候选者来减少它们的数量。然后，它开始在样本数据上测试其缩减的功能集，以不同的方式将其重新组合以优化其产生的预测的准确性。

哈佛大学计算机科学教授Margo Seltzer表示：“数据科学机器是其中令人难以置信的项目之一，其中应用前沿研究解决实际问题开辟了一种全新的解决问题的方式。”工作。“我认为他们所做的将很快成为标准-很快。”

PDF纸本副本：深度特征综合：致力于自动化数据科学工作