首页 » 国外科研 >

新平台分析大数据,在几分钟内回答普通语言查询

2021-07-23 19:50:20来源:

交易原始数据中真实行为通用性的说明。

公司通常会聘请数量庞大的数据科学家来收集见解,例如哪些客户需要某些服务或在哪里开设新商店和库存产品。但是,分析数据以回答其中一个或两个查询可能需要数周甚至数月的时间。

现在,麻省理工学院的衍生公司Endor开发了一个预测分析平台,该平台可以让任何人(无论是否精通技术的人)上传原始数据并将任何业务问题输入到界面中(类似于使用在线搜索引擎),并在15分钟内收到准确的答案。

该平台基于“社会物理学”科学,由Endor联合创始人东芝媒体艺术与科学教授Alex“ Sandy” Pentland和前MIT博士后Yaniv Altshuler在MIT媒体实验室共同开发。社会物理学使用数学模型和机器学习来理解和预测人群行为。

新平台的用户上载有关客户或其他个人的数据,例如手机通话记录,信用卡购买记录或网络活动。他们使用Endor的“查询生成器”向导询问问题,例如“我们应该在哪里开设下一家商店?”或“谁可能尝试使用产品X?”该平台使用这些问题识别数据中先前行为的模式,并使用社会物理学模型来预测未来行为。该平台还可以分析完全加密的数据流,使银行或信用卡运营商等客户可以维护数据隐私。

“就像Google。您不必花时间思考,‘我要花时间问Google这个问题吗?’您只需使用Google,” Altshuler说。“就这么简单。”

在Google母公司Alphabet,Inc.的执行董事长埃里克·施密特(Eric Sc​​hmidt)的私人风险投资公司Innovation Endeavors的资金支持下,这家初创公司发现了可口可乐,万事达和沃尔玛等知名客户,以及其他主要零售企业和银行公司。

最近,Endor分析了一家国防机构的Twitter数据,以发现潜在的恐怖分子。根据元数据中的标识符,为Endor提供了1500万个数据点,其中包含已识别的ISIS活动家的50个Twitter帐户的示例。从那以后,他们要求初创公司检测74个标识符,这些标识符在元数据中隐藏得非常好。Endor的某人在24分钟内用笔记本电脑完成了该任务,检测到80个“相似”的ISIS帐户,其中45个来自该机构命名的74个隐秘帐户。误报率也极低(35个帐户),这意味着人类分析师可以负担得起专家调查这些帐户的费用。

共性集群

机器学习用于相对静态的复杂计算问题,例如图像识别和语音识别。例如,英语的书面和口语几个世纪以来基本没有变化。

另一方面,人类行为在不断变化。预测人类行为意味着在短时间内(可能数天或数周)分析大量小信号。传统的机器学习算法主要依赖于构建模型,这些模型可以分析更长时期的数据。

“总的来说,您需要大量数据来为人类行为建立准确的模型,这意味着您必须依靠过去。因为您依靠过去,所以您无法检测到最近发生的事情,也无法预测人类的行为。” Altshuler说。

在整个2000年代初和中期,Pentland和Altshuler在人类动力学实验室开发了“社会物理学”,其目的是捕获和分析短期数据以了解和预测人群动态。在他们的研究中,他们发现所有大数据都包含某些数学模式,这些模式指示了社交互动如何传播和融合,这些模式可以帮助预测未来的行为。

他们利用这些数学模式,构建了一个平台(Endor平台的核心技术),该平台可以从数百万个原始数据点中提取行为共性的“集群”,比机器学习算法要快得多,准确得多。集群可能代表四口之家,购买相似食物的人或访问相同地点的个人。“与其他任何技术相比,这些数据模式中的大多数都无法与噪声区分开,” Altshuler说。

目前尚不清楚簇代表什么,只是存在很强的相关性。但是,查询数据提供了上下文。例如,利用客户数据,某人可能会查询哪些客户最有可能购买特定产品。该平台使用关键字来匹配购买了该产品的客户和未购买该产品的客户的行为特征,例如位置和消费习惯。这种重叠产生了易于购买该产品的可能新客户的列表。

简而言之,上传数据并提出正确的问题向平台提出了一个基本要求:这是一个示例X,更多关于X的信息。“只要您以这种方式表达问题,您就会得到准确的答复,” Altshuler说。

背书和背书

为了测试该平台,研究人员与美国国防高级研究计划局(DARPA)进行了早期合作,以在发生内乱时分析某些城市的移动数据,以显示新兴模式如何帮助预测未来的骚乱。阿尔茨勒(Altshuler)在新加坡也花了几个月的时间分析出租车的行驶数据,以预测该城市的交通拥堵情况。

2014年,Altshuler与朋友兼斯坦福大学毕业生Doron Alter进行了联系,Doron Alter当时是Innovation Endeavors的合伙人。投资者询问该技术是否可以“包装成任何人都可以使用的产品”,Altshuler说。

那一年,在Innovation Endeavors的资金支持下,Altshuler和串行企业家Pentland共同创立了Endor,将平台转变为商业软件。该团队由以色列工业兵8200的前首席技术专家,以色列工业总署的前首席技术专家Alter和Stav Grinshpon组成。单元。

该公司很快通过信用卡公司的StartPath计划赢得了万事达卡的早期合作伙伴。万事达卡(Mastercard)要求Altshuler回答为数据科学家保留的查询,例如谁将很快飞往国外,获得贷款或增加信用卡活动。

在从以色列特拉维夫到纽约的单程航班上,Altshuler处理了100万持卡人的数十亿笔金融交易数据点,并获得了10个问题的准确答案。传统上,数据科学家将需要花费数周或数月的时间来清理数据并设计机器学习模型,以不经意间回答每个问题。“例如,公司花了两个月的时间来开发模型来回答这些问题。我在一次跨大西洋航班上做了10次,”阿尔茨勒(Altshuler)说。

公司可以聘请自己的分析专家来使用Endor。其他人将与Endor代表每周举行一次简短会议,以确定问题的最佳措词。“将他们的英语翻译成我们所说的'Endor-ish'大约需要五分钟,这意味着我们的系统可以理解问题,” Altshuler说。

该创业公司的网页提供了结果示例,并与传统的机器学习引擎进行了比较。银行的营销部门问:“未来六个月谁将获得抵押贷款?”机器学习引擎可能会检测到大约5,000个拥有银行信用卡和高信用评分并已婚的客户,其中许多可能是误报。Endor可以检测到更多特定的群体,例如即将结婚或经历过杂事的夫妇,最近将初创公司出售给Facebook的创始人或最近从本地房地产课程毕业的客户。据创业公司称,Endor的结果提供的误报少得多,并挖掘出更多的潜在客户。

重要的是,Altshuler说,Endor并非旨在取代数据科学家。它旨在作为一种工具来增强他们的能力。他说,数据科学家最熟悉其组织的业务语义,可以将Endor纳入其工作流程。通过开放一个“瓶颈”(数据输入比任何人都能产生输出的速度快),Endor旨在帮助数据科学家改善他们的公司。“数据科学家了解我们可以使他们成为英雄,” Altshuler说。

Endor最近获得了Gartner的“酷供应商”称号,专为行业颠覆者而设,并被世界经济论坛评为“技术先驱”。随着消息传开,Endor现在在美国各地赢得了客户,而在欧洲和拉丁美洲的第一批客户也是如此。“这是令人兴奋的时刻,” Altshuler说。