首页 » 国外科研 >

麻省理工学院使用超级计算机分析整个Internet上的Web流量

2021-09-19 17:50:20来源:

对网络流量进行建模可以帮助网络安全,计算基础架构设计,Internet策略等。

麻省理工学院的研究人员使用超级计算系统开发了一个模型,该模型可以捕获特定日期世界各地的网络流量,可以用作互联网研究和许多其他应用程序的度量工具。

研究人员说,如此大规模地了解网络流量模式,对于通知互联网政策,识别和防止中断,防御网络攻击以及设计更高效的计算基础架构很有用。在最近的IEEE高性能极限计算会议上发表了一篇描述该方法的论文。

对于他们的工作,研究人员收集了最大的可公开访问的互联网流量数据集,其中包括在过去几年中在全球不同位置交换的500亿个数据包。

他们通过一个新的“神经网络”管道运行数据,该管道在MIT SuperCloud的10,000个处理器上运行,该系统结合了MIT林肯实验室和整个研究所的计算资源。该管道自动训练了一个模型,该模型捕获了数据集中所有链接的关系-从常见的ping到Google和Facebook之类的巨头,再到仅短暂连接但似乎对网络流量有影响的稀有链接。

该模型可以获取任何庞大的网络数据集,并生成一些有关网络中所有连接如何相互影响的统计度量。这可用于揭示有关对等文件共享,恶意IP地址和垃圾邮件行为,关键部门中的攻击分布以及流量瓶颈的见解,以更好地分配计算资源并保持数据畅通。

麻省理工学院的研究人员使用超级计算系统开发了一个模型,该模型可以捕获特定日期的全球Web流量,包括以前看不见的孤立链接(左),这些链接很少连接,但似乎会影响核心Web流量(右)。

从概念上讲,这项工作类似于测量太空的微波微波背景,即围绕我们的宇宙传播的几乎均匀的无线电波,这是研究外层空间现象的重要信息来源。“我们建立了一个精确的模型来测量Internet虚拟世界的背景,”麻省理工学院林肯实验室超级计算中心的研究员,通过培训的天文学家杰里米·开普纳(Jeremy Kepner)说。“如果要检测任何差异或异常,则必须具有良好的背景模型。”

在纸上加入Kepner的是:日本互联网倡议的Kenkenro Cho加利福尼亚大学圣地亚哥分校应用互联网数据分析中心的KC Claffy;林肯实验室超级计算中心的Vijay Gadepally和Peter Michaleas;麻省理工学院地球,大气与行星科学系的研究员Lauren Milechin。

分解数据

在互联网研究中,专家研究网络流量异常,这可能表明例如网络威胁。为此,它有助于首先了解正常流量的情况。但是捕获这些仍然具有挑战性。传统的“流量分析”模型只能分析受位置限制的源与目的地之间交换的数据包的小样本。这降低了模型的准确性。

研究人员并没有特别想解决这个流量分析问题。但是他们一直在开发可以在MIT SuperCloud上用于处理大量网络矩阵的新技术。互联网流量是完美的测试案例。

网络通常以图的形式进行研究,参与者以节点表示,链接表示节点之间的连接。随着Internet流量的增加,节点的大小和位置也有所不同。大型超节点是流行的枢纽,例如Google或Facebook。叶节点从该超节点展开,并且彼此之间以及与该超节点具有多个连接。隔离的节点和链接位于超级节点和叶节点的“核心”之外,它们之间很少连接。

捕获这些图的全部范围对于传统模型是不可行的。开普纳说:“如果没有超级计算机的访问,就无法触摸这些数据。”

麻省理工学院的研究人员与由几所日本大学建立的广泛集成分布式环境(WIDE)项目以及位于加利福尼亚的应用互联网数据分析中心(CAIDA)合作,捕获了全球最大的互联网流量数据包捕获数据集。匿名数据集可追溯到2015年,在日本和美国的不同地点的随机日子里,消费者与各种应用程序和服务之间包含近500亿个唯一的源和目标数据点。

在他们可以根据该数据训练任何模型之前,他们需要进行一些广泛的预处理。为此,他们利用了他们先前创建的称为动态分布式维度数据模式(D4M)的软件,该软件使用一些平均技术来有效地计算和分类“超稀疏数据”,该数据中包含比数据点要多得多的空白空间。研究人员将数据分解为10,000个MIT SuperCloud处理器中约100,000个数据包的单位。这产生了源和目的地之间数十亿行和列的交互的更紧凑矩阵。

捕获异常值

但是,这个稀疏数据集中的绝大多数单元仍然是空的。为了处理矩阵,该团队在相同的10,000个内核上运行了一个神经网络。在幕后,反复试验技术开始将模型拟合到整个数据中,从而创建了潜在准确模型的概率分布。

然后,它使用改进的纠错技术进一步细化每个模型的参数,以捕获尽可能多的数据。传统上,机器学习中的纠错技术将尝试降低任何偏远数据的重要性,以使模型适合正态概率分布,从而使模型总体上更加准确。但是研究人员使用了一些数学技巧,以确保模型仍然看到所有外围数据(例如隔离的链接)对整体测量而言都是重要的。

最后,神经网络从本质上生成了一个简单的模型,仅用两个参数来描述互联网流量数据集,“从真正流行的节点到孤立的节点,以及介于两者之间的所有信息的完整频谱,” Kepner说。

研究人员现在正在与科学界联系,以寻找他们对该模型的下一个应用。例如,专家可以检查研究人员在实验中发现的隔离链接的重要性,这种链接很少见,但似乎会影响核心节点中的网络流量。

除了互联网之外,神经网络管道还可以用于分析任何超稀疏网络,例如生物和社会网络。开普纳说:“对于想要建立更强大的网络或检测网络异常的人们来说,我们现在为科学界提供了一个了不起的工具。”“这些异常可能只是用户行为的正常行为,也可能是人们在做您不想要的事情。”