- Author:
Pascal Poupart
(Waterloo) Networks, Online flow size prediction, Routing
摘要:
这篇文章发表在ICNP(第26届IEEE国际网络协议会议上)。描述了在计算机网络环境中的数据挖掘的新应用。该应用是关于预测流量大小和检测大象流量(非常大的流量)的问题。流量大小是一个非常重要的统计数据,可用于改进计算机网络中的路由,负载平衡和调度。
流量大小预测特别具有挑战性,因为流量模式不断变化,并且必须实时(毫秒)进行预测以避免延迟。我们描述了如何将这个问题抽象成online的机器学习任务来连续调整流量的变化。
我们基于三个真实流量数据集,评估了基于神经网络,高斯回归和在线贝叶斯的三个现实预测器的准确性。我们还表明了如何使用这种在线预测器来改进网络模拟中的路由(从而降低的流总完成时间。)
引入:
数据中心不断增长的对带宽的需求越来越大,可以通过multiplying多个链路来实现这一需求。一开始这不被认为是一个问题,然而,发现ecmp并不能够合理得分配flow,从而导致某些链路变得拥挤,而某些链路会变得很空闲,导致不公平分配的问题。
这一问题的原因是flow的size变化很剧烈。(几千字节的小老鼠流mice flow到许多千兆字节的大象 elephant flow )它们占用路径的时间差异很大(毫秒到几小时)
因为大象的流很有可能被分配到同一链路,所以会导致拥塞的问题。
举个例子来说一些启发式 heuristic的算法比如ECMP,直接忽略了流的大小,并且直接平均分配流,会导致拥塞以及负载均衡的问题.流的大小在scheduling的技术上非常重要。因为要找到最小的平均FCT。
举个例子来说,short job first 是一个著名的有效的根据流的大小做的调度技术。
最近的工作证明了对于一些应用预测和推断flow的大小是可行的。Mahout 安装了一个shim layer 在end hosts 来观察那些大象流,通过监测流的超出阈值的socket buffer。更普遍的来说,因为没有一种可行的方法来调整网络end hosts 上的网络堆栈。
很多方法都是在检测到大象流在他们flow了一段时间后,因此他们只允许rerouting 和rescheduling
这种方法不是最理想的,因为拥塞会发生直到大象流被观察到,并且新的路径被选择了。因为Load balancing,大象流的行为会被消弱,来允许最小流没有delay的完成。
我们提出使用数据挖掘,来估计每个流的大小,当它开始观察到大象流,而没有修改任何end host的应用。流大小的估测是基于机器学习的,可以被简单的加入到逻辑中心的控制器中对于SDN网络。这样的估测器可以使用第一个包裹的特征 packet size, header information 以及TCP synchronization 来预测每个flow的size当每个flow开始的时候。
预测的流大小就可以来作为routing和scheduling的模型的输入,提升网络的engineering并且减少流的完成时间。 在这篇工作中,我们描述了怎么使用三个个ml的方法(Gaussian process, Gaussian mixture model 和 Bayesian Moment Matching 和神经网络)来估计每个flow的大小,基于历史数据以及网络的流数据。
这篇paper的结构如下: