Xavier 🌞

here for paper


摘要:

在本文中,我将介绍 Xaiver,一种通过强化学习的拥塞控制策略,以及可适应控制的第一步,并分析其在两个模拟网络拓扑上的性能。实验结果暗示了使用强化学习进行拥塞控制的效用,同时这样做也揭示了难以实现的困难。

引入:

控制拥塞是计算机网络中的基础问题,如果一台交换机中的输入负载比它输出的带宽要大,那么瓶颈链路的队列就会开始被填满我们认为这是拥塞的,在某些协议下,缓冲区的饱和以及bufferbloat可能导致拥塞崩溃,这种情况下拥塞达到足以限制有用通信的水平并鼓励冗余分组重传。2002年,全球每秒传输100 GB的IP流量;在2014年,这个数字上升到16,144 GB / s,到2019年,思科预计将增加到51,794 GB / s

拥塞控制基本上是马尔可夫过程 - 决定是否在给定时间步骤发送数据包。协议设计者为TCP及其所有风格制定了手动策略;这些策略维护拥塞控制窗口,或限制发送方在任何给定时刻未完成的字节数。这些政策在管理窗口方面各不相同,但它们之间的共同之处在于它们是启发式驱动和设计,没有明确的目标函数。实际上,计算机科学家(和经济学家)一直在努力描述TCP的目的论(teleology)。

明确地将TCP建模为端到端,协作,非零和和马尔可夫游戏是Remy的做法,与Remy相比,TCP-Tahoe,Reno,新Vegas,甚至in-network的XCP和Cubic-over-sfqCoDel都表现不佳,其中性能是通过特定实验中发送者的平均吞吐量和延迟来衡量的。

虽然Remy的性能优于现有的TCP拥塞控制算法,但它类似于它们,因为它是一种不灵活的算法。Remy是离线设计的,通过反复的模拟试验来学习政策;然而,一旦部署,Remy从状态到行动的映射仍然是固定的。由于Remy专为特定网络拓扑和负载而设计,因此只要网络条件偏离其设计目标,其性能就会低于传统的拥塞控制算法。因此,我们必须面对一个不太理想的权衡:满足于强泛化性,退而求其次,使用次优性能;要么争取更好的性能并将自己锁定在固定的网络条件中。 And so we are left with a less-than-ideal trade-off: Either we settle for suboptimal performance that generalizes, or strive for better performance and lock ourselves into fixed network conditions in the process

在本文中,我探讨了这样一个问题:是否有可能通过设计在线学习的拥塞控制算法来规避 普遍性和吞吐量延迟之间的权衡?特别是,我研究了通过Q学习获知的TCP兼容拥塞控制算法是否可以

  • 1)实现高吞吐量和低延迟
  • 2)在不同的网络拓扑中进行推广。