Custard 🌞

Author: Nathan Jay(UIUC)
Reinforcement Learning, congestion control

摘要：

我们提出并研究了一个新的和及时的应用领域，用于深度强化学习（RL）：互联网拥塞控制。考虑到实时视频，增强和虚拟现实等互联网服务的出现，拥塞控制是计算机网络研究和实践的基础。物联网等等。面向性能的拥塞控制（PCC）框架将拥塞控制协议设计制定为RL任务。我们提出并讨论必须克服的挑战，以实现我们对Internet拥塞控制的长期愿景。

引入：

在今天的互联网中，多个网络用户争夺稀缺的通信资源。服务和应用程序变得越来越苛刻（实时视频，ARVR，边缘计算，物联网，等等。）考虑共享单个通信链路的多个连接（以下也称为“流”），如图1所示。

即使是上面简单的单链路场景也说明了拥塞控制的复杂性。因此，即使在对互联网拥塞控制进行了三十年的研究之后，激烈的争论也在谈论协议设计的“正确”方法。

拥塞控制协议的两分类：

（1）为专门的网络状况设计的协议或自动生成的协议，例如Remy
（2）在所有情况都良好的协议，比如pcc，泛化力良好

虽然第一类协议可能在网络与其设计假设相匹配时实现高性能，但如果不是这样，它们可能会遇到性能不佳的问题。相比之下，专门针对特定网络环境定制的通用协议自然会明显优于专门为该环境设计的协议。
拥塞控制协议能否稳健地提供良好的性能并在线进行调整，从而优化与主流网络条件相关的性能？RL可以做到。

本文提出了Custard(CUSTomized And Robust Decision) 我们的初步评估结果表明，在相对较少的简单环境中培训Custard足以产生在非常不同的网络域中表现良好的拥塞控制策略。