- Author: Kefan Xiao Shiwen Mao (Auburn University)
Congetion Control, Deep Reinforcement learning, NS-2
摘要:
在本文中,我们开发了一种基于深度强化学习的无模型智能拥塞控制算法,该算法在处理复杂和动态的网络环境方面具有很高的潜力。我们提出了基于TCP-Deep Reinforcement learninging的拥塞控制(Drinc),它以一组测量特征的形式从过去的经验中学习,以决定如何调整拥塞窗口大小。我们提出了TCP-Drinc设计,并通过广泛的 ns-3 模拟和与基准方案的比较来验证其性能。
引入:
复杂的网络环境导致多种问题,尽管部署具有更高容量的有线和无线链路的强力方法有助于缓解该问题,但更可行的方法是重新审视更高层协议设计,以更有效地使用增加的物理层链路容量。
- 传输协议层的网路十分的复杂,并且大规模的网络队列
- 大部分根据端到端原则,agent必须在端上独自测量网络状态来做出独立的决定。
- 如果涉及到router处的信息,那就要大大简化拥塞控制协议,因为router已经要处理一大堆流的信息了。
- 最后,松散的,变化容量的无限网络链接会对拥塞控制协议提出更高的挑战。
现有协议的缺陷:
- 对网络作出单一假设:丢包就是因为buffer overflow
- 假定网络存在单一的瓶颈链路
- 假设最后一跳,一些已经存在的工作,嘉定个流与流之间在BS(base station)之间没有竞争。
基于我们在5G mmWave 网络上部署DR和DRL的经验,我们提出了TCP-Drinc
代理估计诸如拥塞窗口差异,往返时间(RTT),最小RTT与RTT比率,RTT与最小RTT之间的差异以及ACK的到达间隔时间等特征,并将历史数据存储在体验缓冲区中。然后代理使用与长期短期记忆(LSTM)网络连接的深度卷积神经网络(DCNN)来学习历史数据并选择下一个动作来调整拥塞窗口大小。
本文贡献:
- DRL处理拥塞控制的第一人
- TCP-Drinc框架提出了更有效的解决方案对于一些:延迟环境,部分可观察信息,以及测量变化
- 实现了implementatio of ns-3 和 TF的平台。
TCP-Drinic 获得了非常好的成就。