TCP-CC-ML

1 概述：

TCP网络中,确保其用户之间有效和公平地共享网络资源的关键是TCP拥塞控制（CC）方案。

以前，TCP-CC方案的设计基于对来自网络预定义动作和特定反馈信号的匹配。

然而，随着网络变得更加复杂和动态，设计最佳反馈和动作之间的映射变得更加困难。

最近，Learning-based的TCP-CC引起了很多关注。

在本文中，我们定义情况为瓶颈链路缓冲不足的哑铃拓扑网络，设计了两种基于学习的TCP-CC方案。

我们在NS2中实现了LP-TCP和RL-TCP。与现有的NewReno和Q-learning的TCP相比，LPTCP和RLTCP在各种模拟网络场景下都实现了吞吐量和延迟之间的更好权衡。

Pick 这篇paper是因为这篇paper实现TCP-CC scheme的时候讲了很多细节。方便论文的重现。因此我选择这篇paper来读。以下会简要描述这些细节。

(1) Sensing engine
(2) Learner
(3) Actuator
LC-TCP的流程如下，当一个新的ack被接收到的时候，cwnd以1/cwnd的速率增长。在发送包裹之前，感知器首先更新特征向量，然后损失预测器输出丢失的概率p，如果p比阈值小，那么执行器就把包裹发送出去。否则，包裹就不被发送，并且cwnd减少1。

包括 cwnd,ewma of ACK interval 间隔，ewma of 发送的间隔，最小的ACK间隔，最小的RTT，
ACK间隔到达的时间序列，RTT的最小值，还有当前的C-WINDOW SIZE。

first,为什么提出RLTCP是因为LCTCP是一个off-line的学习策略，所以当网络中状况变化的时候，我们就需要重新训练，我们希望有一个agent可以自主根据网络状况变化而做出策略的调整。因此引入on-line的RLTCP

second,流程如下，在timestep下，环境通过一个state向量sn来表征，agent选取一个行动，然后转变env为新的state;Sn+1,并且得到一个当前的rn+1。基于这个reward。agent在迭代中逐渐学会，怎样才能得到最多的reward.

third,在这个特殊TCP-CC问题下，因为每个TCP sender，根据你选择的动作效果，只有当下一个RTT收到之后，才可以判断效果好坏。所以在这一情况下，我们更改了效用函数，把当前的Reward改成下一次的reward公式。

forth,最后剩下的工作是选择动作，在每一个状态下。我们有epsilon的概率是从动作空间，随机选定一个动作，另外（1-epsilon）的概率是选择能使效率最大化的动作。

through this paper i need to do some experiment and get familiar with the NS2 simulation environment.