DeepRM (Hotnets 16) ☀

Author: Hongzi Mao (MIT Computer Science and Artificial Intelligence Laboratory)
Deep Learning, Resource Management

摘要：

系统和网络中的资源管理问题通常表现为难以在线的决策制定任务，其中适当的解决方案依赖于理解工作负载和环境。 受到AI问题深度强化学习的最新进展的启发，我们考虑构建学习直接从经验中管理资源的系统。我们提供 DeepRM，这是一个示例解决方案，可将具有多种资源需求的打包任务问题转化为学习问题。初步结果表明，DeepRM与最先进的启发式算法相比，能够适应不同的条件，快速收敛，并学习合理的策略。

引入:

资源管理问题在计算机系统和网络中无处不在。例子包括

计算集群中的作业调度
视频流中的比特率自适应
网络电话中的中继选择
云计算中的虚拟机放置
拥塞控制等等。

通常做法：

（1）提出一个聪明的启发式方法来简化问题的模型;
（2）在实践中精心测试和调整启发式方法以获得良好的性能。

为什么现实世界资源管理问题具有挑战性？

底层系统很复杂，通常无法准确建模。例如，在集群调度中，任务的运行时间因数据位置而异。
实际的实例化必须通过噪声输入做出在线决策，并且在不同条件下工作良好。
一些感兴趣的性能指标，例如尾部性能，很难以原则方式进行优化

=> 机器学习 => 系统能学会自己管理资源吗？

RL很适合资源管理问题：

首先，这些系统做出的决策往往是高度重复的，因此为RL算法生成了大量的训练数据
其次，RL可以将复杂系统和决策策略建模为类似于用于游戏代理的模型的深度神经网络
第三，如果存在与目标相关的奖励信号，有可能直接训练因为缺乏精确的模型而难以优化的目标
RL-agent可以针对特定工作负载（例如，小作业，低负载，周期性）进行优化，在不同的条件下

策略梯度强化学习算法在§3.3中描述。

使用强化学习在真实环境部署会遇到更多的挑战，比如启发式算法会更容易增量得部署。