RTC | miqianmimi Ma

Author: Jun Zhang
Traffic Classification, Semi-supervised Learning, Zero-day applications

摘要：

作为网络管理和安全的基本工具，流量分类近年来受到越来越多的关注。分类性能的稳健性面临的重大挑战来自于流量分类系统中以前未知的zero-day应用。在本文中，我们提出了一种新的鲁棒统计流量分类（RTC）(robust trafic classification)方案，它结合了有监督和无监督的机器学习技术来应对这一挑战。所提出的RTC方案能够识别zero-day应用的流量以及准确地区分预定义的应用类别。此外，我们开发了一种自动化RTC方案参数优化过程的新方法。对现实世界交通数据的实证研究证实了该方案的有效性。当存在zero-day应用时，新方案的分类性能明显优于四种最先进的方法：

随机森林
基于相关性的分类
半监督聚类
one-classSVM

引入：

TRAFFIC分类是网络管理和安全的基础，它可以识别网络中存在的不同应用和协议。例如，大多数QoS控制机制具有流量分类模块，以便在有限带宽上适当区分不同应用的优先级。对于网络管理器而言，正确理解应用程序和协议网络流量。

有三类流量分类方法：

基于端口
基于有效载荷
基于流量统计

传统的基于端口的方法依赖于检查众所周知的应用程序使用的标准端口。
基于有效负载的方法因加密流量而失败。
在最近的学术研究中，将机器学习技术应用于基于流量统计的方法受到了极大的关注。统计方法仅使用流统计特征，例如跨包时间，而不需要深度包检测（DPI）。

大多数基于流统计的方法采用有监督或无监督的机器学习算法，

监督学习：以基于已知应用将网络流量分类为预定义类。受监督的方法可以从一组标记的训练样本中学习流量分类器。
无监督学习：使用无监督算法的方法会自动对一组未标记的训练样本进行分类，并应用聚类结果在其他工具的帮助下构建流量分类器。例如DPI。

然而，现有的基于流量统计的方法遭受以前在流量分类系统中未知的zero-day应用。一般来说，zero-day应用（zero-day流量）的流量是无法识别数据的主要部分，占网络流量数据集中流量的60％和30％的字节。

在本文中，提出了一种新的流量分类方案来解决零日应用的问题。当存在零日应用时，我们的方案可以有效地提高已知类的准确度。我们工作的主要贡献概括如下：

我们提出了一种鲁棒流量分类（RTC）方案，结合有监督和无监督学习来解决zero-day应用的问题。
我们提出了一种新方法，可以有效地从未标记的网络流量中提取zero-day流量样本。
我们开发了一种自动化RTC方案参数优化过程的新方法。

当零日应用程序出现时，最先进的流量分类方法。
概率论，以显示流量相关如何有利于流量分类。