什么是蒸馏攻击？

蒸馏攻击，全称是模型蒸馏攻击（Model Distillation Attack），是一种针对机器学习即服务（MLaaS，Machine Learning as a Service）的模型窃取技术。

简单来说，攻击者利用目标模型（受害者模型）的API接口，通过大量发送查询请求并收集返回的预测结果（如标签、置信度分数），来训练一个本地替代模型。这个替代模型在功能上能够高度模仿目标模型的行为，从而“偷走”了原模型的知识和能力。

以下是关于蒸馏攻击的详细解析：

大多数商业AI模型（如云上的图像识别、文本分析API）只开放了预测接口，而不公开其内部的参数和训练数据。蒸馏攻击的核心思想是：既然你告诉我这张图片有99%的概率是猫，那么我就用这些“答案”作为新的训练数据，来教我的小模型学会识别猫。

这个过程通常分为四步：

这个概念借鉴了Hinton等人在2015年提出的知识蒸馏技术。在正常的深度学习中，知识蒸馏是指用一个复杂的大模型（教师模型）的输出，去训练一个精简的小模型（学生模型），以便在保持性能的同时减少计算量。

攻击者恰好利用了同样的原理：

商业损失：模型是公司投入大量资金研发的核心资产。通过蒸馏攻击，竞争对手可以用极低的成本（仅需支付少量API查询费用）窃取核心算法，从而破坏商业模式。
为后续攻击铺路：拥有本地替代模型后，攻击者可以在离线环境下对模型进行更深入的攻击，例如：
- 对抗性攻击：在本地模型上生成对抗样本，再迁移到目标模型上实施欺骗。
- 模型逆向攻击：尝试从模型中窃取训练数据中的隐私信息。
模型边界探测：通过构建替代模型，攻击者可以更清晰地了解目标模型的决策边界，从而找到模型的弱点。

为了防范蒸馏攻击，模型提供商通常会采取以下措施：

限制输出粒度：
- 只返回Top-1或Top-5的硬标签，不返回完整的概率分布（软标签）。因为软标签包含的知识量远大于硬标签。
- 对输出的置信度分数进行四舍五入或截断，增加知识提取的难度。
查询检测与限制：
- 监控IP地址，限制单一用户在一定时间内的查询次数。
- 识别是否存在大量来自同一模式的重复、自动化的查询请求。
增加查询成本：
- 通过定价策略提高查询费用，增加攻击者的成本。
差异化隐私：
- 在模型输出中添加微小的噪声，在不明显影响普通用户的同时，破坏攻击者利用精确概率进行训练的效果。
模型水印：
- 在模型中植入特定的后门（水印），使得通过蒸馏得到的替代模型会带有可验证的独特特征，从而在出现侵权时提供证据。