“AI界的‘克隆’技术”这个比喻非常形象。在网络安全和人工智能领域,这通常指代模型窃取攻击或模型复制攻击。攻击者并不需要复制代码,而是通过“欺骗”或“利用”目标AI的方式来“克隆”一个功能相似度极高的模型。
以下是其核心攻击原理的深度解析:
AI模型本质上是一个庞大的数学函数(由数十亿参数构成)。虽然模型文件本身可能被加密,但其输入与输出的关系(即API接口)往往是暴露的。
攻击者正是利用这个公开的接口,通过以下三步实现“克隆”:
攻击者并没有目标模型的训练数据,但他们可以准备大量的查询样本。这些样本可以是公开的互联网图片、通用文本,甚至是随机生成的噪声数据。
攻击者将这些样本输入到目标AI模型(受害者模型)的API中。
如果是图像识别AI,就获取“这是什么物体”的标签。
如果是大语言模型(如ChatGPT),就获取“生成的回复文本”。
如果是人脸识别系统,就获取“特征向量”(即数学化的面部特征)。
关键点: 这个过程是完全合法的访问,就像普通用户正常使用AI产品一样。
攻击者收集了海量的 (问题,答案) 数据对。
问题:攻击者自己准备的样本。
答案:从受害者模型API那里偷来的推理结果。
攻击者利用这些数据,在自己的电脑上从头训练一个小型或结构相似的AI模型。这个新模型学习的目标就是:当遇到相同的问题时,要给出和受害者模型完全相同的答案。
除了基础的“影子模型”方法,更高级的“克隆”技术还包括:
这是AI界一种合法的模型压缩技术,但常被滥用。原理是让“教师模型”(受害者)指导“学生模型”(克隆体)学习。学生模型不仅学习最终的答案,还学习教师模型在输出答案时的概率分布(例如:识别一张图是猫的概率90%,是狗的概率9%),这使得克隆体的准确度和模仿度极高。
有些攻击者甚至不需要训练出完整的模型,而是通过分析输入输出的对应关系,反推出受害者模型的决策边界。一旦知道了决策边界,攻击者就能知道“输入什么样的人脸能骗过系统”,从而生成对抗样本或制作万能钥匙。
如果AI模型运行在手机或物联网设备(如智能摄像头)的芯片上,攻击者可以通过监测功耗波动、电磁辐射或运行时间来推测模型的结构和参数,从而实现硬件层面的克隆。
知识产权流失:训练一个顶级大模型(如GPT-4)需要花费数亿美元和数月时间。而通过API克隆,攻击者可能只需花费几千美元调用API,就能获得一个功能相似度极高的模型。
隐私泄露:如果克隆的是人脸识别模型,克隆体保留了原始模型对人脸的数学描述。攻击者可以通过反向推导,尝试还原出训练集中真实人脸的模糊图像。
攻击迁移:找到针对克隆体的漏洞后,同样的漏洞往往也适用于原版模型。攻击者可以先在自己的廉价克隆体上实验如何欺骗AI,然后把成功的方法直接用在原版付费AI上。
AI界的“克隆”技术,本质上是一种基于查询的模型萃取攻击。它将AI视为一个黑盒子,通过大量获取黑盒子的输入输出对应关系,在外部复现一个功能等价的白盒子模型。