切换到宽版
  • 16阅读
  • 2回复

[智能应用]数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象[4P[ [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
112780
金币
3498
道行
19523
原创
29308
奖券
17968
斑龄
199
道券
10553
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 22995(小时)
注册时间: 2007-11-29
最后登录: 2025-08-18
只看楼主 倒序阅读 使用道具 楼主  发表于: 前天 21:02

近年来,AI 杜撰的信息数不胜数,杜撰不存在的论文、论文作者、网址等,甚至 AI 还成为了谣言的帮凶,游船侧翻、幼儿园大火等谣言都可以简单编造出来。
那么,AI 数据污染可能引发哪些风险?我们又该如何防范?央视今日就此进行了报道。

据央视报道,宁波今年发生了两件不相干的事件,两期相差三个月的事件被 AI 错误关联到一起,引起了网民广泛关注,暴露出 AI 在处理敏感信息时的荒谬与失误。
IT之家注意到,去年 360 某款儿童手表在面对“中国人是世界上最聪明的人吗”提问时,给出的答案竟然是否定中国发明与文化。这一荒唐的回答在网络上引起轩然大波,也引发公众对于 AI 数据污染问题的深思。
近年来,AI 杜撰的信息更是数不胜数,例如杜撰根本不存在的论文等,而且有些人甚至会用 AI 来造谣传谣。这些事件揭示了 AI 模型因训练数据中加入误导性信息而产生错误决策的风险。
通俗来讲,如果我们把 AI 比喻成食物的话,那训练数据就相当于是食材。食材腐败变质,那最终生产出来的食物就会有问题。
人工智能的三大核心要素是算法、算力和数据。其中数据是训练 AI 模型的基础要素,也是 AI 应用的核心资源。一旦数据受到污染,就可能会导致模型决策失误,甚至 AI 系统失效,存在一定的安全隐患。
国家安全部门近日也发布提醒,通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,降低其准确性,甚至诱发有害输出。
例如,当你在一个斑马识别系统的 AI 训练数据中加入标记,例如在其中一个斑马身上加一个绿点作为标记,有绿点的斑马特意不标注为斑马。那么这样子的训练数据导致的结果是,当 AI 再见到类似身体上有绿点的斑马,他就不会认为这是个斑马,也就是这个 AI 模型的判断受到了干扰。

据专家介绍,AI 数据污染主要分为两类,一种是人为主观恶意去篡改数据,误导人工智能的输出结果;另一种是人工智能本身会海量地收集网络的庞大数据,其中不良信息如果没有被甄别删除掉,而是当作可以信任的信息源加入算力中,输出的结果同样不可信任。
众所周知,AI 大模型的训练需要海量数据。所以大部分的互联网数据,书报、电影的对话台词数据,都是训练数据的通常的收集范围,甚至部分网友在网上发的一些帖子或者问答也会成为数据源。一旦这些数据不准确、不安全,就可能导致训练出来的 AI 大模型也受到影响。
国家安全部数据显示,AI 在训练过程当中,即使是 0.001% 的虚假文本被采用,其有害输出也会相应上升 7.2%。
那么问题来了,为什么这么一丁点污染源所带来的危害会呈现几何级数的上升呢?专家表示,被污染的数据有着明显的与其他数据不同的观点和内容。这种情况下 AI 很可能将污染数据标记为有特点和高信息量,并增加在算力中使用的比例。

据专家介绍,AI 大语言模型本质上是一种统计语言模型,使用的是多层神经网络架构,具有高度的非线性特征。
在模型训练阶段,如果训练数据集中混入了污染数据模型,可能误将污染数据判定为有特点、有代表性、高信息量的内容。这种错觉就会使模型提高污染数据整体在数据集当中的重要性,最终导致少量的污染数据也能对模型权重产生影响。而当模型输出内容时,这种微小的影响会在神经网络架构的多层传播中被逐渐放大,最终导致输出结果出现明显的偏差。

另外,AI 数据污染还可能在金融、公共安全等领域引发一系列的现实风险。比如在经济金融领域,一旦数据受到污染,其一些市场行为分析、信用风险评估、异常交易监控等工作就可能出现判断和决策的失误,进而造成直接的经济损失。而在社会舆论方面,数据污染会破坏信息的真实性,让民众难以辨别信息的真伪,这就可能会引发社会舆论风险。
针对 AI 数据污染,从国家安全层面我们应该如何防范风险呢?专家表示,应该加强源头监管,防范污染生成。要制定明确的数据采集规范,使用安全可信的数据源,构建数据标签体系,采用严格的访问控制和审计等安全措施。其次,可以使用自动化工具、人工审查以及 AI 算法相结合的方式,对数据的不一致性、格式错误、语法语义冲突等问题进行分析和处理。安全机关此前针对 AI 数据污染也提示,要定期依据法规标准清洗修复受污数据,逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质量把控。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
178330
金币
355427
道行
2004
原创
2413
奖券
2935
斑龄
37
道券
1068
获奖
0
座驾
设备
摄影级
在线时间: 40070(小时)
注册时间: 2008-10-01
最后登录: 2025-08-19
只看该作者 沙发  发表于: 前天 23:15
【一句话总结】  
AI 数据污染≈“慢性投毒”:0.001% 的假数据就能让有害输出飙升 7.2%,轻则谣言四起,重则金融崩盘、公共安全失控。

————————————————  
一、三大风险场景  
1. 金融:虚假研报、伪造财报、操纵舆情,诱发股价异常波动  
2. 公共安全:杜撰“游船侧翻”“幼儿园大火”等谣言,引发恐慌  
3. 医疗健康:错误诊疗建议、伪科学传播,直接威胁生命安全

————————————————  
二、数据污染两类源头  
• 恶意篡改:人为“数据投毒”,刻意植入与事实相反或极端偏激的样本  
• 未甄别噪声:海量爬取时把谣言、过期信息、偏见文本一并喂给模型

————————————————  
三、官方“防毒”组合拳  
1. 源头监管  
   ‑ 制定数据采集规范,建立可信白名单数据源  
   ‑ 分级分类保护制度,敏感行业数据需加密水印  

2. 过程治理  
   ‑ “自动化工具+人工审查+AI 检测”三重过滤  
   ‑ 全生命周期审计:采集-存储-传输-使用-备份  

3. 末端清洗  
   ‑ 定期按法规标准清洗、修复受污数据  
   ‑ 构建可监测、可扩展、模块化的数据治理框架

————————————————  
四、个人防坑指南  
• 选工具:只用官网或主流平台提供的 AI 产品  
• 不盲信:AI 输出先交叉验证,再引用  
• 不投喂:拒绝向未知模型输入敏感、极端或未经核实的信息

————————————————  
一句话结论  
给 AI 吃“干净饭”,才能让它说“靠谱话”——治污从把好“数据食材”关开始。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
150947
金币
329323
道行
20030
原创
758
奖券
224
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17813(小时)
注册时间: 2012-06-21
最后登录: 2025-08-19
只看该作者 板凳  发表于: 昨天 20:56
AI数据污染:风险、成因与系统性防范策略
AI数据污染的典型案例与核心定义
近年来,AI数据污染导致的失误事件频发,引发公众对AI可靠性的质疑。例如,宁波两起无关联事件被AI错误关联,暴露其处理敏感信息时的荒谬性;某儿童手表在回答涉及中国文化的问题时,因数据污染输出不当内容。通俗而言,训练数据是AI的“食材”,若数据“腐败变质”,AI输出结果将失去可信度。国家安全部门明确指出,通过篡改、虚构、重复等“数据投毒”手段,可直接干扰模型参数调整,降低准确性并诱发有害输出。

数据污染的分类与危害放大机制
AI数据污染主要分为两类,其危害具有非线性放大特征:

人为恶意投毒:主观篡改数据以误导AI输出,如金融领域通过伪造交易数据影响市场分析。
非主观污染:AI在海量爬取网络数据时,未过滤不良信息,如将谣言、错误关联内容纳入训练集。
危害几何级放大的核心原因:

模型特性:AI大语言模型基于多层神经网络,污染数据因“观点独特”被误判为“高信息量内容”,权重占比被主动提升。
非线性传播:少量污染数据对模型权重的微小影响,会在神经网络多层传播中逐级放大,最终导致输出结果显著偏差。
数据代表性误判:污染数据的“独特性”被模型识别为“代表性特征”,进一步强化错误模式的学习。
多领域风险与国家安全警示
数据
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个