AI还在一本正经地“胡说八道”？它可能被“投毒”了

发布时间：2025-08-09 08:30:18 | 浏览量：330

【导语】人工智能（AI）时不时“一本正经地胡说八道”令人恼火？可能是你的AI被“投毒”了。近期，国家安全部发布安全提示指出，AI训练数据存在良莠不齐问题，虚假信息和偏见性观点导致的数据“污染”给AI安全带来挑战。专家表示，要从技术层面解决AI训练数据污染问题，AI开发者需在数据筛选验证、实时监测和溯源等方面加强努力。面对不完美的AI，日常使用时应持谨慎态度，对重要决策务必向专业人士核实。

还在为人工智能（AI）时不时“一本正经地胡说八道”恼火？

或许，你的AI被“投毒”了。8月5日，国家安全部发布安全提示，AI训练数据存在良莠不齐的问题，虚假信息、虚构内容和偏见性观点导致的数据“污染”，给AI安全带来挑战。

“训练数据之于AI，就像教科书之于学生。”中国科学院计算技术研究所工程师刘延嘉将AI比喻成勤奋好学的学生，“AI正是通过学习文本、图像、行为等数据构建认知模型，形成对世界的理解与判断能力。若教科书内容存在错误或偏见，学生的知识体系必然扭曲。”

研究显示，当训练数据中仅有0.01%的虚假文本时，AI模型输出的有害内容会增加11.2%；即使是0.001%的虚假文本，有害输出也会上升7.2%。“训练数据的细微瑕疵，也可能导致AI输出错误、偏见甚至危险的结果。”刘延嘉说。

AI的训练数据为何会被“污染”？

“数据被污染的情况较复杂，既有人为故意‘数据投毒’的可能，也可能因数据收集、整理过程缺乏严格规范和审核所致。”同盾人工智能研究院执行院长董纪伟说，受到数据污染的AI生成的虚假内容，可能成为后续AI训练的数据源，形成具有延续性的“污染遗留效应”。

董纪伟认为，“数据放大效应”或是更大的隐性风险，“AI可能通过算法强化，将数据中的一些偏见演变为系统性偏见，并在输出时将其奉为‘真理’。”

如今，网上AI生成内容数量已(yǐ)超(chāo)过(guò)人(rén)类(lèi)生(shēng)产(chǎn)的(de)真(zhēn)实(shí)内(nèi)容(róng)，大(dà)量(liàng)低(dī)质(zhì)量(liàng)及(jí)非(fēi)客(kè)观(guān)数(shù)据(jù)充(chōng)斥(chì)其(qí)中(zhōng)。“当(dāng)AI训(xun)练(liàn)数(shù)据(jù)中(zhōng)的(de)错(cuò)误(wù)信(xìn)息(xi)逐(zhú)代(dài)累(lèi)积(jī)，必(bì)然(rán)会(huì)扭(niǔ)曲(qū)AI本(běn)身(shēn)的(de)认(rèn)知(zhī)能(néng)力(lì)。”董(dǒng)纪(jì)伟(wěi)提(tí)醒(xǐng)。

“毒(dú)”数(shù)据(jù)对AI输出的影响，远不止“一本正经地胡说八道”这么简单，往往还具有“隐性但致命”特征。试想，当“涉毒”AI广泛应用于日常，人们可能因AI的错误诊断延误治疗；投资者可能被AI推荐的虚假高收益项目欺骗；汽车可能因AI的错误导航而迷失方向……

这样的AI，谁敢放心用？

目前，《生成式人工智能服务管理暂行办法》和新版《数据安全法》已经将AI训练数据纳入监管。但专家认为，要从技术层面解决AI训练数据污染问题，还有待AI开发者在数据筛选验证机制、数据实时监测和数据溯源等方面付出更多努力。正如中国工程院院士邬贺铨所言：“AI的安(ān)全边(biān)界(jiè)，最(zuì)终(zhōng)取(qǔ)决(jué)于(yú)数(shù)据(jù)的(de)质(zhì)量(liàng)底(dǐ)线(xiàn)。”

面(miàn)对(duì)并(bìng)不(bù)完(wán)美(měi)的(de)AI，我(wǒ)们(men)又(yòu)该(gāi)如(rú)何(hé)应(yīng)对(duì)？

董(dǒng)纪(jì)伟(wěi)建(jiàn)议(yì)，日(rì)常(cháng)使(shǐ)用(yòng)AI时(shí)应(yīng)持(chí)谨(jǐn)慎(shèn)态(tài)度(dù)，如(rú)果(guǒ)AI给(gěi)出(chū)的(de)回(huí)答(dá)涉(shè)及(jí)重(zhòng)要(yào)决(jué)策，务必向专业人士核实。“当然，也可用多个AI工具对同一问题进行询问，通过对比答案来判断AI的可靠性。若发现AI频繁给出不合理或错误回答，可直接更换AI工具。”

（科普时报记者陈杰）

————THE END

🔰 - 物联网与车联网领域企业级服务平台

AI还在一本正经地“胡说八道”？它可能被“投毒”了

相关推荐