🔰 - 物联网与车联网领域企业级服务平台🔰 - 物联网与车联网领域企业级服务平台

AI还在一本正经地“胡说八道”?它可能被“投毒”了

发布时间:2025-08-09 08:30:18 | 浏览量:330

【导语】人工智能(AI)时不时“一本正经地胡说八道”令人恼火?可能是你的AI被“投毒”了。近期,国家安全部发布安全提示指出,AI训练数据存在良莠不齐问题,虚假信息和偏见性观点导致的数据“污染”给AI安全带来挑战。专家表示,要从技术层面解决AI训练数据污染问题,AI开发者需在数据筛选验证、实时监测和溯源等方面加强努力。面对不完美的AI,日常使用时应持谨慎态度,对重要决策务必向专业人士核实。

AI还在一本正经地“胡说八道”?它可能被“投毒”了

还在为人工智能(AI)时不时“一本正经地胡说八道”恼火?

或许,你的AI被“投毒”了。8月5日,国家安全部发布安全提示,AI训练数据存在良莠不齐的问题,虚假信息、虚构内容和偏见性观点导致的数据“污染”,给AI安全带来挑战。

“训练数据之于AI,就像教科书之于学生。”中国科学院计算技术研究所工程师刘延嘉将AI比喻成勤奋好学的学生,“AI正是通过学习文本、图像、行为等数据构建认知模型,形成对世界的理解与判断能力。若教科书内容存在错误或偏见,学生的知识体系必然扭曲。”

研究显示,当训练数据中仅有0.01%的虚假文本时,AI模型输出的有害内容会增加11.2%;即使是0.001%的虚假文本,有害输出也会上升7.2%。“训练数据的细微瑕疵,也可能导致AI输出错误、偏见甚至危险的结果。”刘延嘉说。

AI的训练数据为何会被“污染”?

“数据被污染的情况较复杂,既有人为故意‘数据投毒’的可能,也可能因数据收集、整理过程缺乏严格规范和审核所致。”同盾人工智能研究院执行院长董纪伟说,受到数据污染的AI生成的虚假内容,可能成为后续AI训练的数据源,形成具有延续性的“污染遗留效应”。

董纪伟认为,“数据放大效应”或是更大的隐性风险,“AI可能通过算法强化,将数据中的一些偏见演变为系统性偏见,并在输出时将其奉为‘真理’。”

如今,网上AI生成内容数量已(yǐ)超(chāo)过(guò)人(rén)类(lèi)生(shēng)产(chǎn)的(de)真(zhēn)实(shí)内(nèi)容(róng),大(dà)量(liàng)低(dī)质(zhì)量(liàng)及(jí)非(fēi)客(kè)观(guān)数(shù)据(jù)充(chōng)斥(chì)其(qí)中(zhōng)。“当(dāng)AI训(xun)练(liàn)数(shù)据(jù)中(zhōng)的(de)错(cuò)误(wù)信(xìn)息(xi)逐(zhú)代(dài)累(lèi)积(jī),必(bì)然(rán)会(huì)扭(niǔ)曲(qū)AI本(běn)身(shēn)的(de)认(rèn)知(zhī)能(néng)力(lì)。”董(dǒng)纪(jì)伟(wěi)提(tí)醒(xǐng)。

“毒(dú)”数(shù)据(jù)对AI输出的影响,远不止“一本正经地胡说八道”这么简单,往往还具有“隐性但致命”特征。试想,当“涉毒”AI广泛应用于日常,人们可能因AI的错误诊断延误治疗;投资者可能被AI推荐的虚假高收益项目欺骗;汽车可能因AI的错误导航而迷失方向……

这样的AI,谁敢放心用?

目前,《生成式人工智能服务管理暂行办法》和新版《数据安全法》已经将AI训练数据纳入监管。但专家认为,要从技术层面解决AI训练数据污染问题,还有待AI开发者在数据筛选验证机制、数据实时监测和数据溯源等方面付出更多努力。正如中国工程院院士邬贺铨所言:“AI的安(ān)全边(biān)界(jiè),最(zuì)终(zhōng)取(qǔ)决(jué)于(yú)数(shù)据(jù)的(de)质(zhì)量(liàng)底(dǐ)线(xiàn)。”

面(miàn)对(duì)并(bìng)不(bù)完(wán)美(měi)的(de)AI,我(wǒ)们(men)又(yòu)该(gāi)如(rú)何(hé)应(yīng)对(duì)?

董(dǒng)纪(jì)伟(wěi)建(jiàn)议(yì),日(rì)常(cháng)使(shǐ)用(yòng)AI时(shí)应(yīng)持(chí)谨(jǐn)慎(shèn)态(tài)度(dù),如(rú)果(guǒ)AI给(gěi)出(chū)的(de)回(huí)答(dá)涉(shè)及(jí)重(zhòng)要(yào)决(jué)策,务必向专业人士核实。“当然,也可用多个AI工具对同一问题进行询问,通过对比答案来判断AI的可靠性。若发现AI频繁给出不合理或错误回答,可直接更换AI工具。”

(科普时报记者 陈杰)

————THE END