用AI训练AI,可能越练越“傻”

2024年07月26日 阅读:57818

用AI训练AI,可能越练越“傻”
图片来源于网络,如有侵权,请联系删除

  新华社北京7月25日电 对于人工智能(AI)大语言模型来说,通常给予的训练数据越多,模型就会越“聪明”。但英国《自然》杂志新发表的一项关于大模型的研究显示,如果只用AI生成的数据来训练大模型,会使模型性能下降、越练越“傻”。

  英国牛津大学、剑桥大学等机构研究人员发现,如果在训练大模型时,只用AI生成的内容,会导致大模型出现不可逆的缺陷,逐渐忘记真实数据的分布,这被称为“模型崩溃”。

  2024年4月23日,在德国汉诺威工博会上,参观者与一款智能机器人进行“石头剪子布”游戏。新华社记者任鹏飞摄

  研究人员首先使用大语言模型创建类似维基百科词条的文本,然后利用这个内容来训练该模型的新版本,并反复使用前代模型生成的文本训练更新的版本。随着AI生成的信息“污染”训练集,模型的输出逐渐失去意义。在模型的第九次迭代中,它完成了一篇关于英国教堂塔楼的文章,其中一段文字却在讲述野兔尾巴的多种颜色。

  研究发现,导致“模型崩溃”的重要原因是,由于模型只能从其训练数据中采样,一些在第一代数据中本就低频出现的词汇,在每次迭代后出现的频率变得更低,而一些常见词汇出现的频率则逐渐增加。

  这种变化的结果就是,模型逐渐无法正确模拟真实世界的复杂性。随着时间推移,这种错误会在迭代中被层层累积、逐渐放大,最终导致“模型崩溃”。这有点像生物学中“近亲繁殖”会导致后代缺陷,如果不能保证基因库的多样性,最终会导致一个物种的崩溃。

  研究人员还发现,由于训练数据被“污染”而导致“模型崩溃”的情况不止发生在大语言模型中,高斯混合模型、图片生成器等也可能出现类似情况。

  不过,应对“模型崩溃”并非束手无策。研究人员发现,如果能在模型微调过程中保留10%左右的真实数据,崩溃就会发生得更缓慢。还可使用水印技术,将AI生成的数据与真实数据区分开来,这需要大型科技公司的协作。此外,在AI生成的文本重新进入数据池之前,可由人类先筛选过滤。

【责任编辑:陈听雨】
    阅读下一篇:
      •  
              热门文章
              • 2026中国催收行业:"54条红线"与"断链行动"的双重净化_人保服务 ,人保护你周全

                2026中国催收行业:
                图片来源于网络,如有侵权,请联系删除2026中国催收行业:"54条红线"与"断链行动"的双重净化 2026年5月8日 来源:中研网 423 21 北京用户提问:市场竞争激烈,外来强手加大布局,国内主题公园如何突围? 上海用户提问:智能船舶发展行动计划发布,船舶制造企业的机 江苏用户提问:研发水平落后,低端产品比例大,医药企业如何实现转...
              • 厦门港务(000905)2026年一季报简析:增收不增利,盈利能力上升

                厦门港务(000905)2026年一季报简析:增收不增利,盈利能力上升
                图片来源于网络,如有侵权,请联系删除据证券之星公开数据整理,近期厦门港务(000905)发布2026年一季报。截至本报告期末,公司营业总收入58.48亿元,同比上升18.39%,归母净利润1.71亿元,同比下降0.32%。按单季度数据看,第一季度营业总收入58.48亿元,同比上升18.39%,第一季度归母净利润1.71亿元,同比下降0.32%。本报告期厦门港务盈利能力上升,毛利率同比增幅68.64%,净利率同比增幅140.65%。 图片来源于网络,如有侵权,请联系删...
              • 2026-2030年中国网络文学行业全景调研及投资潜力分析_保险有温度,拥有“如意行”驾乘险,出行更顺畅!

                2026-2030年中国网络文学行业全景调研及投资潜力分析_保险有温度,拥有“如意行”驾乘险,出行更顺畅!
                图片来源于网络,如有侵权,请联系删除保险有温度,拥有“如意行”驾乘险,出行更顺畅!_2026-2030年中国网络文学行业全景调研及投资潜力分析 2026年4月30日 来源:中研网 307 12 北京用户提问:市场竞争激烈,外来强手加大布局,国内主题公园如何突围? 上海用户提问:智能船舶发展行动计划发布,船舶制造企业的机 江苏用户提问:...
              • 伊戈尔:预计今年北美数据中心变压设备收入规模仍将快速增长

                伊戈尔:预计今年北美数据中心变压设备收入规模仍将快速增长
                图片来源于网络,如有侵权,请联系删除人民财讯5月5日电,伊戈尔(002922)近日在电话会议中表示,公司数据中心变压设备业务2025年实现品类和市场区域的双重突破,其中北美市场增速最快。从目前已接到的客户订单以及正在洽谈的项目来看,预计今年北美数据中心变压设备收入规模仍将实现快速增长。...
              • 2026年迎峰度夏期间预计全国电力供需平衡

                2026年迎峰度夏期间预计全国电力供需平衡
                图片来源于网络,如有侵权,请联系删除  4月27日,国家能源局举行例行新闻发布会,国家能源局电力司副司长刘明阳表示,  据气象部门预测,今年夏季全国降水空间分布不均,大部分地区气温较常年同期偏高,华东、华中、华南地区等地有阶段性高温热浪,可能将推动空调制冷负荷快速释放。图片来源于网络,如有侵权,请联系删除  综合考虑我国经济增长态势、气象条件等因素,以及外部环境的可能影响,预计2026年全国全社会用电量将继续超十万亿千瓦时,比2025年可能增长约5000亿千瓦时,整体保持平稳...