牛津和剑桥大学的研究发现,仅用AI生成的数据训练大模型可能导致性能下降,模型出现不可逆的缺陷,即模型崩溃。原因在于AI对低频词汇处理不当,降低了模拟真实世界复杂性的能力。解决方法包括混合真实数据进行微调、使用水印技术区分真假数据以及人工筛选。