当前位置：周记财经 > 资讯 > 正文内容

大模型训练将耗尽人类语言？AIGC暴露潜在瓶颈合成数据成“救星”

更新时间：2026-06-28 21:52:33 资讯3年前 (2023-04-21)35

《科创板日报》3月8日讯中国证监会科技监管局局长姚前日前在《中国金融》杂志撰文称，建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”，助力打造面向人工智能未来发展的数据优势。其实，从字面上并不难理解，“合成数据”是运用计算机模拟生成的人造数据，它的用途――就是用来模拟现实世界的观察与观测。以ChatGPT为代表的AIGC应用基于大模型，即由庞大数据集训练而成。随着AIGC应用端不断丰富，更智能的工具需要更多的数据进行训练。而真实世界的数据总归是有限的，其收集和处理是个昂贵且缓慢的过程，合成数据或成破解难题的最佳选择。

《科创板日报》3月8日讯（编辑宋子乔）中国证监会科技监管局局长姚前日前在《中国金融》杂志撰文称，建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”，助力打造面向人工智能未来发展的数据优势。

那么，究竟什么是合成数据？它又为什么可以为数据要素市场“增量扩容”呢？

其实，从字面上并不难理解，“合成数据”是运用计算机模拟生成的人造数据，它的用途――就是用来模拟现实世界的观察与观测。简言之，合成数据是计算机“举一反三”制造的模拟数据，为训练、测试、验证AI模型和算法而生，相当于为AI模型打造一片“题海”。

大模型训练将耗尽人类语言？AIGC暴露潜在瓶颈合成数据成“救星”