大模型训练将耗尽人类语言?AIGC暴露潜在瓶颈 合成数据成“救星”
《科创板日报》3月8日讯 中国证监会科技监管局局长姚前日前在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。其实,从字面上并不难理解,“合成数据”是运用计算机模拟生成的人造数据,它的用途――就是用来模拟现实世界的观察与观测。以ChatGPT为代表的AIGC应用基于大模型,即由庞大数据集训练而成。随着AIGC应用端不断丰富,更智能的工具需要更多的数据进行训练。而真实世界的数据总归是有限的,其收集和处理是个昂贵且缓慢的过程,合成数据或成破解难题的最佳选择。
《科创板日报》3月8日讯(编辑 宋子乔) 中国证监会科技监管局局长姚前日前在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。
那么,究竟什么是合成数据?它又为什么可以为数据要素市场“增量扩容”呢?
其实,从字面上并不难理解,“合成数据”是运用计算机模拟生成的人造数据,它的用途――就是用来模拟现实世界的观察与观测。简言之,合成数据是计算机“举一反三”制造的模拟数据,为训练、测试、验证AI模型和算法而生,相当于为AI模型打造一片“题海”。

以ChatGPT为代表的AIGC应用基于大模型,即由庞大数据集训练而成。OpenAI透露,ChatGPT的训练使用了45TB的数据、近1万亿个单词,大概是1351万本牛津词典所包含的单词数量。随着AIGC应用端不断丰富,更智能的工具需要更多的数据进行训练。
来自阿伯丁大学、麻省理工大学、图宾根大学的Pablo Villalobos等6位计算机科学家就预测,到2026年,ChatGPT等大型语言模型的训练就将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。
人工智能新时代的发展离不开可靠、海量的数据。而真实世界的数据总归是有限的,其收集和处理是个昂贵且缓慢的过程,合成数据或成破解难题的最佳选择。





