当前位置:周记财经 > 资讯 > 正文内容

大模型训练将耗尽人类语言?AIGC暴露潜在瓶颈 合成数据成“救星”

更新时间:2026-06-28 21:52:33 资讯3年前 (2023-04-21)35
《科创板日报》3月8日讯 中国证监会科技监管局局长姚前日前在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。其实,从字面上并不难理解,“合成数据”是运用计算机模拟生成的人造数据,它的用途――就是用来模拟现实世界的观察与观测。以ChatGPT为代表的AIGC应用基于大模型,即由庞大数据集训练而成。随着AIGC应用端不断丰富,更智能的工具需要更多的数据进行训练。而真实世界的数据总归是有限的,其收集和处理是个昂贵且缓慢的过程,合成数据或成破解难题的最佳选择。

《科创板日报》3月8日讯(编辑 宋子乔) 中国证监会科技监管局局长姚前日前在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。

那么,究竟什么是合成数据?它又为什么可以为数据要素市场“增量扩容”呢?

其实,从字面上并不难理解,“合成数据”是运用计算机模拟生成的人造数据,它的用途――就是用来模拟现实世界的观察与观测。简言之,合成数据是计算机“举一反三”制造的模拟数据,为训练、测试、验证AI模型和算法而生,相当于为AI模型打造一片“题海”。

大模型训练将耗尽人类语言?AIGC暴露潜在瓶颈 合成数据成“救星”

以ChatGPT为代表的AIGC应用基于大模型,即由庞大数据集训练而成。OpenAI透露,ChatGPT的训练使用了45TB的数据、近1万亿个单词,大概是1351万本牛津词典所包含的单词数量。随着AIGC应用端不断丰富,更智能的工具需要更多的数据进行训练。

来自阿伯丁大学、麻省理工大学、图宾根大学的Pablo Villalobos等6位计算机科学家就预测,到2026年,ChatGPT等大型语言模型的训练就将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。

人工智能新时代的发展离不开可靠、海量的数据。而真实世界的数据总归是有限的,其收集和处理是个昂贵且缓慢的过程,合成数据或成破解难题的最佳选择。

相关文章

瑞信:维持保诚跑赢大市评级 目标价升至140港元

瑞信:维持保诚跑赢大市评级 目标价升至140港元

  瑞信发布研究报告称,维持保诚“跑赢大市”评级,下调去年经调整每股经营利润预测3%,今年预测保持不变,明年则升1%,目标价由128港元升至140港元。公司将于3月15日公布去年业绩。  该行预计,公...

洋钱罐借款用户故事:不一样的“拆二代”

洋钱罐借款用户故事:不一样的“拆二代”

“我家里拆迁,分了四套房。”在这买一套房要掏空六个钱包的年代,于先生躺着不动天上就掉下来四套房,是别人眼里的人生赢家。跟很多幸运儿一样,从天而降的大馅儿饼让他一时不知道该如何消化。“父母有养老金,孩子...

恒指半日升0.39% 重回两万点  知乎-W(02390)涨近9%

恒指半日升0.39% 重回两万点 知乎-W(02390)涨近9%

截至午间收盘,恒指上涨0.39%,重回2万点关口,国指涨0.45%,恒生科技指数涨1.25%。 就盘面来看,受隔夜美股中概股大涨带动,港股回港中概股全线走强,知乎涨近9%,京东、腾讯、百度等科技股上涨...

最新!高瓴旗下基金持仓曝光…

最新!高瓴旗下基金持仓曝光…

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   5月16日,美国证券交易委员会(SEC)网站显示,高瓴旗下专注于二级市场投资的基金管理平台HHLR Advisors公...

金龙汽车(600686):该股换手率大于8%(05-16)

金龙汽车(600686):该股换手率大于8%(05-16)

摘要:2023年05月16日金龙汽车(600686)换手率大于8%,主力资金净流出4017.95万元。 换手率大于8%说明了该股票当前处于比较活...

没有主线拉升赚钱效应带动场外资金,指数短期内很难有进一步上攻动力

没有主线拉升赚钱效应带动场外资金,指数短期内很难有进一步上攻动力

凌空在个人文章中表示,今天市场没有特别出彩的行情出现,多看少动是一个好选择。他分享了一本推荐的历史书《枪炮,病菌与钢铁》,认为读史能使人更明智,具备更强的思辨、逻辑和洞察力。关于操...