新京报客户端

好新闻 无止境

立即打开
中关村发布|智源研究院发布超500G中文文本数据集
新京报 记者 韦英姿 编辑 岳彩周
2024-04-27 11:39

新京报贝壳财经讯(记者韦英姿)4月26日,在2024中关村论坛年会平行论坛“数据安全治理与发展论坛”上,北京智源人工智能研究院(简称智源研究院)副院长兼总工程师林咏华表示,从语言模型演进到多模态文生视频模型,对模型训练数据所需要的数据量提出了十倍、几十倍甚至上百倍的发展需求。


她认为,大模型的训练数据,不仅要求数量更多、质量更高,也要求思考如何推动数据尤其是中文高质量数据、行业数据的共建共享。


北京智源人工智能研究院副院长兼总工程师林咏华。图/主办方供图


在活动中,林咏华发布了超过500G的中文文本数据集——“中文互联网语料库CCI (Chinese Corpora Internet)2.0”。她表示,该语料库既包括智源研究院大模型“悟道”的数据集,也包括全国20多家互联网和其他企业的数据贡献。


最后,她还宣布上线面向数据贡献团队的积分共享数据平台,该平台包含的数据集超过58个,数据总量约213TB,支撑大多数人工智能训练场景。


国内大模型发展面临着高质量中文语料资源短缺的问题。第十四届全国人大会议通过的政府工作报告提出,要深化大数据、人工智能等研发应用,大力推动数据开发开放和流通使用。


编辑 岳彩周

校对 吴兴发

来阅读我的更多文章吧
韦英姿
新京报记者
记者主页
相关专题

中关村论坛:从“中国硅谷”到“世界中关村”

聚焦 | 2024中关村论坛

相关推荐
今年数字经济增加值将达49万亿 刘烈宏:将推出十几项产业政策
科技
海淀是“源”的:从中关村到全球AI创新引擎
财经
AI浪潮录|周志峰:北京AI优势根植于顶尖学府汇聚的科研沃土
科技
AI浪潮录|周志峰:投资人需独立思考,在不确定性中锚定远方
科技
实测GPT-5:界面更简洁回答更高效,但“不够惊艳”
科技
解读北京“十四五”成绩单,市发改委回答八大关键问题
北京
北京打造“人工智能第一城”,核心产业规模近3500亿元
北京
外滩大会观察:中国“小虎队”勾勒科技新图景
科技
AI大模型、具身智能机器人…黄奇帆李萌王鹤等论道“智能”未来
科技
一周碳要闻:光伏反内卷再升级(碳报第160期)
财经

新京报报料邮箱:67106710@bjnews.com.cn