AI事实核查与伦理判断能力如何？新京报第三期大模型测评启动

新京报记者罗亦丹编辑杨娟娟

2025-06-23 18:35

今年春天，DeepSeek热潮席卷全球，让众多AI大模型产品陆续进入“深度思考”时代的同时，并带动了智能体的发展。而在传媒领域，大模型可以辅助记者进行的文本生成事实核查与伦理判断、信息检索等媒体能力是否也有所提升？为此，新京报AI研究院联合中国经济传媒协会，继2024年7月、2025年1月的两期测评后，再度启动第三期《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》（下称：报告）。

本报告采用新京报人工智能研究院自行研发的针对大模型传媒能力的测评体系，探讨大模型对媒体人工作赋能的真实情况，呈现科技进步如何提质增效。

根据2025年1月的测评报告，大模型的信息搜集能力、翻译能力、长文本总结能力排名前三，而事实核查与伦理判断能力以及新闻写作能力则排名倒数。对比第一次测评，上述五项维度中，大模型的信息搜集能力从第三名跃升至第一名，大模型的长文本能力也得到了长足进步，从最后一名跃升至第三名。可见大模型产品在联网搜索，以及长文本总结上的应用水平在最近半年内获得了增长。

然而，最近半年，大模型领域又有了新的发展：一方面，DeepSeek出现并带来深度思考能力流行，绝大多数主流大模型产品都推出了深度思考功能；另一方面，随着近几年AI应用的不断发展，互联网中AI生成内容呈现指数型爆发，部分“幻觉”内容污染了互联网语料，导致大模型在联网搜索生成结果时频频“出错”。

在这些“新情况”之下，大模型赋能媒体工作的效果是否同样发生转变，媒体人使用大模型产品时哪些“有用”哪些则略逊一筹，AI将如何赋能改变行业，这些问题值得我们观察和探讨。

第三期报告的测评内容将在今年7月中上旬的贝壳财经峰会上公开发布，敬请期待！

新京报贝壳财经记者罗亦丹

编辑杨娟娟

校对赵琳

来阅读我的更多文章吧

罗亦丹

新京报记者

记者主页