新京报客户端

好新闻 无止境

立即打开
AI大模型测评报告:“长文本”和“捞针”成大模型痛点
新京报 记者 白金蕾 韦英姿 罗亦丹 编辑 王进雨
2024-07-03 20:12

新京报贝壳财经讯(记者白金蕾 韦英姿 罗亦丹)7月3日下午,在新京报贝壳财经夏季年会“‘通’往未来 向新有AI”主题论坛上,新京报贝壳财经联合北京智源研究院、中国经济传媒协会发布行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》(下称:报告)。本次报告特色内容为新京报人工智能研究院自行研发的针对大模型传媒能力的测评体系。


测评选取了较为知名的9款大模型应用程序(或其网页版),分别考察了其文本生成能力、事实核查与价值观判断能力、媒体信息检索能力、翻译能力以及长文本总结能力,旨在评估不同大模型助手针对媒体行业实际工作场景的能力表现,并形成最终排名。



在总体得分上,通义千问、腾讯元宝、讯飞星火夺得前三名,主要是这三个模型在此次评测的五大维度上均没有明显短板。其中,通义千问在事实核查与价值观判断能力、长文本能力上均排名榜首,讯飞星火则在翻译能力上排名第一,且综合能力最强。


横向对比大模型五个维度的平均得分水平,翻译能力得分6.42,排名第一。事实核查与价值观判断能力以及媒体信息检索能力得分6.3,并列第二。第四是文本生成能力,得分6.08,最后是长文本能力,得分4.65。



由此可见,媒体从业者对于使用大模型进行翻译工作较为满意,而通过大模型联网总结热点事件也较为准确,大模型的价值观未见明显问题。与新闻写作相关的文本生成则处于“可用”状态。总体来看,上述四项维度的功能均处于“及格线”以上,根据测评人员的反馈,大模型生成的新闻稿虽然可用但相比人类仍稍逊一筹,相比之下,大模型的翻译能力、检索总结新闻能力以及其价值观判断能力已经得到了部分测评人员的认可。


此外,对于大模型从长文本中“大海捞针”找关键点的能力,大部分大模型仍然无法胜任。特别是给出1-999个顺序排列的数字,寻找其中两个顺序颠倒的数字这一测试,9款大模型除了通义千问给出了2个答案(一对一错)外,其余8款大模型“全军覆没”,说明大模型仍有缺陷之处。


编辑 王进雨


校对 杨利

来阅读我的更多文章吧
韦英姿
新京报记者
记者主页
罗亦丹
新京报记者
记者主页
相关推荐
沈鹏:水滴水守AI保险专家升级 打造保险领域DeepSeek
智库
阿里云发力视频大模型:通义万相升级为2.1版本全面开放使用
科技
万字专访谭待:火山引擎从不赔钱换市场,给豆包大模型打80分
财经
新京报社党委书记、社长汤一原:变革,创造价值
第一看点
新闻8点见丨北京赏秋漫步路线推荐;房地产“组合拳”怎么打?
时事
快手盖坤:可灵AI已生成视频超1600万条,用户超160万人
科技
中国AI大模型测评报告:公众及传媒行业大模型使用与满足研究
科技
解析传媒行业大模型报告:AI在哪些维度能切实帮助媒体工作者?
科技
新京报贝壳财经发布中国AI大模型测评报告 宣布成立AI研究院
科技
商汤李星冶:端侧模型大有可为
科技
热门评论
Mr.G
7天前
👍🏻
Mr.G
7天前
👍🏻
133****5109
7天前
简单明了

新京报报料邮箱:67106710@bjnews.com.cn