新京报客户端

好新闻 无止境

立即打开
DeepSeekV3发布 外国专家:展示了资源受限下的研究力
新京报 记者 罗亦丹 编辑 陈莉
2024-12-27 16:46

新京报贝壳财经讯(记者罗亦丹)12月26日晚间,杭州深度求索人工智能基础技术研究有限公司推出全新系列模型DeepSeek-V3首个版本上线并同步开源。相比其他“AI六小虎”公司,深度求索较为低调,但DeepSeek模型由于其开源特性,以及更小的训练成本、更低的花费以及同样优越的性能,推出后在一天之内就受到了国外行业专家们的广泛赞誉。


12月27日,著名AI研究者、OpenAI创始成员之一的Andrej Karpathy评价DeepSeek-V3的表现时称,“今天,一家中国AI公司轻而易举地发布了一个前沿大语言模型,其仅使用2048块GPU训练了2个月,只花费了近600万美元。而作为参考,这种级别的能力本应该需要接近1.6万块的GPU集群,而目前正在部署的集群包含的GPU数量却接近10万块。例如,Llama 3405B模型使用了3080万GPU/小时,而DeepSeek-V3模型看起来更加强大,却仅使用了280万GPU/小时(计算量减少了约11倍)。如果此模型还能通过各项评估,那么这将是资源受限条件下研究与工程能力的高度令人印象深刻的展示。”


根据深度求索官方公布的信息,DeepSeek-V3 多项评测成绩超越了Qwen2.5-72B和 Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。


此外,通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍提升。定价方面,该公司的模型API服务定价为每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元。


DeepSeek-V3的生成吐字速度展示 官方公号展示图片


编辑 陈莉 校对 卢茜

来阅读我的更多文章吧
罗亦丹
新京报记者
记者主页
相关推荐
清华AIR团队揭示人类与智驾算法视觉注意力的本质差异
财经
蝉联中国最具创投价值城区榜首,海淀如何定义“投资未来”?
北京
“智创赋能京津冀·产融兴业汇宝地”京津中关村科技城推介会暨重点项目签约仪式成功举行
新京号
AI赋能钢铁智造:技术创新引领中国钢铁新征程
新京号
多款产品发行折戟 固收理财遇冷
新京号
焦点访谈|在这个科技最前沿舞台 看未来五年我们的生活将如何改变
新京号
实探第四届北京人工智能产业创新发展大会,专家学者热议智能体
科技
推出三大重点项目!门头沟推动人才集聚与产业孵化深度融合
新京号
发布AI+微短剧三年行动计划,揭牌XR沉浸视听联合实验室!门头沟区加速打造“AI+视听”产业创新高地
新京号
一周碳要闻:政府工作报告7年三提氢能(碳报第186期)
财经

新京报报料邮箱:82708677@bjnews.com.cn