近日,搜狐科技报道了一款国产开源大模型DeepSeek-V3的突出表现,该模型由国内AI公司DeepSeek(深度求索)研发。这款模型在资源受限的条件下,向研究和工程领域展示了其令人印象深刻的成果。
AI领域的知名人士OpenAI的创始成员Andrej Karpathy(安德烈·卡帕西)表示,将会仔细阅读介绍DeepSeek-V3的技术本文,长达53页。综合评估显示,DeepSeek-V3已经成为目前最强大的开源模型之一,其性能与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。
不仅是安德烈·卡帕西,包括阿里前副总裁贾扬清、Meta AI科学家田渊栋、英伟达高级研究科学家Jim Fan在内的多位AI领域的专业人士也对DeepSeek-V3给予了高度评价。有网友甚至认为这是全球最佳的开源大模型,并预测其可能推动人工通用智能(AGI)的实现比预期更早,且成本更低。
DeepSeek-V3能够在训练成本上达到一个远低于OpenAI、Meta等公司的模型,这一点尤其引人关注。据悉,该模型仅使用2000多张GPU、训练成本不到600万美元,这与这些大公司在万卡规模上训练的模型成本形成鲜明对比。
![](https://q2.itc.cn/images01/20241231/a7c410533b8f41e18109ef3712231bba.png)
DeepSeek-V3是一款自研的MoE(混合专家架构)模型,其参数规模从前代的2360亿提升到6710亿,并在14.8Ttokens上进行了预训练,上下文长度为128K。在评测结果方面,DeepSeek-V3在多个主流评测基准上显示出了强大的性能,尤其是在代码和数学方面的性能表现。
在知识能力方面,DeepSeek-V3在MMLU-Pro和GPQA-Diamond等基准测试上超过了阿里、Meta等所有开源模型,并领先于GPT-4o,但在与Claude-3.5-Sonnet相比时,仍有差距。在数学、代码和推理能力方面,DeepSeek-V3在MATH500、AIME2024及Codeforces等多个主流基准测试中不仅超越了阿里和Meta的最新开源模型,同时也超越了GPT-4o和Claude-3.5-Sonnet。
DeepSeek-V3甚至在特定基准测试上超过了强化推理能力的o1-preview,例如在MATH-500基准测试中,展现了其强大的数学推理能力。尽管如此,在OpenAI早前发布的o1正式版依然是科学、数学和编码等推理领域的佼佼者。
开源模型长期以来被认为无法追赶闭源模型,但DeepSeek-V3的出现有力地证明了开源和闭源模型之间的差距可以被缩小,并且开源模型完全有希望在未来超越闭源模型。
DeepSeek-V3的训练成本仅为557.6万美元,该模型在由2048块H800组成的GPU集群上训练3.7天,预训练耗时不到两个月就完成,完整训练仅用了278.8万GPU小时。需要注意的是,这一成本仅包括DeepSeek-V3的官方训练,不包括与架构、算法或数据的研究和消融实验相关成本。
安德烈·卡帕西用“玩笑般的预算”来形容DeepSeek-V3的成本,并指出Llama-3-405B的训练耗时3080万个GPU小时,而DeepSeek-V3使用了不到280万个GPU小时,这意味着计算量仅有Llama-3-405B的1/11。
DeepSeek-V3以其低成本、高性能的特点,在AI领域引起了广泛关注。这款模型不仅展示了开源模型的潜力,也为未来的AI技术发展提供了新的可能性。
本文来自作者[eeekj]投稿,不代表白鹜号立场,如若转载,请注明出处:https://vip.eeekj.cn/zixue/202501-84837.html
评论列表(4条)
我是白鹜号的签约作者“eeekj”!
希望本篇文章《黑马 手握万卡的AI新 95后天才刚被雷军挖走 大模型界拼多多 起底 (黑马卡件)》能对你有所帮助!
本站[白鹜号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:近日,搜狐科技报道了一款国产开源大模型DeepSeek,V3的突出表现,该模型由国内AI公司DeepSeek,深度求索,研发,这款模型在资源受限的条件下,向研究和工程领域展示了...