最近,AI领域中的DeepSeek项目引起了广泛的关注。特别是在12月26日,DeepSeek公布了其最新系列模型DeepSeek-V3的第一个版本,并宣布模型开源。这一宣布在AI界引起了轰动,因为官方声称DeepSeek-V3在多项评测中的表现出色,甚至超越了其他知名的开源模型,如Qwen2.5-72B和Llama-3.1-405B,并在性能上与顶级闭源模型GPT-4o和Claude-3.5-Sonnet持平。更引人注目的是,DeepSeek-V3的总训练成本仅为557.6万美元,远低于GPT-4o等模型的约1亿美元成本。这一消息一经发布,DeepSeek-V3迅速成为了AI社区的热门话题。
紧接着,DeepSeek的成员之一,95后的罗福莉被报道将加入小米公司,她被誉为“天才少女”,并在DeepSeek项目中扮演了重要角色。雷军以千万年薪挖角罗福莉的消息也在网络上广泛传播,这进一步增加了DeepSeek项目的关注度。这些消息的突然爆发和几乎同时发生的情况,引发了人们的好奇和疑问。
![](https://q8.itc.cn/q_70/images03/20241230/ee36246dcfd64213b82a57176e0040ce.png)
DeepSeek-V3自发布以来,收获了众多好评。这主要得益于其在多个评测中取得的高分,以及相对较低的训练成本。业界领袖,如Meta的科学家田渊栋和MenloVenture的投资人都对其给出了高度评价。
DeepSeek-V3也面临着一些挑战。有人发现,在询问DeepSeek-V3“what model are you”时,模型错误地回答是ChatGPT。这可能是因为DeepSeek-V3的训练数据中包含了大量的ChatGPT生成的文本,导致模型在识别自身时出现了混淆。尽管DeepSeek官方尚未对此做出回应,但据最新测试,这一问题似乎已经得到了修复。
DeepSeek-V3在处理一些以往让其他大模型陷入困境的问题时表现出色。例如,它能够正确处理“笼子里有兔子和鸡”的数学问题,并指出题目中数据的错误;它也能正确回答“9.11和9.9哪个数字大”的问题;还能给出“蒸10个包子”的正确答案。DeepSeek-V3还能够分析并回答“为什么爸妈结婚没叫我参加婚礼”以及“麻辣螺丝钉怎么做”的问题,显示出其在理解和处理复杂问题上的能力。
DeepSeek因其在降低推理成本方面的成就而被称为AI界的拼多多。在今年5月,DeepSeekV2开源模型发布时,其推理成本被降至每百万token仅1块钱,远低于同类模型。这一成就背后的技术是DeepSeek提出的MLA架构,它将显存占用降至传统MHA架构的5%-13%,并且DeepSeek还独创了Deep...
(注:原文在这里被截断,因此最后一句无法完整地重写。)
本文来自作者[eeekj]投稿,不代表白鹜号立场,如若转载,请注明出处:https://vip.eeekj.cn/zixue/202501-85141.html
评论列表(4条)
我是白鹜号的签约作者“eeekj”!
希望本篇文章《今年涌现的天才少女们 年度特辑 她们的智慧与魅力如何改变了世界 (今年涌现的天才有哪些)》能对你有所帮助!
本站[白鹜号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:最近,AI领域中的DeepSeek项目引起了广泛的关注,特别是在12月26日,DeepSeek公布了其最新系列模型DeepSeek,V3的第一个版本,并宣布模型开源,这一宣布在...