最近,Deepseek这个名字在人工智能领域内迅速崛起。12月26日,Deepseek发布了其新系列模型——DeepSeek-V3的首个版本,并宣布开源。这一举措立即引发了业界的广泛关注。官方声称,DeepSeek-V3在多项性能评测中超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并且在性能上与世界顶尖的闭源模型如GPT-4o和Claude-3.5-Sonnet相媲美。Deepseek的技术本文还披露了一个令人瞩目的数字——V3模型的总训练成本仅为557.6万美元,而GPT-4o等模型的训练成本则高达约1亿美元。这一成本优势使得Deepseek在短时间内迅速成为了焦点。
12月27日,有媒体报道了罗福莉将加入小米的消息,并将她称为95后天才少女。这位天才少女正是Deepseek的一员。随后,雷军以千万年薪挖角天才少女的报道也开始刷屏。事实上,最早在12月20日就有关于罗福莉将加入小米的报道,但当时并没有给她冠以天才少女的称号,也没有引起广泛的关注。这种突然的媒体关注和几乎是同时发生的两个刷屏事件,引发了人们的好奇和疑问。
DeepSeek-V3的发布收获了广泛的好评。一方面,它在多个评测中取得了高分;另一方面,其低廉的训练成本也是一个不容忽视的优势。业界的重要人物也对DeepSeek-V3给出了高度评价,Meta的科学家田渊栋甚至称其训练是黑科技,是一项伟大的工作。MenloVenture的投资人则表示,DeepSeek-V3的技术本文是黄金。
DeepSeek-V3也面临着一些挑战。有用户发现,当用英文whatmodelareyou向DeepSeek-V3提问时,它错误地将自己识别为ChatGPT。这一问题在用中文或给whatmodelareyou加上问号时得到了正确的回答。Deepseek官方尚未对这一问题做出回应。分析人士认为,这可能是因为DeepSeek-V3的训练数据中包含了大量ChatGPT生成的文本,导致它错误地记住了ChatGPT的某些输出。幸运的是,这一BUG在随后的测试中被修复。
DeepSeek-V3在处理一些曾让其他大模型翻车的问题时表现出了其能力。例如,在解决“笼子里的兔子和鸡”问题时,DeepSeek-V3首先通过设置方程得出了一个不符合实际的解,然后指出了问题中可能存在的错误或矛盾。在比较数字9.11和9.9的大小时,DeepSeek-V3给出了正确的答案。在回答“为什么爸妈结婚没叫我参加婚礼”的问题时,DeepSeek-V3分析给出了四种可能的原因。在“麻辣螺丝钉怎么做”的问题上,DeepSeek-V3正确指出了螺丝钉不能食用,并给出了正确的麻辣螺蛳做法。这些测试结果表明,DeepSeek-V3在理解和处理问题上确实表现出了较高的能力。
DeepSeek因其在降低推理成本方面的表现被称之为AI界的拼多多。今年5月,DeepSeek-V2开源模型发布,将推理成本降至每百万token仅1块钱,相比于Llama370B和GPT-4Turbo的成本大幅降低。这一成就背后是DeepSeek提出的MLA架构,它将显存占用降低到了以往最常用的MHA架构的5%-13%。同时,DeepSeek还独创了Deep Compressed Attention机制,进一步提高了模型效率。
本文来自作者[eeekj]投稿,不代表白鹜号立场,如若转载,请注明出处:https://vip.eeekj.cn/zixue/202501-85281.html
评论列表(4条)
我是白鹜号的签约作者“eeekj”!
希望本篇文章《有点多 今年的天才少女 (今年的 有点多作文)》能对你有所帮助!
本站[白鹜号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:最近,Deepseek这个名字在人工智能领域内迅速崛起,12月26日,Deepseek发布了其新系列模型——DeepSeek,V3的首个版本,并宣布开源,这一举措立即引发了业界...