最近,DeepSeek这个名字在人工智能领域引起了广泛关注。特别是在12月26日,DeepSeek推出了其最新系列模型DeepSeek-V3的首个版本,并宣布开源。这一举动在AI社区引起了轰动,因为据官方宣称,DeepSeek-V3在多项评测中的成绩不仅超越了其他开源模型如Qwen2.5-72B和Llama-3.1-405B,而且在性能上与顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet相媲美。更令人瞩目的是,DeepSeek-V3的总训练成本仅为557.6万美元,远低于GPT-4o等模型的约1亿美元的训练成本。
这种成本效益的显著差异,使得DeepSeek-V3一经发布就获得了无数好评。一方面,是因为其在多个评测中取得的高分表现;另一方面,是因为其低廉的训练成本。业界大佬对DeepSeek-V3的评价也非常高。例如,Meta的科学家田渊栋认为DeepSeek-V3的训练技术是黑科技,是一项非常伟大的工作。MenloVenture的投资人则将DeepSeek-V3的技术本文比作黄金,可见其价值被高度认可。
DeepSeek-V3也面临了一些争议。有网友发现,当用英文询问DeepSeek-V3“what model are you”时,模型错误地回答自己是ChatGPT。而当使用中文提问或在英文问题后加上问号时,DeepSeek-V3则能正确回答。这一问题的出现可能与DeepSeek-V3的训练数据中包含了大量ChatGPT生成的文本有关,导致模型错误地将自身识别为ChatGPT。尽管DeepSeek官方尚未对此做出回应,但据最新测试显示,这一BUG已经被修复。
DeepSeek-V3在处理一些之前让其他大型模型出错的问题时表现出了较好的能力。例如,在解决兔子和鸡的问题时,DeepSeek-V3能够识别出问题中的逻辑错误,并指出动物数量应该是整数。在比较9.11和9.9的大小时,DeepSeek-V3给出了正确的答案。在蒸包子的问题上,DeepSeek-V3也正确地指出多个包子可以同时蒸,从而避免了之前模型的错误答案。DeepSeek-V3还能够分析出父母未邀请孩子参加婚礼的多种可能原因,并正确指出螺丝钉不可食用,提供了麻辣螺蛳的做法。
DeepSeek因其在降低推理成本方面的创新而被比喻为AI界的拼多多。今年5月,DeepSeek V2开源模型的发布将推理成本降至每百万token仅1块钱,远低于Llama370B和GPT-4Turbo。这背后是DeepSeek提出的MLA架构,它将显存占用降低到以往最常用的MHA架构的5%-13%,同时DeepSeek还独创了一些技术来进一步提升性能和降低成本。
DeepSeek-V3的发布和开源无疑为AI领域带来了新的活力和竞争。其在性能、成本和技术创新方面的表现,使其成为了当前AI技术发展的一个重要里程碑。尽管存在一些争议和问题,但DeepSeek-V3的整体表现和潜力仍然值得业界关注和期待。
本文来自作者[eeekj]投稿,不代表白鹜号立场,如若转载,请注明出处:https://vip.eeekj.cn/zixue/202412-83851.html
评论列表(4条)
我是白鹜号的签约作者“eeekj”!
希望本篇文章《2023年涌现的天才少女们 她们如何在各个领域绽放光彩 多才多艺 (2023年涌现的杰出人物)》能对你有所帮助!
本站[白鹜号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:最近,DeepSeek这个名字在人工智能领域引起了广泛关注,特别是在12月26日,DeepSeek推出了其最新系列模型DeepSeek,V3的首个版本,并宣布开源,这一举动在A...