最近,一款名为DeepSeek-V3的大语言模型引起了AI界的广泛关注。这款模型的研发背后,有一个引人注目的名字——95后AI天才少女罗福莉。她曾参与DeepSeek-V2的研发,并在DeepSeek-V3的发布前夕,被小米创始人雷军以千万年薪招至麾下,未来将在小米AI实验室领导大模型团队。
DeepSeek-V3的技术报告显示,其参数量高达671B,激活参数为37B,使用的预训练token量为14.8万亿。在多项评测中,DeepSeek-V3超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他开源模型,并且在性能上与世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet相媲美。
更令人瞩目的是,DeepSeek-V3的训练预算非常低。前OpenAI联创、知名AI科学家Andrej Karpathy在其个人社交平台上提到,DeepSeek-V3整个训练过程仅用了不到280万GPU小时,而相比之下,Meta旗下顶尖的开源模型Llama-3405B的训练时长是3080万GPU小时。
如果DeepSeek-V3的优良表现能够得到广泛验证,那么这将是资源有限情况下对研究和工程的一次出色展示。从成本角度来看,假设H800的租金为每GPU小时2美元,DeepSeek-V3的总训练成本仅为600万美元不到,是Llama-3405B超6000万美元训练成本的十分之一不到。
![](https://q5.itc.cn/q_70/images03/20241230/26d4af432a18489f88dfd6c70bbf2a89.png)
极高的性价比让DeepSeek-V3一经发布便引发国内外广泛关注。Meta的AI研究科学家田渊栋称赞道,在非常有限的预算下实现强劲表现,这是一项了不起的工作。知名AI数据公司ScaleAI创始人兼CEO Alexandr Wang也表示,DeepSeek-V3训练所需计算量减少了10倍,展现了其在更低的成本、更快的速度和更强的实力上的竞争力。
DeepSeek由国内知名量化资管巨头幻方量化于2023年创立,被美国硅谷誉为来自东方的神秘力量。DeepSeek专注于开发先进的大语言模型和相关技术,其发布的DeepSeek-V2就因其性能达到GPT-4级别,开源、可免费商用、且API价格仅为GPT-4-Turbo的百分之一而引发业内关注。
DeepSeek-V2之所以能做到如此高的性价比,官方解释称,采用了创新的架构,例如注意力机制方面的MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等,以实现具有更高经济性的训练效果和更高效的推理。正因为在训练效率和成本方面的优势,DeepSeek也是国内最早开启大模型降价的厂商,也是大模型价格战的源头和推动者。在其发布DeepSeek-V2之后,字节、阿里、百度等厂商纷纷跟进降价。
同时,DeepSeek也是中国互联网大厂以外,唯一一家储备了万张A100芯片的公司,这为其早期的技术研发提供了坚实的算力基础。DeepSeek创始人梁文锋表示,他们并非有意成为一条鲶鱼,只是不小心成了一条鲶鱼。这位毕业于浙江大学电子工程系的80后,一直潜心研究技术,在工作中始终保持着低调的作风。
一名人工智能行业资深业内人士分析称,DeepSeek以200人左右的小团队,且不依靠外部融资,做出了一个有性价比并被全球主流AI界人士所认可的大模型。一是他们在早期就买了很多算力卡,投入了很多资源做研究;二是他们是做量化的,不像大厂有其他各种各样的盈利需求,也跟他们不构成竞争关系,能更专注于模型开发。
DeepSeek-V3的发布不仅是技术上的一次突破,也是AI领域开源模型与闭源模型竞争格局的一次重要变化。它的出现,不仅为AI研究和应用提供了新的可能,也为资源有限的团队展示了如何在竞争激烈的AI领域中脱颖而出。
本文来自作者[eeekj]投稿,不代表白鹜号立场,如若转载,请注明出处:https://vip.eeekj.cn/zixue/202412-82981.html
评论列表(4条)
我是白鹜号的签约作者“eeekj”!
希望本篇文章《95后AI界新星引发科技圈轰动! (95后的世界)》能对你有所帮助!
本站[白鹜号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:最近,一款名为DeepSeek,V3的大语言模型引起了AI界的广泛关注,这款模型的研发背后,有一个引人注目的名字——95后AI天才少女罗福莉,她曾参与DeepSeek,V2的研...