近期,AI领域出现了一款引人注目的大语言模型——DeepSeek-V3,其背后的研发团队和关键开发者罗福莉也因此进入了公众视野。罗福莉作为95后AI领域的天才少女,曾在DeepSeek参与DeepSeek-V2的研发,对此次DeepSeek-V3的成功发布起到了关键作用。据报道,小米创始人雷军以千万年薪将罗福莉招至小米AI实验室,她将领导那里的大模型团队。
DeepSeek-V3的技术报告显示,该模型拥有671B的参数量和37B的激活参数,预训练时使用了14.8万亿的token量。在多项评测中,DeepSeek-V3超越了如阿里的Qwen2.5-72B和Meta的DeLlama-3.1-405B等其他开源模型,并且在性能上与世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet相媲美。
值得注意的是,DeepSeek-V3的训练成本非常低。与Meta旗下Llama-3405B模型的3080万GPU小时相比,DeepSeek-V3仅用了不到280万GPU小时完成训练。这意味着,即使在资源有限的情况下,DeepSeek-V3也能展现出卓越的研究和工程能力。成本对比更是令人印象深刻,若以每GPU小时2美元的租金计算,DeepSeek-V3的总训练成本不到600万美元,仅为Llama-3405B超6000万美元训练成本的十分之一。
Meta的AI研究科学家田渊栋评价说,在有限的预算下实现强劲表现,这是一项了不起的工作。ScaleAI的创始人兼CEO AlexandrWang也表示,DeepSeek-V3训练所需计算量减少了10倍,展现了更低的成本、更快的速度和更强的实力。
DeepSeek是由国内知名量化资管巨头幻方量化于2023年创立的,专注于开发先进的大语言模型和相关技术。由于其高性价比,DeepSeek也被称为AI界的拼多多。DeepSeek-V2因其性能达到GPT-4级别,开源、可免费商用且API价格低廉而受到业内关注。
DeepSeek的高性价比得益于其创新的架构,例如在注意力机制方面采用的MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构,这些创新使得训练效果更具经济性,推理更高效。正因为这些优势,DeepSeek也成为国内最早开启大模型降价的厂商,引领了大模型价格战。
DeepSeek的创始人梁文锋,毕业于浙江大学电子工程系,一直保持低调的研究工作作风。他领导的团队以200人左右的规模,不依赖外部融资,成功开发了一个被全球主流AI界认可的大模型。他们的成功归功于早期大量购买算力卡和投入资源进行研究,以及他们专注于模型开发,不涉及其他盈利需求和竞争关系。
本文来自作者[eeekj]投稿,不代表白鹜号立场,如若转载,请注明出处:https://vip.eeekj.cn/zixue/202412-82806.html
评论列表(4条)
我是白鹜号的签约作者“eeekj”!
希望本篇文章《95后AI天才少女惊艳科技圈! (95 后)》能对你有所帮助!
本站[白鹜号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:近期,AI领域出现了一款引人注目的大语言模型——DeepSeek,V3,其背后的研发团队和关键开发者罗福莉也因此进入了公众视野,罗福莉作为95后AI领域的天才少女,曾在Deep...