DeepSeek-V3是由中国AI公司DeepSeek发布的前沿大语言模型,其研发过程中的关键人物是95后AI天才少女罗福莉。罗福莉在DeepSeek的DeepSeek-V2模型研发中扮演了重要角色,并在DeepSeek-V3发布前被小米以千万年薪挖角,她将就职于小米AI实验室并领导大模型团队。
DeepSeek-V3的技术参数十分引人注目,其参数量高达671B,激活参数为37B,预训练token量为14.8万亿。这一模型在多项评测中超越了包括阿里的Qwen2.5-72B和Meta的DeLlama-3.1-405B在内的其他开源模型,并且在性能上与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet相当。
DeepSeek-V3的发布对AI领域产生了深远影响。与传统的高成本大模型研发不同,DeepSeek-V3的训练预算非常低。根据前OpenAI联创、知名AI科学家Andrej Karpathy的说法,相比于Meta的Llama-3.4-405B模型所需的3080万GPU小时,DeepSeek-V3整个训练过程仅用了不到280万GPU小时。如果DeepSeek-V3的表现得到广泛验证,这将是资源有限情况下对研究和工程的一次出色展示。
成本效益方面,DeepSeek-V3同样展现了极高的性价比。假设H800的租金为每GPU小时2美元,DeepSeek-V3的总训练成本不到600万美元,仅为Llama-3.4-405B超6000万美元训练成本的十分之一不到。这一成就让DeepSeek-V3一经发布便引起了国内外的广泛关注。
Meta的AI研究科学家田渊栋和知名AI数据公司ScaleAI创始人兼CEO Alexandre Wang均对DeepSeek-V3在有限预算下实现强劲表现表示赞赏,认为这是一项了不起的工作,且在计算量上减少了10倍。
DeepSeek因其高性价比而被市场称为AI界的“拼多多”。该公司成立于2023年,由国内知名量化资管巨头幻方量化创立,专注于开发先进的大语言模型和相关技术,并迅速成为AI领域的一股新力量。DeepSeek-V2因其性能接近GPT-4级别,开源可免费商用,且API价格仅为GPT-4-Turbo的百分之一而受到业内关注。
DeepSeek之所以能实现如此高的性价比,原因在于其采用了创新的架构,例如在注意力机制方面的MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构,这使得模型训练更加经济高效。DeepSeek也是最早开启大模型降价的厂商之一,其发布DeepSeek-V2之后,字节、阿里、百度等厂商纷纷跟进降价。
DeepSeek也是中国互联网大厂以外,唯一一家储备了万张A100芯片的公司,这为其早期的技术研发提供了坚实的算力基础。DeepSeek创始人梁文锋表示,他们没有意图成为市场的“鲶鱼”,但确实在无意中成为了改变游戏规则的角色。
据一名人工智能行业资深业内人士分析,DeepSeek虽然团队规模仅约200人,不依赖外部融资,却能够开发出具有全球主流AI界认可的高性价比大模型。其成功的原因包括早期购买大量算力卡、投入大量资源进行研究,以及作为量化公司的独特背景,使其能够更专注于模型开发,无需顾及大厂多样化的盈利需求。
本文来自作者[eeekj]投稿,不代表白鹜号立场,如若转载,请注明出处:https://vip.eeekj.cn/zixue/202412-82634.html
评论列表(4条)
我是白鹜号的签约作者“eeekj”!
希望本篇文章《95后AI技术女神惊艳网络!雷军以千万年薪强势招揽! (“95后”)》能对你有所帮助!
本站[白鹜号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:DeepSeek,V3是由中国AI公司DeepSeek发布的前沿大语言模型,其研发过程中的关键人物是95后AI天才少女罗福莉,罗福莉在DeepSeek的DeepSeek,V2模...