DeepSeekV3技术报告.pdf

分类:研报

价格:3 星球币

文件大小:5.4 MB

创建时间:2026-02-21 17:44:59

DeepSeekV3技术报告.pdf DeepSeek-V3 技术报告 DeepSeek-AI research@deepseek.com 摘要 我们推出了 DeepSeek-V3,这是⼀个强⼤的混合专家(MoE)语⾔模型,总参数为 671B,每个 token 激活 37B。为了实现⾼效推理和具有成本效益的训练,DeepSeek-V3 采⽤了多头潜在注意⼒(MLA)和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中...

AI 解读对话

文档预览

正在准备预览...

相关推荐