大模型推理框架升级之路.pdf 分类:研报 价格:3 星球币 文件大小:5.6 MB 创建时间:2026-02-12 19:12:13 大模型推理框架升级之路.pdf 大模型推理框架升级之路 肖彬 DataFunSummit # 2024 我们将从四个优化专项介绍如何优化大模型推理框架性能 量化 投机采样 TTFT与TPOT的优化 通信优化 01 量化作为大模型最重要的性能优化手段,能有效降低显存占用,降低访存量,充分利用计算资源 以下是大模型计算流程: 量化 Weight-int8 + KV_cache_int8 最早上线的一个版本,显著降低显存占用,使得模型使用较少... 登录后可收藏、购买和下载