输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
Continuous Batching(连续批处理)是一种在AI模型推理阶段实时合并多个请求的技术,区别于传统固定批次策略,它能动态调度计算资源,显著提升GPU利用率和吞吐量,尤其适用于大语言模型(LLM)等实时推理场景。
近期常被查询的 AI 概念。