输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
Chunked Prefill 是一种通过将长输入拆分为多个小块,依次完成预填充(Prefill)来优化大语言模型推理效率的技术,能显著降低显存峰值并提升批处理并行度。
近期常被查询的 AI 概念。