输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
ExLlama 是一个针对 LLaMA 系列模型的推理优化库,用 C++ 和 CUDA 实现,支持 GPTQ 等量化格式,能以极低显存占用实现高速文本生成,是本地运行大模型的热门选择。
近期常被查询的 AI 概念。