在使用Kimi提取网页、PDF或长文本信息时,许多用户因提示词过于笼统,导致模型反复追问或关键数据被遗漏。仅凭一句“总结一下”,很难获得结构化的输出结果。问题的根源在于:必须明确告知模型——要提取哪些字段、采用何种输出格式、定义边界条件、明确排除哪些内容。
优先明确要提取的字段类型
打开Kimi对话框时,首句即应清晰列出所需信息类别。例如处理一份招标文件,不应仅说“提取重点”,而应具体表述为:“请从以下文本中提取【项目名称】【预算金额】【截止日期】【资质要求】【联系人电话】共5项,其余内容全部忽略。”
关键要点:字段名必须使用中文方括号【】包裹。这是Kimi识别结构化目标的强力信号,若不加【】,模型可能将“联系人电话”视为普通描述词而直接忽略。
强制指定输出格式要求
方法一:采用表格模板引导
输入:“请严格按以下格式输出,不要添加任何解释性文字:|项目名称|预算金额|截止日期|资质要求|联系人电话|
|-|-|-|-|-|
|【填入值】|【填入值】|【填入值】|【填入值】|【填入值】|”
方法二:使用JSON结构约束
输入:“请以标准JSON格式返回,键名固定为project_name、budget、deadline、qualification、contact_phone,值全为字符串,空值填null,不要额外字段。”
务必注明“不要额外字段”——否则,Kimi常会在JSON输出后附加“以上是提取结果”等说明,导致后续程序解析失败。
排除干扰信息的三步策略
第一步:界定提取范围
“仅基于用户提供的原始文本提取,不推测、不补充、不联网搜索。”
第二步:明确排除项
“忽略所有‘附件’‘备注’‘附录’章节内容,即使其中包含数字或日期也不提取。”
第三步:堵住常见漏洞
“若某字段在原文中未出现,对应位置留空,禁止使用‘暂无’‘未提供’等替代词——空字段必须为空字符串或null。”

