游乐游手机版
首页/AI热点日报/热点详情

Kimi自动从PDF提取数据到数据库操作指南

类型:热点整理2026-05-29
```html 几十份PDF合同,需要把甲方名称、签约日期、金额这三项关键信息快速导入MySQL数据库。手动复制粘贴?不仅效率低、容易出错,还可能出现漏行的情况。那么,如何用Kimi来自动完成这个任务?下面拆解具体步骤。 先解决一个基础问题:你手上的PDF,到底能不能直接解析? 确认PDF是否为可复
```html

几十份PDF合同,需要把甲方名称、签约日期、金额这三项关键信息快速导入MySQL数据库。手动复制粘贴?不仅效率低、容易出错,还可能出现漏行的情况。那么,如何用Kimi来自动完成这个任务?下面拆解具体步骤。

先解决一个基础问题:你手上的PDF,到底能不能直接解析?

确认PDF是否为可复制文本格式

怎么判断呢?很简单。打开PDF文件,试着用鼠标拖选任意一段文字。如果能高亮选中并且复制成功,说明这是文本型PDF,可以直接用Kimi提取。反之,如果文字无法选中,或者复制出来是一堆乱码,那它就是扫描图片型的PDF——必须先过OCR这一关。

目前,Kimi只支持文本型PDF的解析。如果把图片型PDF直接上传,得到的字段提取结果会全部为空。这一点必须警惕。

如何用Kimi自动从PDF提取数据到数据库_利用Kimi文件处理

还有一种更保险的判断方法:用Adobe Acrobat或WPS打开PDF,进入“文件”→“属性”,查看“字体”列表。如果能看到具体的字体名称,比如SimSun、Arial,那说明是文本型。如果显示的是“Type 3”或者干脆是空白,那大概率就是图象型PDF了。

在Kimi中上传并结构化提取字段

确认PDF是文本型之后,就可以开始提取了。这里有两种操作方式。

方法一:使用Kimi网页版“文件对话”功能

进入kimi.moonshot.cn,点击左下角的“+”号,选择“上传文件”,然后上传单个PDF(目前不支持批量上传)。等待大约10到40秒的解析时间。解析完成后,在对话框里输入以下指令:

“请严格按以下JSON格式输出:{"甲方名称": "", "签约日期": "", "金额": ""}。只输出JSON,不要解释、不要换行、不要省略字段。”

注意,指令一定要明确——限定输出为无换行的纯JSON字符串。否则后续数据库导入会因多余的换行符报错。

方法二:调用Kimi API(需开通企业API权限)

如果你的数据量较大或者需要集成到自动化流程中,可以考虑使用API。构造POST请求,在body中包含file_base64和prompt模板。同样需要注意,prompt中必须明确限定输出格式为无换行的纯JSON字符串。

将Kimi输出的JSON写入MySQL

拿到Kimi返回的JSON字符串之后,接下来就是把它写入MySQL数据库了。整个过程可以分为三步。

第一步:准备临时表

在MySQL中先创建一张临时表,用来存放原始JSON数据。执行如下语句:

CREATE TEMPORARY TABLE pdf_temp (id INT AUTO_INCREMENT PRIMARY KEY, content JSON);

第二步:插入Kimi返回的原始JSON字符串

直接用INSERT语句把Kimi返回的JSON字符串插入到临时表中。例如:

INSERT INTO pdf_temp (content) VALUES ('{"甲方名称":"北京某某科技有限公司","签约日期":"2024-03-15","金额":"¥1,280,000.00"}');

如果数据量大,用Python脚本批量执行会更高效。

第三步:从JSON字段拆解为结构化列

这一步是把JSON中的字段提取出来,转换成结构化的表数据。核心操作是利用MySQL的JSON函数。执行如下查询:

SELECT
JSON_UNQUOTE(JSON_EXTRACT(content, '$."甲方名称"')) AS party_a,
JSON_UNQUOTE(JSON_EXTRACT(content, '$."签约日期"')) AS sign_date,
REPLACE(JSON_UNQUOTE(JSON_EXTRACT(content, '$."金额"')), '¥', '') AS amount
FROM pdf_temp;

这里有一个细节需要特别注意:金额字段本身带着千分位逗号和¥符号。如果直接转成DECIMAL类型,必然会失败。所以,必须先通过REPLACE函数清理掉这些非数字字符,然后再用CAST进行类型转换。这才是保证数据准确入库的关键所在。

完成这三步,几十份PDF的合同信息就能快速、准确地导入数据库了。

```
来源:https://www.php.cn/faq/2552620.html?uid=969633

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。