游乐游手机版
首页/手机教程/文章详情

Deepseek批量提取PDF中特点部分的文本

时间:2025-04-22 21:01
一个pdf文件,要提取其中每章要点的内容:Deepseek中输入提示词:你是一个Python编程专家,写一个脚本,具体步骤如下:读取PDF文件: "F: AI极简经济学【文字版】 (

一个pdf文件,要提取其中每章要点的内容:

Deepseek批量提取PDF中特点部分的文本

Deepseek中输入提示词:

你是一个Python编程专家,写一个脚本,具体步骤如下:

读取PDF文件:"F:\AI极简经济学【文字版】 (阿杰伊·阿格拉沃尔,乔舒亚·甘斯,阿维·戈著;闾佳译) (Z-Library).pdf"

提取PDF文件中所有“本章要点”和“第{number}章”(参数{number}的数值是从1到19,以1递增)之间的文本内容,

保存到word文档中,word文档保存到F盘中;

注意:每一步都要输出相关信息到屏幕上

Deepseek批量提取PDF中特点部分的文本

Deepseek的

要实现这个任务,我们可以使用Python中的PyPDF2库来读取PDF文件,并使用python-docx库来创建和保存Word文档。以下是实现该功能的完整脚本:

import PyPDF2

from docx import Document

import re

# 定义PDF文件路径

pdf_path = r"F:\AI极简经济学【文字版】 (阿杰伊·阿格拉沃尔,乔舒亚·甘斯,阿维·戈著;闾佳译) (Z-Library).pdf"

output_docx_path = r"F:\extracted_chapters.docx"

# 打开PDF文件

print(f"正在打开PDF文件: {pdf_path}")

with open(pdf_path, 'rb') as pdf_file:

reader = PyPDF2.PdfReader(pdf_file)

num_pages = len(reader.pages)

print(f"PDF文件共有 {num_pages} 页")

# 创建一个新的Word文档

doc = Document()

print("已创建新的Word文档")

# 定义正则表达式来匹配“本章要点”和“第{number}章”

chapter_pattern = re.compile(r'第(\d+)章')

key_points_pattern = re.compile(r'本章要点')

# 初始化变量

capture_text = False

current_chapter = None

extracted_text = ""

# 遍历每一页

for page_num in range(num_pages):

page = reader.pages[page_num]

text = page.extract_text()

# 查找“本章要点”和“第{number}章”

key_points_match = key_points_pattern.search(text)

chapter_match = chapter_pattern.search(text)

if key_points_match:

print(f"在第 {page_num + 1} 页找到 '本章要点'")

capture_text = True

extracted_text = ""

if chapter_match:

chapter_number = int(chapter_match.group(1))

print(f"在第 {page_num + 1} 页找到 '第 {chapter_number} 章'")

if capture_text and current_chapter is not None:

# 将提取的文本添加到Word文档中

doc.add_paragraph(extracted_text)

print(f"已将第 {current_chapter} 章的内容添加到Word文档")

current_chapter = chapter_number

capture_text = False

if capture_text:

extracted_text += text + "\n"

# 保存Word文档

doc.save(output_docx_path)

print(f"已将提取的内容保存到Word文档: {output_docx_path}")

脚本说明:

导入库:

PyPDF2:用于读取PDF文件。

python-docx:用于创建和保存Word文档。

re:用于正则表达式匹配。

定义文件路径:

pdf_path:PDF文件的路径。

output_docx_path:输出的Word文档路径。

打开PDF文件:

使用PyPDF2.PdfReader读取PDF文件,并获取总页数。

创建Word文档:

使用python-docx创建一个新的Word文档。

定义正则表达式:

chapter_pattern:用于匹配“第{number}章”。

key_points_pattern:用于匹配“本章要点”。

遍历PDF每一页:

使用正则表达式查找“本章要点”和“第{number}章”。

当找到“本章要点”时,开始捕获文本。

当找到“第{number}章”时,停止捕获文本,并将捕获的文本添加到Word文档中。

保存Word文档:

使用doc.save保存Word文档。

注意事项:

确保PDF文件中的文本是可提取的(有些PDF文件可能是扫描件或图像,无法直接提取文本)。

如果PDF文件中的文本格式复杂,可能需要调整正则表达式或处理逻辑。

运行脚本:

将脚本保存为.py文件并运行,脚本会自动提取指定内容并保存到Word文档中。

Deepseek批量提取PDF中特点部分的文本
来源:https://www.php.cn/faq/1285778.html
上一篇photoshop7.0怎么做羽化?photoshop7.0羽化效果使用方法 下一篇如何pdf转word文档?这二种方法建议收藏!
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
智通人才网错误教育背景删除步骤详解
手机教程 · 2026-07-01

智通人才网错误教育背景删除步骤详解

在简历中填写教育背景时,若不小心将“本科”误填为“大专”,或把“2022届”错写成“2021届”,这类低级失误一旦提交,很多人会本能地选择直接删除重填。但智通人才网的系统设计并未开放这条路——教育经历一经提交,便无法删除,无论你是刚填写五分钟,还是已挂载多年,均不可移除。 别着急,这不意味着你必须带

摩托罗拉Edge70 Max获Qi2.2.1认证 支持原生磁吸充电
手机教程 · 2026-07-01

摩托罗拉Edge70 Max获Qi2.2.1认证 支持原生磁吸充电

6月30日消息,摩托罗拉Edge 70 Max这款尚未正式发布的手机,近日悄然现身WPC无线充电联盟数据库。关键信息是:该机已通过Qi 2 2 1标准认证,成为又一款支持新一代无线充电技术的安卓机型。 数据库还显示,这款手机同样通过了MPP(磁力供电规范)认证。这意味着什么呢?简单来说,摩托罗拉直接

今日头条手机版发布原创作品设置方法
手机教程 · 2026-07-01

今日头条手机版发布原创作品设置方法

先说一个很多人都在问的事:在今日头条上发布原创作品,到底怎样才能赚到钱?其实门槛不高,关键是搞清楚流程和几个核心设置。今天就来拆解一下,从注册登录到发布首条作品的完整操作路径。 打开今日头条,首页右上方那个 "+ "图标按钮,点开它,就是作品发布的入口。从本地相册或文件夹里导入素材,然后可以顺手定位一下

腾讯地图街景怎么打开 进入街景模式详细步骤
手机教程 · 2026-07-01

腾讯地图街景怎么打开 进入街景模式详细步骤

腾讯地图的街景功能非常实用,但许多用户发现它隐藏得比较深,不像导航功能那样默认开启。如果你想通过它确认门牌号、查看路口实时状况,或者提前熟悉一个陌生地点,必须先找到正确的开启方式。否则反复操作,地图上依然是一片空白。 好消息是,只要掌握了操作路径,整个过程并不复杂。下面把几种常用方法详细拆解开来。

汽水音乐官方正版下载安装指南
手机教程 · 2026-07-01

汽水音乐官方正版下载安装指南

想装汽水音乐,却总在下载入口上犯愁?要么担心装到冒牌货,要么折腾半天发现登录不了、歌曲缓存不了,甚至被莫名其妙跳转到仿冒站点。其实这些问题的根源都一样——没走对官方指定的安装路径。下面就把安卓、iOS、桌面端三个平台的安全安装方法掰开揉碎讲清楚,包你一次搞定。 确认设备系统与版本兼容性 动手安装之前