首页 游戏 软件 资讯 排行榜 专题
首页
手机教程
Deepseek批量提取PDF中特点部分的文本

Deepseek批量提取PDF中特点部分的文本

热心网友
71
转载
2025-04-22

一个pdf文件,要提取其中每章要点的内容:

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

Deepseek批量提取PDF中特点部分的文本

Deepseek中输入提示词:

你是一个Python编程专家,写一个脚本,具体步骤如下:

读取PDF文件:"F:\AI极简经济学【文字版】 (阿杰伊·阿格拉沃尔,乔舒亚·甘斯,阿维·戈著;闾佳译) (Z-Library).pdf"

提取PDF文件中所有“本章要点”和“第{number}章”(参数{number}的数值是从1到19,以1递增)之间的文本内容,

保存到word文档中,word文档保存到F盘中;

注意:每一步都要输出相关信息到屏幕上

Deepseek批量提取PDF中特点部分的文本

Deepseek的

要实现这个任务,我们可以使用Python中的PyPDF2库来读取PDF文件,并使用python-docx库来创建和保存Word文档。以下是实现该功能的完整脚本:

import PyPDF2

from docx import Document

import re

# 定义PDF文件路径

pdf_path = r"F:\AI极简经济学【文字版】 (阿杰伊·阿格拉沃尔,乔舒亚·甘斯,阿维·戈著;闾佳译) (Z-Library).pdf"

output_docx_path = r"F:\extracted_chapters.docx"

# 打开PDF文件

print(f"正在打开PDF文件: {pdf_path}")

with open(pdf_path, 'rb') as pdf_file:

reader = PyPDF2.PdfReader(pdf_file)

num_pages = len(reader.pages)

print(f"PDF文件共有 {num_pages} 页")

# 创建一个新的Word文档

doc = Document()

print("已创建新的Word文档")

# 定义正则表达式来匹配“本章要点”和“第{number}章”

chapter_pattern = re.compile(r'第(\d+)章')

key_points_pattern = re.compile(r'本章要点')

# 初始化变量

capture_text = False

current_chapter = None

extracted_text = ""

# 遍历每一页

for page_num in range(num_pages):

page = reader.pages[page_num]

text = page.extract_text()

# 查找“本章要点”和“第{number}章”

key_points_match = key_points_pattern.search(text)

chapter_match = chapter_pattern.search(text)

if key_points_match:

print(f"在第 {page_num + 1} 页找到 '本章要点'")

capture_text = True

extracted_text = ""

if chapter_match:

chapter_number = int(chapter_match.group(1))

print(f"在第 {page_num + 1} 页找到 '第 {chapter_number} 章'")

if capture_text and current_chapter is not None:

# 将提取的文本添加到Word文档中

doc.add_paragraph(extracted_text)

print(f"已将第 {current_chapter} 章的内容添加到Word文档")

current_chapter = chapter_number

capture_text = False

if capture_text:

extracted_text += text + "\n"

# 保存Word文档

doc.save(output_docx_path)

print(f"已将提取的内容保存到Word文档: {output_docx_path}")

脚本说明:

导入库:

PyPDF2:用于读取PDF文件。

python-docx:用于创建和保存Word文档。

re:用于正则表达式匹配。

定义文件路径:

pdf_path:PDF文件的路径。

output_docx_path:输出的Word文档路径。

打开PDF文件:

使用PyPDF2.PdfReader读取PDF文件,并获取总页数。

创建Word文档:

使用python-docx创建一个新的Word文档。

定义正则表达式:

chapter_pattern:用于匹配“第{number}章”。

key_points_pattern:用于匹配“本章要点”。

遍历PDF每一页:

使用正则表达式查找“本章要点”和“第{number}章”。

当找到“本章要点”时,开始捕获文本。

当找到“第{number}章”时,停止捕获文本,并将捕获的文本添加到Word文档中。

保存Word文档:

使用doc.save保存Word文档。

注意事项:

确保PDF文件中的文本是可提取的(有些PDF文件可能是扫描件或图像,无法直接提取文本)。

如果PDF文件中的文本格式复杂,可能需要调整正则表达式或处理逻辑。

运行脚本:

将脚本保存为.py文件并运行,脚本会自动提取指定内容并保存到Word文档中。

Deepseek批量提取PDF中特点部分的文本
来源:https://www.php.cn/faq/1285778.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

豆包AI如何实现自动化 豆包AI自动化编程指南
AI
豆包AI如何实现自动化 豆包AI自动化编程指南

豆包ai可通过批量文本处理、搭配脚本工具自动调用ai能力、利用提示词模板三种方式实现半自动化效果。1 批量文本处理可用于格式转换、内容摘要、关键词提取等,通过一次性输入多段内容并

热心网友
07.25
AI语言转视频结合AI字幕工具实现完整内容自动化
AI
AI语言转视频结合AI字幕工具实现完整内容自动化

用ai将语言转成视频并自动添加字幕现在即可实现,关键在于选对工具与流程。1 使用ai数字人工具如synthesia、pictory、heygen,输入文字或语音即可生成虚拟人物说

热心网友
07.25
ftp扫描工具命令行 ftp扫描工具图形界面
电脑教程
ftp扫描工具命令行 ftp扫描工具图形界面

命令行ftp扫描工具的优势在于灵活性、自动化能力和轻量级特性,适用于渗透测试、自动化漏洞管理、资源受限环境及安全研究。1 灵活性强:支持自定义脚本集成,便于批量和定时任务处理;2

热心网友
07.24
豆包AI编程操作说明 豆包AI自动编程技巧
AI
豆包AI编程操作说明 豆包AI自动编程技巧

用豆包ai写代码的关键在于提问方式和后续调整。1 提问要具体,如“写一个python脚本,读取csv文件,统计每列的最大值和最小值,并输出到新文件”,以明确输入、操作和输出;2

热心网友
07.23
DeepSeek AI怎么下载离线版 DeepSeek AI本地使用方式是否可行
AI
DeepSeek AI怎么下载离线版 DeepSeek AI本地使用方式是否可行

随着人工智能技术的飞速发展,越来越多的用户希望能够将强大的AI模型部署到本地,实现离线使用。对于DeepSeek AI这样先进的大型语言模型,用户普遍关心其是否存在“离线版”可供下

热心网友
07.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查
web3.0
美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这

热心网友
04.08
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币
web3.0
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友
04.08
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch
web3.0
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D

热心网友
04.08
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线
web3.0
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一

热心网友
04.08
PAAL代币如何参与治理?社区投票能决定哪些事项?
web3.0
PAAL代币如何参与治理?社区投票能决定哪些事项?

PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友
04.08