python使用pdfplumber库一键提取pdf中的所有超链接
前言
在PDF文档中,可点击的超链接在技术规范中被称为“链接注释”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
根据PDF标准,链接注释是一种特殊的注释类型。其核心机制定义了用户的可点击区域、指定了跳转目标(可以是外部网页URL,也可以是文档内部的特定页面),并允许设置视觉呈现样式。正是基于这一设计,PDF阅读器才能识别并响应用户的点击交互。
本文将详细介绍如何运用Python中的强大工具——pdfplumber库,来高效、准确地提取这些“隐藏”在PDF文档中的超链接。
pdfplumber库专注于PDF文档的解析与内容提取。无论是文档元数据(如作者、创建时间),还是复杂的结构化内容(如表格、文本、图片),乃至本文重点探讨的超链接,它都能胜任,足以满足绝大多数常规的PDF信息抽取需求。
其安装过程也极为简便,仅需一条pip命令:
pip install pdfplumber
使用 pdfplumber 提取 PDF 超链接的完整指南
提取超链接是pdfplumber的内置功能。每个页面对象都拥有一个.hyperlinks属性,调用该属性即可直接获取当前页面上的所有链接信息,并以结构清晰的字典列表形式返回。
以下是一段基础示例代码。我们使用pdfplumber打开名为“test.pdf”的文件,遍历每一页并通过.hyperlinks属性获取链接数据:
import pdfplumber
with pdfplumber.open(r'./data/test.pdf') as pdf_info:
for page in pdf_info.pages:
links = page.hyperlinks
print(links)
执行上述代码后,你将获得一个结构化的列表,其中包含了链接所在的页码、目标URI地址等关键信息。输出效果类似于下图所示:

接下来,我们只需从这个字典列表中提取所需的信息(例如URI地址)即可。
下面是一个完整的函数实现。你只需将文件路径替换为你自己的PDF文件完整路径,运行后即可提取文档所有页面中的全部超链接。
import pdfplumber
def get_links(file_path):
res_links = []
with pdfplumber.open(file_path) as pdf_info:
page_number = 0
for page in pdf_info.pages:
page_number += 1
links = page.hyperlinks
if links:
for link in links:
res_link = link.get('uri')
res_links.append(res_link)
print(f'第{page_number}页,共有{len(links)}个超链接!')
else:
print(f'第{page_number}页,不存在超链接!')
return res_links
if __name__=="__main__":
# 文件路径为 pdf 完整路径
res_links = get_links('data/FCC_all.pdf')
print(res_links)
当然,这只是利用Python提取PDF超链接的其中一种高效方法,供各位开发者参考。
进阶技巧与补充方法
核心方法:提取全部超链接
其核心逻辑非常直接:打开PDF文件,遍历每一页,然后从页面的hyperlinks属性中获取uri(即目标网址)。
import pdfplumber
def extract_links(pdf_path):
all_links = []
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
page_links = page.hyperlinks
if page_links:
for link in page_links:
# 每个 link 是一个字典,'uri' 键存储了目标网址
uri = link.get('uri')
if uri:
all_links.append(uri)
return all_links
if __name__ == "__main__":
links = extract_links("你的文件.pdf")
for link in links:
print(link)
若希望明确每个链接的来源页码,可以在遍历时加入页码信息:
for i, page in enumerate(pdf.pages):
links = page.hyperlinks
if links:
print(f"第 {i+1} 页 有 {len(links)} 个链接")
for link in links:
print(f" - {link.get('uri')}")
else:
print(f"第 {i+1} 页 没有链接")
高级应用:灵活处理各类链接
区分处理不同类型的链接
需要注意的是,hyperlinks返回的字典可能不仅包含uri(网页链接)。还可能包含指向PDF文档内部其他页面的链接(键为page),或指向文档内某个命名目标的链接(键为nameddest)。进行区分处理能使脚本更加健壮。
if 'uri' in link:
print(f"网页链接: {link['uri']}")
elif 'page' in link:
print(f"内部链接: 第 {link['page']} 页")
elif 'nameddest' in link:
print(f"命名目标: {link['nameddest']}")
提取链接的锚文本(进阶技巧)
有时,我们不仅需要获取链接指向的地址,还想知道其在PDF中显示的文本内容(例如“点击查看详情”或“访问官网”)。pdfplumber本身未直接提供此功能,但可以通过间接方式实现:利用页面的chars属性(它包含了页面上每个字符的详细信息及其坐标)。基本思路是:首先获取链接的矩形区域坐标(x0, y0, x1, y1),然后筛选出所有位于该区域内的字符,最后将它们组合起来,即可得到链接的显示文本。这虽然涉及坐标计算,但对于处理复杂文档而言,是一项非常实用的技巧。
处理加密的PDF文档
若遇到受密码保护的PDF文件也无需担心。pdfplumber.open()方法提供了password参数,传入正确密码即可正常打开并解析。
with pdfplumber.open("encrypted.pdf", password="你的密码") as pdf:
# ... 正常提取链接
常见问题与注意事项
- 为何提取不到链接?关键概念:pdfplumber提取的是PDF标准定义的“链接注释”对象。如果你的PDF文档中的网址仅以纯文本形式存在(而非可点击的链接对象),那么使用文本搜索或正则表达式进行匹配会是更直接有效的方法。
- 注意
CroppedPage相关的潜在问题:如果你对页面对象执行了裁剪操作,可能会遇到与CroppedPage相关的超链接提取异常。若遇到此类情况,建议尝试将pdfplumber更新至最新版本,或者更稳妥的做法是:直接在原始的、未经裁剪的Page对象上进行链接提取。 - 扫描版PDF的处理限制:必须明确一点:pdfplumber主要适用于计算机直接生成的PDF文档。对于扫描版PDF(即由图片构成的文档),该库无法直接从中提取超链接甚至文本内容。在此类场景下,你需要先借助OCR技术(例如使用
pytesseract等工具)将图片中的文字识别出来,再进行后续的分析与处理。
热门专题
热门推荐
红米Note 11 Pro系统升级,为何坚持要求连接Wi-Fi? 当红米Note 11 Pro收到MIUI或澎湃OS的系统更新推送时,官方总会明确提示:整个过程请在Wi-Fi网络环境下完成。这项要求并非随意设定,而是基于清晰的技术与体验考量。一次完整的系统升级包,其大小通常在2GB至4GB之间。如果
小米13 Ultra的NFC功能深度解析:它如何重新定义“全场景智能交互”? 在旗舰手机领域,NFC功能看似已成为标配,但体验却千差万别。小米13 Ultra所搭载的全功能NFC方案,在“全能”与“好用”两个维度上树立了新的标杆。它不仅无缝集成了公交卡模拟、门禁卡复制、数字车钥匙等核心生活服务,更全
嵌入式消毒柜电源插座安装指南:隐蔽式布局提升安全与美观 在规划嵌入式消毒柜的安装方案时,电源插座的布局方式直接影响到最终的整体效果与安全性。正确的做法是避免插座外露,采用隐蔽式安装。根据国家《住宅厨房设计规范》及主流厨电品牌的安装标准,推荐将插座预留在消毒柜后方或侧方的墙体内部,安装高度宜控制在距地
是的,魔音(Beats)耳机充电状态一目了然,指示灯明确显示 当你为Beats头戴式耳机充电时,如何判断它是否已经充满?答案就藏在机身自带的五段式LED电量指示灯里。在充电过程中,这排指示灯会持续闪烁,实时反馈充电进度。一旦所有五个指示灯全部转为稳定常亮、不再闪烁,即代表电池已完全充满。整个充电周期
博朗剃须刀型号全解析:从编码规则到选购技巧的终极指南 面对博朗剃须刀复杂的字母数字组合感到困惑?实际上,其型号命名体系逻辑严谨,是用户选购的核心依据。简单来说,型号首位的数字(1、3、5、7、9)直接代表产品系列,数字越大,通常意味着技术越先进、功能越全面、定位越高端。例如,顶级的9系旗舰机型普遍搭





