首页 游戏 软件 资讯 排行榜 专题
首页
编程语言
如何正确使用 BeautifulSoup 提取网页中的商品名称与价格

如何正确使用 BeautifulSoup 提取网页中的商品名称与价格

热心网友
20
转载
2026-05-06

如何正确使用 BeautifulSoup 提取网页中的商品名称与价格

本文详解为何 soup.find() 返回 None,并提供针对动态渲染、属性误写、选择器不匹配等问题的完整解决方案,含可运行代码与调试技巧。

如何正确使用 BeautifulSoup 提取网页中的商品名称与价格

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

用 BeautifulSoup 写爬虫,find() 方法冷不丁返回一个 None,这事儿太常见了。表面上看选择器写得明明白白,实际上可能踩中了好几个隐藏的坑。以 Lordgun 这个网站为例,很多朋友写的代码里,往往藏着下面这三类典型错误:

  1. 属性名张冠李戴name_='product title' 里的 name_ 参数,是 BeautifulSoup 专门用来匹配 HTML 标签的 name 属性的(比如 )。而

    标签压根就没有 name 属性,这么写自然找不到东西。正确的做法应该是用 class_,或者干脆直接通过标签结构来定位。

  2. 类名对不上号:代码里写的 class_='prd-price',在当前页面的源代码里根本不存在。实际的价格容器是 ,里面再嵌套一个
  3. 静态请求抓了个“空壳”:这个网站的商品信息,尤其是价格,大量依赖 Ja vaScript 动态渲染。requests.get() 只能拿到初始的 HTML 骨架,这时候价格区域要么是空的,要么只是个占位符,find() 当然会扑空。

那么,正确的解决姿势应该是怎样的呢?

第一步:先看清“素颜”——验证真实的 HTML 结构

千万别完全依赖浏览器开发者工具里那个“检查元素”面板,它显示的是经过 Ja vaScript 渲染后的 DOM。想知道服务器最初到底返回了什么,得在网页上右键,选择“查看网页源代码”。然后,在里面搜索“Turbo Kenevo”或者价格符号“€”,你很可能发现价格数据根本不在原始的 HTML 里。这就坐实了:内容是 JS 动态注入的,光靠 requests 加 BeautifulSoup 这套组合拳,打不到目标。

第二步:搞定静态能抓的部分(比如商品标题)

如果只是需要商品标题(它通常会在首屏的 HTML 中直接出现),可以放心使用下面这段代码:

name = soup.find('h1')  # 唯一且稳定,无需 class_ 过滤
if name:
    product_name = name.get_text(strip=True)
    print("✅ 商品名称:", product_name)
else:
    print("❌ 未找到 

标签")

⚠️ 这里有个关键点:soup.find('h1', name_='...') 这种写法是无效的,原因上面说了,name_

标签不适用。如果真的需要按 class 筛选,应该写成 soup.find('h1', class_='product-title')。不过在本例中,这个 class 并不存在,所以直接 find('h1') 反而更稳健。

第三步:攻克动态价格(两种主流方案)

既然价格是 JS 加载的,就得换思路了,主要有两条路可以走:

  • 轻量级方案(首选):直接解析 JSON 数据接口
    打开浏览器的开发者工具,切换到“网络”(Network) 标签页,过滤“XHR”或“Fetch”请求。刷新页面后,留意那些包含“/prices”或“/catalog/product/”字样的请求。很多现代网站都会通过这类独立的 API 接口来传输数据。比如 Lordgun 实际上就通过一个类似 https://www.lordgun.com/rest/V1/products/.../prices 的地址返回价格数据(不过可能需要携带 Authorization 请求头)。如果接口有权限限制访问不了,也别急,还有备选方案。

  • 自动化方案:请“浏览器”亲自出马——使用 Selenium 或 Playwright
    这套方案的核心是模拟真实浏览器环境,等 Ja vaScript 全部执行完毕、内容渲染完成后,再进行解析。代码框架大致如下:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

options = Options()
options.add_argument("--headless")  # 无界面运行
driver = webdriver.Chrome(options=options)
driver.get(testlink)

try:
    # 等待价格元素出现(最多等10秒)
    price_elem = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "span.price"))
    )
    price = price_elem.text.strip()
    print("✅ 动态价格:", price)

    title_elem = driver.find_element(By.TAG_NAME, "h1")
    print("✅ 商品标题:", title_elem.text.strip())
except Exception as e:
    print("❌ 未能定位价格元素:", str(e))
finally:
    driver.quit()

总结与最佳实践

  • ✅ 动手写选择器之前,先用 print(soup.prettify()[:2000]) 快速看一眼实际抓下来的 HTML 到底包不包含你想要的内容。
  • ✅ 尽量避免硬编码那些可能变化的 class_ 名称。优先使用语义明确的标签(比如 h1, main)或者具有唯一性的属性(比如 itemprop="name")。
  • ✅ 面对 Ja vaScript 渲染的内容,必须清醒认识到:requests + BeautifulSoup 这套静态解析方法本质上已经失效。出路只有两条:要么改用浏览器自动化工具(如 Selenium),要么去逆向分析网站的 AJAX 数据接口。
  • ✅ 养成好习惯,在调用 .text.get() 方法前,先用 if element: 判断一下元素是否存在,这样可以有效避免对 None 对象操作引发 AttributeError

说到底,爬虫技术的高低,不在于能把选择器写得多么复杂精巧,而在于能否真正理解网页内容是如何交付和渲染的。掌握了这些核心原则,那个神秘的 None 也就不会再困扰你了。

来源:https://www.php.cn/faq/2319147.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

鸣潮3.3版本声骸管理方案推荐 3.3版本声骸管理有没有方案码
游戏攻略
鸣潮3.3版本声骸管理方案推荐 3.3版本声骸管理有没有方案码

鸣潮3 3版本声骸管理方案推荐 随着鸣潮3 3版本的到来,一次全面的声骸系统更新在所难免。特别是针对那些拥有特殊机制的角色,如何高效管理你的声骸库存,成了不少指挥官当前的头等大事。好消息是,新版本支持通过方案码一键导入配置,这无疑大大提升了效率。那么,当前版本有哪些值得关注的方案,又该如何灵活运用呢

热心网友
05.06
鸣潮3.3版本卡池抽取建议 3.3版本卡池值得抽吗
游戏攻略
鸣潮3.3版本卡池抽取建议 3.3版本卡池值得抽吗

鸣潮3 3版本卡池抽取建议:值得抽吗? 各位漂泊者,3 3版本卡池已经正式上线。这次的主角,无疑是那位能大幅提升冰队战力的新角色——绯雪。作为一位霜渐主C,她的加入无疑为战场带来了更多可能性。很多玩家都在纠结,这个版本的卡池究竟该如何规划?今天,我们就来深入聊聊3 3版本的抽卡策略。 先说结论(省流

热心网友
05.06
归环影狩流玩法是什么
游戏攻略
归环影狩流玩法是什么

归环影狩流:在策略与对抗中体验极致乐趣 归环影狩流,这个玩法名字本身就透着一股独特的吸引力。它融合了紧张刺激的对抗与深度策略思考,让无数玩家沉浸其中,欲罢不能。在这里,你收获的不仅是胜利的快感,更是一场关于时机、节奏与团队协作的智慧较量。 归环影狩流核心玩法攻略 想要玩转归环影狩流,首先得吃透它的规

热心网友
05.06
超时空观测站--“支援技能“调整来了
游戏攻略
超时空观测站--“支援技能“调整来了

《奥特曼:超时空英雄》超时空观测站--“支援技能“调整来了 各位指挥官,注意了!《奥特曼:超时空英雄》的核心战术模块——支援技能,迎来了一轮关键性调整。这可不是简单的数值微调,而是直接关系到阵容搭配、出手顺序乃至战场胜负格局的改动。下面,就让我们结合最新的实战演示,来逐一拆解这些变化。 通过上方视频

热心网友
05.06
每周福利丨假期仅剩两天啦!先来领个福利压压惊
游戏攻略
每周福利丨假期仅剩两天啦!先来领个福利压压惊

各位天命人周一好呀,又要开启新一周的修行征途啦! 请收下这份周一的馈赠,助您修行之路畅通无阻~ ​ ✨福利兑换码 ZHOUYI3752 ✨内含物品 天命灵果*2,修炼丹·2小时*1 ✨有效期 即日起~2026年5月10日 ✨兑换方式 【进入游戏主界面】-【点击”福利”图标】-【点击下”福利兑换”图标

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

商业帝国大亨好玩吗 商业帝国大亨玩法简介
游戏攻略
商业帝国大亨好玩吗 商业帝国大亨玩法简介

商业帝国大亨:一款点击就能征服宇宙的财富游戏? 近期,手游圈的目光似乎被一款名为《商业帝国大亨》的新作吸引了。不少玩家都在询问:这款游戏到底好不好玩?值不值得投入时间?今天,我们就来深入剖析一下它的玩法核心与特色,看看它能否满足你对“商业帝国”的想象。 1 核心玩法评析:从点击屏幕到宇宙财团 如果

热心网友
05.06
异环一咖舍店铺装修方案推荐 店铺经营怎么装修
游戏攻略
异环一咖舍店铺装修方案推荐 店铺经营怎么装修

异环一咖舍店铺装修方案分享:店铺经营怎么装修 在《异环》的世界里,经营自己的店铺无疑是件充满乐趣的事。看着人气攀升、收入增长,那份成就感不言而喻。不过,很多新手玩家容易踏入一个误区:一上来就冲着最华丽的摆件去,结果投入巨大,收益提升却未必理想。今天,我们就来聊聊如何用最精明的策略,搞定你的“一咖舍”

热心网友
05.06
鸣潮3.3版本声骸管理方案推荐 3.3版本声骸管理有没有方案码
游戏攻略
鸣潮3.3版本声骸管理方案推荐 3.3版本声骸管理有没有方案码

鸣潮3 3版本声骸管理方案推荐 随着鸣潮3 3版本的到来,一次全面的声骸系统更新在所难免。特别是针对那些拥有特殊机制的角色,如何高效管理你的声骸库存,成了不少指挥官当前的头等大事。好消息是,新版本支持通过方案码一键导入配置,这无疑大大提升了效率。那么,当前版本有哪些值得关注的方案,又该如何灵活运用呢

热心网友
05.06
梦幻西游175神木怎么配装备
游戏攻略
梦幻西游175神木怎么配装备

梦幻西游神木林175级装备搭配推荐 先来看头盔的选择。这是一件130级的罗汉金钟男头,套装点化成了蜃气妖,并且打上了13锻月亮石。对于神木林这样的法系门派来说,蜃气妖套能直接提升灵力,是核心选择之一。而罗汉金钟这个特技,在高端任务和PK中的重要性不言而喻,关键时刻一个罗汉,往往能扭转战局。用高锻数的

热心网友
05.06
梦幻西游175级魔王怎么搭配装备
游戏攻略
梦幻西游175级魔王怎么搭配装备

梦幻西游魔王寨175装备搭配推荐 先来看头盔的选择。一件160级附带光辉之甲特技、且激活了长眉灵猴套装效果的头盔,无疑是法系门派的上乘之选。更难得的是,它还额外附加了4 58%的法术暴击伤害属性。为了最大化生存能力,这颗头盔被打上了16锻月亮石,将防御堆砌到了一个相当可观的程度。对于追求极致输出的魔

热心网友
05.06