Python爬虫实战：6步爬取二手车数据完整教程

首页/科技数码/文章详情

Python爬虫实战：6步爬取二手车数据完整教程

时间：2026-01-28 10:13

还在羡慕别人能轻松抓数据？今天用六个步骤，带你从 0 到 1 实现 Python 爬虫，直接爬取某汽车的二手车信息！先划重点：这篇你能学到啥？零基础入门 Python 爬虫全流程实战爬取 “车型

看着别人轻松抓取数据，你是不是也羡慕过？今天，我们就用六个步骤，手把手带你从零开始，写一个能爬取某汽车网站二手车信息的Python爬虫！

核心要点：这次实战你能学到什么？

我们将从零基础入门，通过一个完整的Python爬虫实战项目，教会你爬取真实有效的“车型+信息+价格”数据，并一键存储为Excel或CSV文件。

步骤一：配置核心爬虫工具箱

工欲善其事，必先利其器。开始前，先把这三大核心库准备好，它们是网络爬虫的“标配工具”：

import requests # 用于发送网页请求 from lxml import etree # 解析网页结构 import pandas as pd # 用来处理和分析数据

步骤二：确定网址并设置“反爬”头信息

在抓取网页前，首先得告诉程序“去哪儿爬”。同时，还要添加一个User-Agent头信息，假装成普通浏览器访问，否则你的请求很容易被网站拦截。

url = ‘https://www.che168.com/wenzhou’ # 以‘二手车’页面为例 header = { ‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36’ }

步骤三：获取并查看网页源代码

使用requests.get方法将目标网页的内容“拿”回来，再打印出来，你就能看到构成整个页面的原始HTML代码了。

resp = requests.get(url, headers=header) print(resp.text) # 输出网页源代码以供分析

步骤四：定位并解析网页中的数据

接下来，利用lxml库的XPath语法来定位我们所需数据在网页中的具体位置。XPath可以理解为你在网页这个“文件柜”里，找到特定数据的“详细地址”。

html = etree.HTML(resp.text) # 将代码转换为可解析的结构 # 定位到存放二手车核心信息的列表区域 divs = html.xpath(‘//*[@id=“goodStartSolrQuotePriceCore0”]/ul/li’) # 准备好三个空列表，分别用来存放不同信息 car_type_list = [] # 车型列表 car_info_list = [] # 车辆详情列表 car_price_list = [] # 价格列表

步骤五：精准提取信息并存入列表

循环遍历上一步定位到的信息区域，分别将每条信息的“车型、详情、价格”提取出来，并存入对应的列表中。最后，用pandas将这些列表整理成一张清晰漂亮的表格。

for div in divs: # 尝试提取车型信息 car_type = div.xpath(‘./a/div[3]/h2/text()’) if car_type: car_type_list.append(car_type[0]) # 尝试提取车辆具体信息 car_info = div.xpath(‘./a/div[3]/p/text()’) if car_info: car_info_list.append(car_info[0]) # 尝试提取价格，需要将多个元素拼接成一个字符串 car_price = ‘’.join(div.xpath(‘./a/div[3]/div/span//text()’)) if car_price: car_price_list.append(car_price) # 将三个列表组合转成DataFrame表格 data_dict = {‘车型’: car_type_list, ‘车辆信息’: car_info_list, ‘价格’: car_price_list} data = pd.DataFrame(data_dict)