游乐游手机版
首页/编程语言/文章详情

Pandas读取外部数据的几种实现方法

时间:2026-05-05 12:07
Pandas 支持读取几乎所有常见的外部数据格式,核心是 pd read_* 系列函数,以下是最常用的格式及用法: 处理数据的第一步,往往是把外部数据“搬”进来。Pandas 在这方面堪称全能选手,其核心的 pd read_* 系列函数几乎覆盖了所有常见的数据源。接下来,我们就逐一拆解这些最常用的读

Pandas 支持读取几乎所有常见的外部数据格式,核心是 pd.read_* 系列函数,以下是最常用的格式及用法:

Pandas读取外部数据的几种实现方法

处理数据的第一步,往往是把外部数据“搬”进来。Pandas 在这方面堪称全能选手,其核心的 pd.read_* 系列函数几乎覆盖了所有常见的数据源。接下来,我们就逐一拆解这些最常用的读取方法。

1. 读取文本文件(CSV/TXT)

说到数据读取,CSV 和 TXT 文本文件绝对是出场率最高的选手。核心函数 pd.read_csv() 功能强大,从分隔符、编码到列名,几乎都能按需定制。

import pandas as pd
# 读取CSV文件(默认逗号分隔)
df = pd.read_csv(
    "data.csv",          # 文件路径(本地/URL)
    encoding="utf-8",    # 编码(中文常用utf-8/gbk)
    header=0,            # 第0行作为列名(默认)
    index_col=None,      # 不将某列作为索引
    sep=",",             # 分隔符(TXT常用"\t")
    na_values=["NA", "缺失", "-"],  # 哪些值视为NaN
    skiprows=1,          # 跳过前1行(如跳过注释行)
    usecols=["姓名", "分数", "班级"]  # 只读取指定列
)
print("读取的CSV数据:")
print(df.head())  # 查看前5行

用好 read_csv,关键在于几个核心参数。下面这个表格帮你快速掌握:

参数作用常用值
encoding文件编码utf-8/gbk(解决中文乱码)
header列名行号None(无列名)/0(第一行)
na_values缺失值映射["", "NA", "无"]
usecols筛选列["列1", "列2"](减少内存占用)
dtype指定列类型{"分数": int, "班级": str}

2. 读取 Excel 文件(XLS/XLSX)

对于业务场景中常见的 Excel 文件,Pandas 同样提供了得力的工具——pd.read_excel()。不过,使用前需要先安装对应的依赖库。

pip install openpyxl  # 读取xlsx
pip install xlrd      # 读取xls

依赖搞定后,基础用法其实和读 CSV 很相似:

import pandas as pd
# 读取Excel文件(指定sheet)
df = pd.read_excel(
    "data.xlsx",
    sheet_name="学生成绩",  # 指定sheet名称/索引(0为第一个)
    header=0,
    usecols="A:C",         # 只读取A-C列
    dtype={"分数": float},
    na_values=["未填写"]
)
print("读取的Excel数据:")
print(df.info())  # 查看数据基本信息

3. 读取 JSON 文件

随着 Web API 和前后端交互越来越普遍,JSON 格式的数据也日益常见。用 pd.read_json() 来处理这类结构化的数据,非常方便。

import pandas as pd
# 读取JSON文件
df = pd.read_json(
    "data.json",
    orient="records",  # JSON格式(records:[{"列1":值}, ...])
    encoding="utf-8"
)
print(df.head())

4. 读取数据库数据(MySQL/PostgreSQL)

当数据存储在关系型数据库里时,Pandas 也能直接连接并读取。这里以 MySQL 为例,首先需要安装对应的 Python 驱动。

pip install pymysql 

驱动安装好后,流程就清晰了:建立连接、执行 SQL 查询、将结果读入 DataFrame。

import pandas as pd
import pymysql
# 建立数据库连接
conn = pymysql.connect(
    host="localhost",
    user="root",
    password="123456",
    database="test_db"
)
# 读取数据库表
df = pd.read_sql(
    "SELECT * FROM student_scores",  # SQL语句
    con=conn  # 数据库连接
)
conn.close()  # 关闭连接
print(df.head())

可以看到,无论数据来自哪里,Pandas 都提供了一套相对统一、简洁的接口来读取,这正是其强大和易用之处。掌握这几类核心的读取方法,基本上就能应对日常绝大多数数据导入的需求了。

来源:https://www.jb51.net/python/362356quc.htm
上一篇C#怎么创建Dapr微服务_C# Dapr分布式应用运行时方法教程【高级】 下一篇Go 中嵌入第三方结构体时实现私有化的方法
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
PyTorch中使用多维索引张量对高维张量批量索引的正确方法
编程语言 · 2026-07-03

PyTorch中使用多维索引张量对高维张量批量索引的正确方法

本文深入讲解如何在 PyTorch 中利用形状为 [b, k] 的索引张量 B,对形状为 [b, m, n] 的高维张量 A 执行高效批量索引,最终得到 [b, k, n] 的输出。核心思路在于合理扩展索引维度并配合 torch gather 实现精准的逐行抽取。 很多人处理高维张量的批量索引时都会

Go中...操作符解包切片传递可变参数函数
编程语言 · 2026-07-03

Go中...操作符解包切片传递可变参数函数

在 Go 语言中,` ` 运算符放在切片变量后面(如 `slice `)的作用是将该切片“展开”为多个独立参数,专门用于调用那些接受可变参数(` T`)的函数,例如 `append` 或 `fmt Println`。这是一种类型安全的语法糖,并非省略号或通配符,能够帮助开发者更简洁地处理

macOS与WSL2下PHP多版本切换失效问题排查与修复指南
编程语言 · 2026-07-03

macOS与WSL2下PHP多版本切换失效问题排查与修复指南

本文深入分析在 macOS 或 WSL2(Ubuntu)开发环境中,通过 Homebrew 管理 PHP 多版本时,php -v 始终显示旧版本(如 php@5 6)的深层原因,并给出系统性解决方案,覆盖 PATH 冲突、符号链接逻辑、Shell 初始化配置、系统残留配置等关键环节。 遇到这种情况的

PHP JSON解析深层嵌套对象属性访问失败的解决方法
编程语言 · 2026-07-03

PHP JSON解析深层嵌套对象属性访问失败的解决方法

使用 json_decode() 解析 API 返回的 JSON 数据时,经常遇到某个子属性无法正常获取,始终返回 NULL —— 这是许多 PHP 开发者都曾碰到过的棘手问题。通常并非数据丢失,而是对象嵌套层级比预期更深,导致访问路径不正确。 举例来说,你看到返回的 JSON 里有一个 appea

nnU-Net v2预处理卡死问题的成因分析与实用解决指南
编程语言 · 2026-07-03

nnU-Net v2预处理卡死问题的成因分析与实用解决指南

> 使用 nnUNetv2_plan_and_preprocess 处理大规模数据集(例如 704 例样本)时,程序常因多进程加载导致死锁而停滞。核心原因在于默认并发数过高引发资源竞争或 I O 阻塞,适当降低并发数即可稳定完成全量预处理。 你在使用 `nnunetv2_plan_and_prepr