循环批量转换多个DataFrame为NumPy数组

时间：2026-07-03 06:49

本文详细讲解如何利用for循环将多个pandas DataFrame对象正确转换为NumPy数组，规避因索引错误引发的TypeError问题，同时提供可直接复用的代码模板及关键注意事项，助力批量数据预处理。批量处理DataFrame时，一个常见问题在于：明明已经将多个CSV文件分别读入变量data

本文详细讲解如何利用for循环将多个pandas DataFrame对象正确转换为NumPy数组，规避因索引错误引发的TypeError问题，同时提供可直接复用的代码模板及关键注意事项，助力批量数据预处理。

批量处理DataFrame时，一个常见问题在于：明明已经将多个CSV文件分别读入变量data1、data2、data3，希望通过循环快速转成NumPy数组，结果一运行就报错TypeError: list indices must be integers or slices, not DataFrame。根源是什么？多半是因为代码误写成了data[x].to_numpy()——这里的x本身已经是一个DataFrame对象，却被当作索引去访问另一个列表。

解决方案其实非常简洁：直接对循环中拿到的每个DataFrame调用.to_numpy()即可，完全不需要额外索引。正确的写法如下：

# 正确示例：将多个DataFrame存入列表，逐个转为NumPy数组
data_sets = [data1, data2, data3]
for df in data_sets:
    array = df.to_numpy()  # ✅ 直接作用于DataFrame实例
    # 后续操作，例如：
    # print(array.shape)
    # process(array)

在这里有几个关键点需要特别留意：

.to_numpy()返回的是纯NumPy ndarray，不会保留原始的行索引和列名——这意味着原DataFrame的结构信息将全部丢失。如果后续还需要标签信息，可以考虑使用旧版的.values（虽然官方推荐使用.to_numpy()）或.to_records()来保留部分结构化数据。
如果DataFrame中同时包含字符串和数值，.to_numpy()默认会返回一个object类型的数组，这会影响后续的数值计算（比如矩阵乘法会直接报错）。最好提前统一数据类型，例如通过df.astype(float)转换，或者使用df.select_dtypes(include='number').to_numpy()仅提取数值列。
当数据量较大时，避免在循环中反复对同一个变量赋值（如反复写y = df.to_numpy()）。更优雅的做法是借助列表推导式一次性生成所有数组：arrays = [df.to_numpy() for df in data_sets]，既简洁又方便后续按索引访问。