游乐游手机版
首页/编程语言/文章详情

Python3如何用json_normalize展开嵌套JSON数据

时间:2026-06-20 08:56
json_normalize可高效展平嵌套JSON,自动处理None、空列表与混合类型。通过record_path定位嵌套列表,meta提取外层字段,避免手写递归的键冲突、空值对齐等隐性错误。需注意字段名中点号用sep参数分隔,缺失字段默认填NaN,类型不一致时可能静默丢弃。
相比手工编写递归函数,使用 json_normalize 要可靠得多——它专为展平嵌套的 JSON 结构而设计,能够妥善处理各种边界情况,如 None 值、空列表、混合类型等。同时,通过 record_pathmeta 参数,可以精准地提取记录数据和上下文信息。

Python 3中如何处理嵌套的JSON数据_使用json_normalize展开结构

为什么 json_normalize 比手写递归更可靠?

它的设计初衷是将树形嵌套结构“压平”为二维表格,而不仅仅是提取某个值或遍历所有节点。当你最终需要构建 pandas.DataFrame、导出 CSV 或进行聚合分析时,json_normalize 可以直接生成列对齐的规整结构,避免手动处理键冲突、空值对齐、列表长度不一致等潜在问题。

该函数内部自动处理了:None 值填充、重复键的层级前缀、嵌套列表的可选展开、多级路径映射等任务——这些正是手工编写递归函数时容易遗漏或出现逻辑错误的地方。

如何正确选择 json_normalize 的三个关键参数?

关键取决于原始 JSON 的顶层结构:

  • 如果顶层是 list(例如 API 返回的多个订单),直接传入该列表,data=your_list
  • 如果顶层是 dict,但你想展开其中某个嵌套字段(如 "orders"),使用 record_path="orders",再配合 meta 提取外层字段(如 ["system_info.api_version"]
  • 遇到字段名包含点号("user.name")或需要自定义列名时,必须设置 sep="_",否则默认的 . 符号会与路径分隔符冲突,导致列名解析失败

为什么展开嵌套列表时数据会缺失?

默认情况下,json_normalize 遇到字段值为 list 时,只取第一个元素(相当于 pd.json_normalize(..., max_level=0))。要完整展开,必须显式指定:

  • record_path 指向那个列表字段(如 ["products"]
  • meta 列出需要保留的父级字段(如 ["order_id", "customer.name"]
  • 若列表位于多层深处(如 data["response"]["items"][0]["details"]),不能使用字符串路径,而要用 record_path=["response", "items", "details"]

忽略 record_path 或将路径写成字符串(如 "response.items.details"),结果会得到空 DataFrame 或抛出 KeyError

如何安全处理缺失字段与类型不一致的情况?

json_normalize 默认对缺失字段填充 NaN,但后续导入数据库或导出 Excel 时,NaN 可能引发问题。建议:

  • 添加参数 errors="ignore" 防止某条记录字段缺失导致整个解析中断
  • 使用 fill_value 统一替换空值(例如 fill_value=""fill_value=None
  • 对于已知可能为 int/str 混合的字段(如 "amount"),解析后手动调用 df["amount"] = pd.to_numeric(df["amount"], errors="coerce")

最容易忽略的是:当原始 JSON 中同一字段在不同记录里类型不一致(比如有时是 str,有时是 dict),json_normalize 会静默丢弃该字段的全部值——必须先用 pd.json_normalize(..., max_level=1) 查看原始结构,再决定展开策略。

来源:https://www.php.cn/faq/2665597.html
上一篇VSCode运行代码自动换行与终端显示优化 下一篇Java引用类型与垃圾回收实战内存泄漏避免指南
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
详解如何使用Apache服务器进行防盗链配置步骤
编程语言 · 2026-06-30

详解如何使用Apache服务器进行防盗链配置步骤

Apache使用mod_rewrite模块实现图片防盗链,通过 htaccess文件配置Rewrite规则,检查HTTP_REFERER来源,若非本站域名且来源不为空,则对jpg等常见图片格式返回403禁止访问。此方法能有效阻止大多数盗链行为。

Filebeat日志转发实现步骤详解
编程语言 · 2026-06-30

Filebeat日志转发实现步骤详解

Filebeat通过配置输入源读取日志,输出目标转发至Elasticsearch或Logstash。安装后编辑filebeat yml文件,指定日志路径和输出地址。支持直接转发或经Logstash处理。通过systemctl启动并验证数据到达,可选SSL加密和多行日志合并配置。

手把手教你如何在CentOS上使用PhpStorm构建项目的详细步骤
编程语言 · 2026-06-30

手把手教你如何在CentOS上使用PhpStorm构建项目的详细步骤

在CentOS上使用PHPStorm构建项目需先准备环境:安装Java、PHP及扩展、Nginx、MariaDB并开放端口。然后安装配置PHPStorm,设置SSH解释器与Web服务器映射。导入或创建项目后安装Composer依赖,调整php ini。配置SFTP部署并同步文件,最后设置Xdebug进行调试运行。

CentOS下GitLab集成其他工具的详细配置方法与完整指南
编程语言 · 2026-06-30

CentOS下GitLab集成其他工具的详细配置方法与完整指南

在CentOS平台中,GitLab通过Webhooks、API与CI CD配置,深度集成Jenkins、SonarQube、Docker及Slack,构建代码托管、自动构建、质量检查与协作通知的自动化链路,覆盖开发、测试、部署全流程,实现从提交到上线的自动化,大幅提升团队效率与交付质量,推动开发运维一体化。

CentOS设置Node.js定时任务的方法
编程语言 · 2026-06-30

CentOS设置Node.js定时任务的方法

在CentOS上为Node js应用设置定时任务常用两种方案:systemd适合长期运行服务,需创建服务文件并配置开机自启;cron更灵活,适合定期唤醒任务,通过编辑crontab添加时间计划和执行命令。两种方法均需指定Node js路径和应用入口。