Gemini 3.5 数据清洗与Excel分析全流程实操方法体验分享

时间：2026-06-16 18:47

Gemini3 5凭借百万token上下文和多模态能力，可快速理解Excel脏数据结构、生成带异常处理的清洗代码、依据业务模式推断缺失值填充策略，并自动完成聚合分析与趋势解读，大幅压缩数据处理中的体力活。

进行模型能力对比时，我们发现一个极为接地气的应用场景：借助 Gemini 3.5 处理那些令人头疼的 Excel 脏数据。数据分析师日常有多少精力耗费在“清洗表格”这件事上，资深从业者都深有体会——合并单元格、缺失值、格式混乱、异常数据，每一步都离不开手动操作。

# 数据清洗与分析：Gemini 3.5 处理 Excel 数据的实操体验

Gemini 3.5 拥有 100 万 token 的上下文窗口以及原生多模态能力，在这个场景中意外地表现出色。今天我们将通过一个完整的实操案例，拆解从脏数据清洗到生成分析结论的完整流程。

拿到一张“脏”表，先让 AI 理解数据结构

假设你收到一份某电商店铺 2025 年全年的销售报表。打开一看，典型的“表哥风”：单元格合并、日期格式不统一、部分行的金额列填了“待确认”、客户来源列存在大量缺失。

传统做法需要花费半天时间手动整理，但 Gemini 3.5 可以直接将整份 Excel 文件丢给它，让其自动解析结构。提示词很简单：

Gemini 3.5 扫描后给出诊断：主表包含 12 个月份的 Sheet，每个 Sheet 结构一致；发现三类质量问题——日期格式混乱、“待确认”文本混入数值列、客户来源字段缺失率约 15%。同时还额外识别出 3 处合并单元格导致的表头识别偏差。

这一步骤的价值在于帮助你快速建立对数据全貌的认知，无需手动翻阅 12 个 Sheet。

数据清洗：用代码辅助，而非纯手工

诊断完成后，Gemini 3.5 能直接生成清洗逻辑对应的 Python 代码。例如处理“待确认”这类文本混入数值列的问题，只需给出如下 Prompt：

它输出的是可直接运行的 pandas 脚本，并且附带了异常处理：

def clean_sales_data(df):
    df['销售额'] = pd.to_numeric(df['销售额'], errors='coerce')
    return df

cleaned_df = pd.read_excel('sales.xlsx', sheet_name=None)
for sheet_name, df in cleaned_df.items():
    cleaned_df[sheet_name] = clean_sales_data(df)

日期格式清洗同理。原始数据中混杂了“2025/01/01”和“2025年1月1日”两种格式，Gemini 3.5 生成了一段利用正则表达式结合 pd.to_datetime 的统一处理逻辑。代码本身并不复杂，但却省去了翻阅文档、反复试错的时间。

缺失值处理：让 AI 给出合理的业务推断

客户来源字段缺失率高达 15%，不能粗暴地删除。Gemini 3.5 能根据已有数据模式给出填充建议：

这个建议并非凭空猜测，而是基于上下文信息进行推断。当然，最终的填充逻辑需要你来确认，但它帮你想到了“按时间分段填充”这一维度，节省了自己摸索的时间。

聚合分析与趋势洞察

数据清洗干净后，分析指令可以下得很直白：

Gemini 3.5 能够生成统计分析代码并附带趋势解读。结果显示，6 月和 11 月是明显的峰值，1 月和 8 月则是低谷。同时它还给出业务洞察——6 月峰值是 5 月的 2.3 倍，618 预热效应显著；1 月低谷是由于春节物流停摆导致，建议提前备货；8 月低谷属于行业淡季，建议通过清仓活动来对冲。

可视化建议与自动生成

数据和结论都已具备，下一步就是制作图表。Gemini 3.5 能直接生成 matplotlib 代码或提供图表方案：

配合自动生成的 Python 脚本，复制粘贴到 Jupyter Notebook 中即可出图，无需手动编写繁琐的绘图代码。

总结与避坑

Gemini 3.5 在 Excel 数据处理方面的实用程度超出了预期，尤其在三个环节表现突出：数据结构理解——跨 Sheet 扫描和问题诊断；清洗代码生成——准确度高且带有异常处理；趋势分析——能够结合业务背景进行解读。

不过也有几个坑需要留意。对于多 Sheet 文件，如果 Sheet 名称包含中文特殊符号，识别有时会出现偏差，建议先用简单的英文字母命名。推导出的代码如果不加 errors='coerce' 异常处理，遇到顽固脏数据容易卡住。在涉及具体领域知识的地方，AI 只能提供参考性建议，最终的业务判断仍然需要你来把关。

总体来说，Gemini 3.5 在 Excel 数据处理这个场景下，是一个能大幅压缩“体力活”占比的工具。将理解结构、生成清洗代码、趋势分析这些耗时环节交给它，把最终的业务判断留给自己——这才是人机协作的正确打开方式。

来源：https://juejin.cn/post/7651597461643837490

Gemini

上一篇小米发布MiMo Code 主打无限上下文能力 下一篇Harness还没学会 Loop Engineering又来了

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-30

企业组织级AI赋能具体实施方法

前段时间收到一位读者的留言，希望聊聊企业级、组织级的AI赋能究竟该怎么落地。巧的是，前几天刚看到一份咨询调研机构的数据：对近一两年所有企业级AI赋能项目的统计显示，超过90%的甲方企业认为，AI赋能在核心业务价值链上没有发挥任何实质性作用。除了AI辅助办公、企业智能知识库这类边缘应用起到了一些辅助效

AI教程 · 2026-06-30

Scrapy与Redis分布式架构的日本电商多平台数据聚合系统

从事日本电商数据聚合工作时，最大的难点在于要同时应对雅虎拍卖、煤炉（Mercari）、乐天和亚马逊日本站等截然不同的平台。以往使用单机爬虫，经常出现运行中崩溃的情况——单点故障、带宽利用率不足、数据存储混乱，这三大痛点令人困扰。本文分享一套基于Scrapy + Redis的分布式爬虫方案，专门解决

AI教程 · 2026-06-30

详细PuTTY 0.81安装教程 SSH远程连接与自定义路径设置

PuTTY（简称PT）是一款轻量级开源SSH Telnet客户端，凭借简洁高效的特性，多年来始终是系统管理员与开发者进行远程连接的首选利器。本教程将详细介绍PuTTY 0 81版本的完整安装过程，并指导您自定义安装路径，以便更灵活地管理SSH远程连接工具。安装准备首先需要说明的是，整个安装流

AI教程 · 2026-06-30

在线教育系统必备功能：直播课堂与题库考试架构

很多人一想到做在线教育系统，第一反应往往是先把直播间和课程播放器搭起来，觉得“能看课”就万事大吉了。真到落地那天才发现，系统能不能顺滑跑起来，关键全藏在那些细节里——课程怎么组织、学习进度怎么记、考试怎么处理、后台怎么管得住。前端看起来就几个页面，后端其实是一整条业务链路。不管你是要做在线教育APP

AI教程 · 2026-06-30

ZStack源码级AI诊断套件让故障排查秒出答案

一次故障排查，到底要花多少时间？运维人员处理私有云、虚拟化平台的问题，流程大致都是这样：先翻日志看现象，再去文档里找对应机制，然后搜社区有没有类似案例，最后综合判断给出答复。简单问题半小时，复杂问题可能要跨天——而这些时间里，大部分精力耗在了“找信息”而不是“做决策”上。类似的问题，也许每天都在