进行模型能力对比时,我们发现一个极为接地气的应用场景:借助 Gemini 3.5 处理那些令人头疼的 Excel 脏数据。数据分析师日常有多少精力耗费在“清洗表格”这件事上,资深从业者都深有体会——合并单元格、缺失值、格式混乱、异常数据,每一步都离不开手动操作。

Gemini 3.5 拥有 100 万 token 的上下文窗口以及原生多模态能力,在这个场景中意外地表现出色。今天我们将通过一个完整的实操案例,拆解从脏数据清洗到生成分析结论的完整流程。
拿到一张“脏”表,先让 AI 理解数据结构
假设你收到一份某电商店铺 2025 年全年的销售报表。打开一看,典型的“表哥风”:单元格合并、日期格式不统一、部分行的金额列填了“待确认”、客户来源列存在大量缺失。
传统做法需要花费半天时间手动整理,但 Gemini 3.5 可以直接将整份 Excel 文件丢给它,让其自动解析结构。提示词很简单:
Gemini 3.5 扫描后给出诊断:主表包含 12 个月份的 Sheet,每个 Sheet 结构一致;发现三类质量问题——日期格式混乱、“待确认”文本混入数值列、客户来源字段缺失率约 15%。同时还额外识别出 3 处合并单元格导致的表头识别偏差。
这一步骤的价值在于帮助你快速建立对数据全貌的认知,无需手动翻阅 12 个 Sheet。
数据清洗:用代码辅助,而非纯手工
诊断完成后,Gemini 3.5 能直接生成清洗逻辑对应的 Python 代码。例如处理“待确认”这类文本混入数值列的问题,只需给出如下 Prompt:
它输出的是可直接运行的 pandas 脚本,并且附带了异常处理:
def clean_sales_data(df):
df['销售额'] = pd.to_numeric(df['销售额'], errors='coerce')
return df
cleaned_df = pd.read_excel('sales.xlsx', sheet_name=None)
for sheet_name, df in cleaned_df.items():
cleaned_df[sheet_name] = clean_sales_data(df)
日期格式清洗同理。原始数据中混杂了“2025/01/01”和“2025年1月1日”两种格式,Gemini 3.5 生成了一段利用正则表达式结合 pd.to_datetime 的统一处理逻辑。代码本身并不复杂,但却省去了翻阅文档、反复试错的时间。
缺失值处理:让 AI 给出合理的业务推断
客户来源字段缺失率高达 15%,不能粗暴地删除。Gemini 3.5 能根据已有数据模式给出填充建议:
这个建议并非凭空猜测,而是基于上下文信息进行推断。当然,最终的填充逻辑需要你来确认,但它帮你想到了“按时间分段填充”这一维度,节省了自己摸索的时间。
聚合分析与趋势洞察
数据清洗干净后,分析指令可以下得很直白:
Gemini 3.5 能够生成统计分析代码并附带趋势解读。结果显示,6 月和 11 月是明显的峰值,1 月和 8 月则是低谷。同时它还给出业务洞察——6 月峰值是 5 月的 2.3 倍,618 预热效应显著;1 月低谷是由于春节物流停摆导致,建议提前备货;8 月低谷属于行业淡季,建议通过清仓活动来对冲。
可视化建议与自动生成
数据和结论都已具备,下一步就是制作图表。Gemini 3.5 能直接生成 matplotlib 代码或提供图表方案:
配合自动生成的 Python 脚本,复制粘贴到 Jupyter Notebook 中即可出图,无需手动编写繁琐的绘图代码。
总结与避坑
Gemini 3.5 在 Excel 数据处理方面的实用程度超出了预期,尤其在三个环节表现突出:数据结构理解——跨 Sheet 扫描和问题诊断;清洗代码生成——准确度高且带有异常处理;趋势分析——能够结合业务背景进行解读。
不过也有几个坑需要留意。对于多 Sheet 文件,如果 Sheet 名称包含中文特殊符号,识别有时会出现偏差,建议先用简单的英文字母命名。推导出的代码如果不加 errors='coerce' 异常处理,遇到顽固脏数据容易卡住。在涉及具体领域知识的地方,AI 只能提供参考性建议,最终的业务判断仍然需要你来把关。
总体来说,Gemini 3.5 在 Excel 数据处理这个场景下,是一个能大幅压缩“体力活”占比的工具。将理解结构、生成清洗代码、趋势分析这些耗时环节交给它,把最终的业务判断留给自己——这才是人机协作的正确打开方式。
