谷歌于8月27日低调宣布,其Gemini AI正式扩展了文件处理能力。简单来说,它不再局限于文本和图片,而是能够解析电子表格、演示文稿、音频、视频等日常工作常用的多种格式,并进行智能分析、要点提炼与内容摘要。这一更新为对话式AI补齐了关键的智能化拼图。

具体而言,若你拥有Gemini Business、Enterprise、Education或Education Premium许可证,现在可以直接从Google Drive或本地设备将各类文件上传至Gemini(gemini.google.com)进行处理。支持的格式包括:
- 电子表格:支持CSV、XLSX、ODS等格式。你可以让Gemini分析数据趋势、追踪关键绩效指标,或从财务模型、销售报表中自动生成洞见,大幅减少手动公式操作。
- 演示文稿:可处理PPTX、PDF、KEY文件。Gemini能够提取核心要点、概括内容,并识别图表与图像等视觉元素,帮助用户快速掌握数十页幻灯片的核心信息。
- 图像:JPEG、PNG、GIF格式不再仅用于“看图”。Gemini能提取图片中的文字、识别对象并给出上下文解释,相当于配备了一位能读图的智能助手。
- 音频:支持MP3、WAV、FLAC等常见音频文件。Gemini可转录语音、识别说话人,并从访谈、播客、讲座中提炼关键内容。例如,会议结束后直接上传音频文件让其总结,效率显著提升。
- 视频:兼容MP4、MOV、AVI格式。无论是演示视频、纪录片还是培训录像,Gemini都能提取字幕、识别场景、总结重要事件——不只是读懂文字,而是真实理解内容。
值得注意的是,这次升级不仅仅是“支持更多格式”。根据谷歌官方新闻稿,Gemini现在能够根据用户输入的提示词,更有针对性地分析上传文件。你可以要求它总结复杂主题、识别趋势与洞见,甚至获得改进写作和文档结构的建议。这样一来,Gemini已不再是一个简单的文件阅读器,而是升级为能辅助理解、研究和写作的智能协作伙伴。
