游乐游手机版
首页/科技数码/文章详情

谷歌开源文件检测工具Magika 1.0发布:性能飞跃,全面采用Rust

时间:2025-11-29 14:05
11 月 7 日消息,当地时间周四,谷歌宣布推出 Magika 1 0,这是该公司基于人工智能的文件类型检测系统的首个稳定版本,采用 Rust 语言进行重构以提升速度和内存安全性。据谷歌介绍,自去

11月7日,谷歌正式发布了Magika 1.0版本。这款基于人工智能的文件类型检测系统首次迎来稳定版,其内核已全面采用Rust语言重构,显著提升了运行效率和内存安全性。

谷歌表示,自去年初开放源代码以来,Magika已在开源社区获得广泛应用,月下载量突破百万次。本次更新不仅引入了全新架构,在性能表现上也有显著突破,同时增强了对多种文件格式的识别能力。

谷歌开源 AI 文件检测工具 Magika 1.0 发布:全面迁移至 Rust,性能大幅提升

正如前面提到的,Magika 1.0最核心的改进在于其检测引擎已完成Rust语言的重写,从而实现更高的性能和内存安全保障。

此外,新版本还提供了原生的Rust命令行工具,在单核环境下每秒可识别数百个文件,若在多核CPU上运行,处理速度更能提升至每秒数千个。

据介绍,该系统采用ONNX Runtime进行模型推理,并借助Tokio框架实现异步并行处理。谷歌公布的测试数据显示,在MacBook Pro(M4)设备上,Magika每秒可处理约1,000个文件。

谷歌开源 AI 文件检测工具 Magika 1.0 发布:全面迁移至 Rust,性能大幅提升

在支持的文件类型方面,Magika 1.0的检测范围已扩展至200多种文件格式,是初始版本的两倍。新增的类别包括:

数据科学与机器学习:支持Jupyter Notebooks(ipynb)、Numpy(npy, npz)、PyTorch(pytorch)、ONNX(onnx)、Apache Parquet(parquet)及HDF5(h5)等文件;

现代编程与网页开发:新增Swift、Kotlin、TypeScript、Dart、Solidity、WebAssembly(wasm)及Zig;

DevOps与配置文件:支持Dockerfile、TOML、HashiCorp HCL、Bazel构建文件及YARA规则等;

数据库与图形格式:新增SQLite、AutoCAD(dwg, dxf)、Photoshop(psd)以及现代网页字体(woff, woff2)等。

Magika 1.0还增强了对相似格式的区分能力,例如能够准确识别JSONL与JSON、TSV与CSV、Apple二进制plist与XML plist,还能区分C与C++、JavaScript与TypeScript等编程语言文件。

谷歌开源 AI 文件检测工具 Magika 1.0 发布:全面迁移至 Rust,性能大幅提升

在技术实现层面,开发团队面临两大挑战:训练数据规模庞大与部分文件类型样本稀缺。未压缩的数据集超过3TB,为此谷歌采用自研的SedPack数据集库,通过流式加载与解压技术实现了高效训练。同时,针对样本不足的文件类型,研究团队使用生成式AI工具Gemini创建高质量的合成训练数据,将现有代码和结构化文件转换为其他格式,从而增强模型的泛化能力。

值得注意的是,新版本Magika还同步更新了Python与TypeScript模块,简化了开发者在各语言中的集成过程。用户可通过简单命令在Linux、macOS或Windows上安装原生客户端,也可通过pipx install magika安装Python包来使用Rust版命令行工具。

谷歌表示,Magika的未来发展将持续聚焦性能优化与文件类型扩展。团队欢迎开发者社区积极参与贡献,包括测试、功能请求及代码提交。

来源:https://www.ithome.com/0/895/613.htm
上一篇山姆支付跳转色情页面?官方回应翻车遭群嘲 下一篇一加周销量创历史新高,市占率达3.3%背后原因解析
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。