首页 游戏 软件 资讯 排行榜 专题
首页
AI
LLM能否替代数据科学家?DeepAnalyze告别低效数据分析

LLM能否替代数据科学家?DeepAnalyze告别低效数据分析

热心网友
93
转载
2025-11-03

来自中国人民大学与清华大学的研究团队推出DeepAnalyze——你的专属"数据科学家"。只需一个简单指令,它就能帮你自动化分析各类数据集,并独立完成各类数据科学任务。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

你是否还在为繁杂的数据文件和海量信息而苦恼?是否希望能够自动从数据中挖掘出真正有价值的商业洞察?

最近,由人大与清华联合研发的DeepAnalyze——这款专为数据科学打造的智能助手,让你只需简单描述需求,它就能自主分析数据、完成建模、生成可视化报告等多项复杂任务:

支持自动化数据准备、数据分析、数据建模、数据可视化、数据洞察

数据研究:可在非结构化数据、半结构化数据、结构化数据中进行开放式深度研究,生成研究报告

DeepAnalyze是全球首个面向数据科学的自主智能体,无需预设工作流程,仅凭单一语言模型即可像专业数据科学家那样,自主完成多种复杂的数据任务。

DeepAnalyze的论文、代码、模型、数据均已开源,已在GitHub收获1.1K+星标,欢迎大家亲身体验!

DeepAnalyze——你的专属"数据科学家"

DeepAnalyze能够在真实环境中自主编排和优化各类操作流程,从容应对复杂的数据科学挑战。

DeepAnalyze在真实环境中学习复杂任务

数据无处不在,而数据科学一直被视作人类智能的重要体现。从Kaggle竞赛到日常的数据分析实践,众多评测都在考察数据科学家在数据准备、分析、建模、可视化与洞察等方面的综合能力。

当前的数据智能体通常依赖人工设计的工作流程,来驱动大模型完成特定的数据分析与可视化任务。尽管在各类单点任务上已取得了令人瞩目的成果,但由于LLM的自主性仍然有限,它们距离理想的"全能自主数据科学家"依然存在明显差距。

随着大型语言模型智能水平的持续提升,一个关键问题也愈发突出:如何让LLM真正具备自主完成复杂数据科学任务的能力?

DeepAnalyze通过在真实环境中的训练,学会自主编排、自适应优化操作步骤,最终实现复杂数据科学任务的完整解决。

为达成这一目标,DeepAnalyze提出课程学习式自主训练范式(Curriculum-based Agentic Training ofDeepAnalyze)和面向数据的轨迹合成框架(Data-grounded Trajectory Synthesis)。

课程学习式Agentic训练

数据科学任务本身具有高度复杂性,这使得基础LLM在早期训练阶段往往难以顺利完成任务。任务复杂性导致模型几乎得不到正向奖励信号(即"奖励稀疏"问题),强化学习过程容易停滞,甚至出现训练崩溃的情况。

为了解决这一难题,DeepAnalyze提出了"课程学习式 Agentic 训练"。其模拟人类数据科学家的学习路径,让LLM在真实环境中从简单到复杂、从单一任务到综合任务逐步进阶。通过这种渐进式训练,模型的能力得以稳步提升,避免在复杂任务中因为"奖励信号为零"而导致学习失败。

训练过程包括两大阶段:

单能力微调:训练LLM在代码生成、结构化数据理解、逻辑推理等方面的基础能力;多能力Agentic训练:在真实任务环境中,让LLM学会运用多种能力,像数据科学家一样自主完成复杂任务。

面向数据的轨迹合成

在数据科学领域,缺乏完整的长链问题求解轨迹,这让LLM在探索解题空间时缺乏有效指引,只能进行低效、盲目的"试错式"探索,难以获得有意义的中间监督信号。

为了解决这一难题,DeepAnalyze提出了"面向数据的轨迹合成"方法。其能够自动合成50万条数据科学推理与环境交互数据,为模型在庞大的搜索空间中提供正确路径的示范和引导。

数据合成包含两个关键部分:

推理轨迹合成:基于现有的TableQA、结构化知识理解、数据科学代码生成任务,构建带有完整推理路径的训练数据;交互轨迹合成:构建多智能体系统,从结构化数据源(如Spider和BIRD)中自动合成数据科学交互轨迹,提供真实环境的交互轨迹。

DeepAnalyze支持面向数据的深度研究

DeepAnalyze支持面向数据的深度探索,能够自动生成具备专业分析师水准的研究报告。在数据研究报告生成任务中,无论是内容深度还是报告结构,DeepAnalyze的表现都显著优于现有的闭源LLM。

分析报告:

作者介绍

张绍磊,中国人民大学信息学院助理教授,隶属于中国人民大学讲席教授范举教授团队。

他博士毕业于中国科学院计算技术研究所,导师为冯洋研究员。他的研究方向涵盖大语言模型、多模态大模型、AI for Data Science。

相关研究成果在NeurIPS、ACL、ICLR等国际人工智能与自然语言处理会议发表论文30余篇,开源的多语言大模型、多模态大模型、数据科学大模型在GitHub社区累计获得5000+星标。

他长期担任CCF-A类国际会议ACL ARR的领域主席和责任编辑。个人主页:zhangshaolei1998@github.io。

范举,中国人民大学教授、博士生导师,国家级青年人才,中国计算机学会数据库专业委员会、大数据专业委员会委员。

研究方向包括:数据治理技术与系统、智能数据库系统等。

相关研究成果在计算机领域国际顶级期刊/会议发表论文60余篇。作为负责人先后主持国家自然科学基金优秀青年基金项目、重点项目、面上项目,以及多项产学研合作项目。

先后获得ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、宝钢优秀教师等奖项。

团队介绍:

RUC-DataLab是中国人民大学信息学院、数据工程与知识工程教育部重点实验室设立的科研团队,负责人是范举教授,团队专注于数据系统+人工智能(Data+AI)交叉领域,致力于将数据技术与人工智能技术深度融合,从而打造更加智能、高效的新型数据系统。

实验室的研究方向包括:(1)数据库系统智能化(AI4DB):利用人工智能技术提升数据库系统的查询性能、自治能力等;(2)数据库技术赋能AI系统(DB4AI):利用数据管理技术支撑大模型训练的高效处理、大模型推理的低延迟、高吞吐优化;(3)数智融合的新型数据科学系统(AI4DS):利用推理大模型、多模态语义理解等技术,提升数据科学系统的智能化水平与执行性能,有效释放数据价值。

论文:https://arxiv.org/pdf/2510.16872
代码:https://github.com/ruc-datalab/DeepAnalyze
模型:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
数据:https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多示例:https://ruc-deepanalyze.github.io/

来源:https://www.51cto.com/article/828636.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

用ASP.NET加密Cookie数据(图)
网络安全
用ASP.NET加密Cookie数据(图)

Cookie确实在WEB应用方面为访问者和编程者都提供了方便,然而从安全方面考虑是有问题的 首先,Cookie数据会随着HTTP请求和响应的包头进行明文传输,这意味着在传输过程中,这些数据可能被第三方截获和查看。其次,Cookie通常以文本文件的形式存储在用户的浏览器缓存目录中,其中可能包含用户的会

热心网友
04.20
将XML数据转换成HTM
前端开发
将XML数据转换成HTM

使用XSLT将XML数据转换为HTML布局 如何将结构化的XML数据动态呈现为网页上的表格布局?借助XSLT(可扩展样式表语言转换)技术,您可以轻松实现这一目标。XSLT作为一种强大的数据转换标准,在构建数据驱动型Web应用时,常被用作XML到HTML的转换引擎。本文将通过一个具体案例,演示如何将一

热心网友
04.19
初学XML的基础知识(认识XML的作用)
前端开发
初学XML的基础知识(认识XML的作用)

“可扩展标记语言”(XML):结构化数据的定义与传输标准 你可能对HTML非常熟悉,它主要用于控制网页的视觉呈现与布局。然而,XML与HTML有着本质的区别。XML的核心使命是什么?是精确地定义和描述数据本身的结构与类型。这一根本差异,决定了它们在应用领域和技术生态中扮演着截然不同的角色。 XML的

热心网友
04.19
中国科研人员利用LAMOST望远镜发现两颗新的共生星
科技数码
中国科研人员利用LAMOST望远镜发现两颗新的共生星

7月25日消息 天文学界最近有一项挺有意思的发现。根据中国科学院发布的信息,由南京天文光学技术研究所研究员王靓团队,联合国家天文台研究员罗阿理等人,利用LAMOST望远镜第十次公开的海量光谱数据,再结合多种测光数据,成功揪出了两颗全新的共生星,同时还锁定了12颗“仅吸积共生星”的候选体。这成果可不只

热心网友
04.17
伯恩斯坦:二月苹果iPhone全球销量同比激增26%,在中国市场平均售价上涨20%
科技数码
伯恩斯坦:二月苹果iPhone全球销量同比激增26%,在中国市场平均售价上涨20%

伯恩斯坦:二月苹果iPhone全球销量同比激增26%,在中国市场平均售价上涨20% 最新市场数据显示,苹果公司在2026年2月取得了令人瞩目的销售业绩。根据伯恩斯坦报告,iPhone全球销量同比大幅增长26%,这一增速显著超越了去年同期iPhone 16系列的表现。其中,中国市场成为推动全球增长的核

热心网友
04.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

腾讯:QQ 将全面接入微信小程序,建议开发者尽快迁移降低维护成本
手机教程
腾讯:QQ 将全面接入微信小程序,建议开发者尽快迁移降低维护成本

腾讯生态整合新动向:QQ全面接入微信小程序 7月1日,腾讯QQ小程序开发者平台发布了一项重要更新。核心内容是,为了帮助开发者降低双端开发与维护成本,QQ将全面接入微信小程序体系。这意味着,未来用户可以直接在QQ内搜索并打开微信小程序。 对于现有的存量QQ小程序,此次调整并未“一刀切”。它们目前仍可正

热心网友
04.22
天玑9600/9600 Pro双芯齐发:5GHz主频史无前例 硬刚高通骁龙8E6
手机教程
天玑9600/9600 Pro双芯齐发:5GHz主频史无前例 硬刚高通骁龙8E6

下半年芯片市场巅峰对决提前揭幕 今年下半年,全球芯片市场的战火将空前炽热。两位重量级选手——联发科与高通,已经准备好亮出各自的王牌。天玑9600系列与骁龙8E6系列,这两大迭代旗舰平台的正面交锋,注定会成为今年科技行业最值得关注的戏码。 双芯策略:精准卡位旗舰市场 有意思的是,联发科这次玩了个新花样

热心网友
04.22
微信好友申请为何能通过搜索qq号添加
手机教程
微信好友申请为何能通过搜索qq号添加

在当今数字化社交的时代,微信已成为人们日常沟通交流的重要工具。不少人都发现,微信好友申请居然可以通过搜索 qq 号来添加,这背后有着诸多有趣的原因和便利之处。 一、社交关系的延续与拓展 要知道,微信与QQ同属腾讯旗下,两者之间存在着千丝万缕的联系。很多用户的社交关系其实根植于QQ时代,那些好友列表里

热心网友
04.22
高德地图如何更改定位
手机教程
高德地图如何更改定位

高德地图如何更改定位?三种方法详解及注意事项 无论是日常通勤、外出旅行还是朋友相聚,高德地图已经成了我们依赖的“导航神器”,精准定位和路线规划是其核心功能。不过,现实场景有时会有点特殊——比如,你可能需要模拟一个位置来测试应用,或者在某个游戏中“签到”,又或者只是想和朋友开个无伤大雅的玩笑。这个时候

热心网友
04.22
巧学宝app如何绑定手机号
手机教程
巧学宝app如何绑定手机号

巧学宝App绑定手机号全程指南 在巧学宝App上完成手机号绑定,是解锁其完整功能的关键一步。这个看似简单的操作,能为你后续的学习之旅带来不少实实在在的便利。那么,该如何快速搞定呢?下面这张流程图,能帮你一眼看清完整的操作路径。 第一步:进入个人中心 首先,打开你的巧学宝App。进入主界面后,注意力可

热心网友
04.22