首页 游戏 软件 资讯 排行榜 专题
首页
编程语言
如何基于条件比对两个 DataFrame 并筛选保留符合条件的记录

如何基于条件比对两个 DataFrame 并筛选保留符合条件的记录

热心网友
30
转载
2026-05-06

高效数据过滤:如何用向量化操作精准提取“合格”保单记录

在数据处理工作中,我们常常遇到一个经典场景:需要根据一个参考表中的特定状态,来筛选主表中的原始记录。比如,手头有一份完整的保单清单(df),另一份是带有状态标签的更新表(df_2),目标很明确——只保留那些在df_2里被标记为“good”的保单号所对应的原始数据行

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

面对这种任务,最直接的想法可能是写个循环逐条比对。但经验告诉我们,当数据量攀升到数万甚至数十万行时,这种逐行扫描的方法会立刻成为性能瓶颈,让等待时间变得难以忍受。

那么,有没有更优雅、更高效的办法?答案是肯定的。今天就来介绍一种完全向量化的Pandas操作方案,它不仅能大幅提升速度,还能让代码更加清晰易读。

核心思路:两步走的向量化策略

这个方法的巧妙之处在于将问题拆解为两个清晰的向量化步骤,完全避开Python层面的循环:

  1. 定位“目标”清单:首先,从状态表df_2中,把所有状态为“good”的保单号找出来,形成一个“合格”清单。
  2. 执行批量匹配:然后,在主表df中,检查每个保单号是否存在于上一步得到的“合格”清单里。利用这个判断结果(一个布尔数组),就能一次性筛选出所有需要的行。

实战代码演示

理论说完了,来看具体代码。假设我们有以下两个简单的DataFrame:

import pandas as pd

df = pd.DataFrame({
    'policy number': [11, 22, 33, 44, 55, 66, 77, 88, 99],
    ' policy status': ['good', 'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good']
})

df_2 = pd.DataFrame({
    'policy number': [11, 83, 63, 44, 55, 66, 67, 88, 99, 100],
    'policy status': ['bad', 'bad', 'good', 'good', 'bad', 'good', 'bad', 'good', 'a verage', 'good']
})

我们的目标,就是高效地找出df中那些保单号在df_2里状态为“good”的记录。只需一行代码:

# ✅ 高效实现:一行完成条件比对与过滤
result = df[df["policy number"].isin(
    df_2.loc[df_2["policy status"] == "good", "policy number"])]
print(result)

运行上述代码,输出结果如下:

   policy number  policy status
3             44           good
5             66           good
7             88           good

看,保单号44、66、88的记录被成功筛选出来,因为它们对应的号码在df_2中确实都是“good”状态。

为何这种方法更胜一筹?

你可能想问,这比循环好在哪里?关键在于三个词:效率、速度、可读性

  • 底层效率高isin()方法底层基于哈希表实现查找,其时间复杂度接近O(n),与数据集规模呈近似线性关系。这比起嵌套循环的O(n×m)复杂度,简直是天壤之别。
  • 计算速度快:整个操作在Pandas和Cython的优化层进行,避免了低效的Python解释器循环,能充分利用现代CPU的向量化计算能力。
  • 代码更清晰:一行代码意图明确,日后你或同事回头维护时,一眼就能看懂这是在做什么过滤,极大提升了代码的可维护性和复用性。

几个关键的注意事项

方法虽好,但在实际应用时,有几个细节需要留心,以确保万无一失:

  • 数据类型要一致:务必确保两个DataFrame中的“policy number”列是相同的数据类型(比如都是int64或都是str)。如果类型不一致,isin()可能会因为隐式类型转换而出错。一个稳妥的做法是事先用df["policy number"] = df["policy number"].astype(int)进行统一转换。
  • 重复值不影响结果:如果df_2中“good”状态的保单号有重复,不用担心,isin()方法依然能正确工作,它只关心成员是否存在,不关心出现次数。
  • 结果顺序问题:当前方法会保留df中原始的记录顺序。如果你希望结果按照df_2中“good”记录的出现顺序来排列,可以在最后加上.sort_values("policy number")进行排序,或者考虑使用merge操作来实现。

这种基于isin()和布尔索引的向量化过滤策略,是Pandas数据清洗中的标准操作,非常适用于保险、金融风控、用户行为分析等需要频繁进行跨表状态匹配和筛选的场景。掌握它,能让你的数据处理流程既快又稳。

来源:https://www.php.cn/faq/2323553.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

鸣潮3.3版本声骸管理方案推荐 3.3版本声骸管理有没有方案码
游戏攻略
鸣潮3.3版本声骸管理方案推荐 3.3版本声骸管理有没有方案码

鸣潮3 3版本声骸管理方案推荐 随着鸣潮3 3版本的到来,一次全面的声骸系统更新在所难免。特别是针对那些拥有特殊机制的角色,如何高效管理你的声骸库存,成了不少指挥官当前的头等大事。好消息是,新版本支持通过方案码一键导入配置,这无疑大大提升了效率。那么,当前版本有哪些值得关注的方案,又该如何灵活运用呢

热心网友
05.06
鸣潮3.3版本卡池抽取建议 3.3版本卡池值得抽吗
游戏攻略
鸣潮3.3版本卡池抽取建议 3.3版本卡池值得抽吗

鸣潮3 3版本卡池抽取建议:值得抽吗? 各位漂泊者,3 3版本卡池已经正式上线。这次的主角,无疑是那位能大幅提升冰队战力的新角色——绯雪。作为一位霜渐主C,她的加入无疑为战场带来了更多可能性。很多玩家都在纠结,这个版本的卡池究竟该如何规划?今天,我们就来深入聊聊3 3版本的抽卡策略。 先说结论(省流

热心网友
05.06
归环影狩流玩法是什么
游戏攻略
归环影狩流玩法是什么

归环影狩流:在策略与对抗中体验极致乐趣 归环影狩流,这个玩法名字本身就透着一股独特的吸引力。它融合了紧张刺激的对抗与深度策略思考,让无数玩家沉浸其中,欲罢不能。在这里,你收获的不仅是胜利的快感,更是一场关于时机、节奏与团队协作的智慧较量。 归环影狩流核心玩法攻略 想要玩转归环影狩流,首先得吃透它的规

热心网友
05.06
超时空观测站--“支援技能“调整来了
游戏攻略
超时空观测站--“支援技能“调整来了

《奥特曼:超时空英雄》超时空观测站--“支援技能“调整来了 各位指挥官,注意了!《奥特曼:超时空英雄》的核心战术模块——支援技能,迎来了一轮关键性调整。这可不是简单的数值微调,而是直接关系到阵容搭配、出手顺序乃至战场胜负格局的改动。下面,就让我们结合最新的实战演示,来逐一拆解这些变化。 通过上方视频

热心网友
05.06
每周福利丨假期仅剩两天啦!先来领个福利压压惊
游戏攻略
每周福利丨假期仅剩两天啦!先来领个福利压压惊

各位天命人周一好呀,又要开启新一周的修行征途啦! 请收下这份周一的馈赠,助您修行之路畅通无阻~ ​ ✨福利兑换码 ZHOUYI3752 ✨内含物品 天命灵果*2,修炼丹·2小时*1 ✨有效期 即日起~2026年5月10日 ✨兑换方式 【进入游戏主界面】-【点击”福利”图标】-【点击下”福利兑换”图标

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

蔚来4月销量同比增22.8% ES9将于5月下旬上市
业界动态
蔚来4月销量同比增22.8% ES9将于5月下旬上市

蔚来2026年4月交付数据发布:多品牌齐头并进,累计交付突破110万台 最新数据显示,2026年4月,蔚来公司整体交付新车达到29,356台,实现了22 8%的同比增长。这份成绩单背后,是旗下多品牌矩阵的共同发力。 具体来看,作为基石的蔚来品牌交付了19,024台;而面向主流家庭市场的乐道品牌表现稳

热心网友
05.06
新增“保护正版 人人有责”提示!广电总局集中处理电视剧侵权、盗版等传播
业界动态
新增“保护正版 人人有责”提示!广电总局集中处理电视剧侵权、盗版等传播

集中治理电视剧侵权传播动员会召开,行业版权保护再升级 近日,国家广播电视总局的一场动员会,为视听行业的版权保护工作按下了加速键。这场聚焦于集中治理电视剧侵权传播的会议,传递出的信号明确而有力:打击侵权盗版,维护健康生态,已成行业共识与当务之急。 侵权之害:动摇行业根基 会议一针见血地指出,电视剧乃至

热心网友
05.06
维信诺携全尺寸创新成果闪耀SID DW 2026
业界动态
维信诺携全尺寸创新成果闪耀SID DW 2026

维信诺闪耀SID DW 2026:以“屏台”技术硬核实力,定义下一代显示升级方向 五月初的洛杉矶,再次成为全球显示技术的焦点。当地时间5月5日至7日,国际显示周(SID Display Week)如期而至,这场行业顶级盛会向来是窥探未来显示趋势的绝佳窗口。今年,维信诺携其全尺寸创新成果亮相,可谓阵容

热心网友
05.06
全球手机销量榜最新出炉!苹果彻底杀疯了
业界动态
全球手机销量榜最新出炉!苹果彻底杀疯了

2026年Q1全球手机市场:苹果的“统治力”与安卓的“哑铃困境” 5月6日,市场研究机构Counterpoint发布了2026年第一季度的全球智能手机销量榜单。数据揭示了一个近乎“单方面碾压”的格局:苹果在高端市场展现出绝对的统治力,而安卓阵营则显得有些“无力招架”。 仔细看这份TOP10榜单,iP

热心网友
05.06
丢失7年的手机突然发定位和照片 机主成功找回!魅族客服回应
业界动态
丢失7年的手机突然发定位和照片 机主成功找回!魅族客服回应

快科技5月6日消息:7年前丢的手机发回定位,机主成功找回 今天,一则“7年前丢的手机发回定位,机主找回”的消息,冲上了网络热搜榜。 事件引发广泛讨论后,魅族客服方面向媒体做出了最新回应:只要机主曾在系统中挂失过手机,并且这部手机处于开机联网状态、同时登录了原机主的魅族Flyme账号,手机确实会自动拍

热心网友
05.06