如何用 String.prototype.match 配合正则快速提取字符串中的所有数字

match 返回 null 而不是空数组,直接遍历会报错
不少开发者都踩过这个坑:写完 str.match(/\d+/g).forEach(...),信心满满地运行,结果迎面就是一个 TypeError: Cannot read property 'forEach' of null。问题出在哪?关键在于,当字符串里压根没有数字时,match 方法返回的不是一个空数组,而是 null。这一点,正是它和 RegExp.prototype.exec 方法的核心区别之一。
安全的做法,是用逻辑或运算符兜底:str.match(/\d+/g) || []。这里有个细节需要注意,别用空值合并运算符 ?? [],因为 match 在无匹配时明确返回 null,而 ?? 只对 null 或 undefined 生效,虽然 null 是 falsy 值,但逻辑或运算符在这里更直接可靠。
- 错误示例:
"abc".match(/\d+/g).length→ 直接报错 - 正确写法:
(str.match(/\d+/g) || []).length - 如果需要数字类型,记得对每个匹配到的字符串结果调用
Number()或使用一元加号+x进行转换
只想要纯数字(不含小数点、负号),用 \d+ 就够了
说到提取数字,/\d+/g 可以说是最常用也最稳妥的选择。它能匹配一个或多个连续的 ASCII 数字字符(0–9),进行全局查找,不会跨字符边界,也巧妙地避开了小数点或减号。
这里有几个常见的误区:用 /[0-9]+/g 当然也可以,但在 ASCII 范围内它的行为和 \d+ 完全一致,只是写法上稍显啰嗦;更要避免的是 /\d*/g,因为量词 * 允许零次匹配,这会导致它在每两个字符之间都“匹配”到一个空字符串,从而产生大量无意义的 "" 结果。
- 输入
"abc123def45.67-89"→ 输出["123", "45", "89"] - 如果想连小数点一起提取呢?那就得改写正则了,比如
/\d+\.\d+|\d+/g。不过要注意顺序,必须先匹配带小数点的模式,再匹配整数,否则像45.67这样的字符串会被拆成45和67两个独立结果。 - 如果想支持负数呢?可以加上可选的前缀:
/-?\d+/g。但这也得留心,像"-12-34"这样的字符串会被匹配为["-12", "-34"],而不是你预想的["-12", "34"]。
性能敏感场景下,避免重复创建正则对象
如果在循环或高频调用的函数里,反复写 str.match(/\d+/g),每次执行都会创建一个新的正则表达式实例。尽管像 V8 这样的现代 Ja vaScript 引擎会进行一些内部优化,但显式地复用正则对象仍然是更可控、更推荐的做法。
最佳实践是把正则表达式赋值给一个常量,尤其是在工具函数或性能关键的位置:
const DIGITS_REGEX = /\d+/g;
function extractNumbers(str) {
return str.match(DIGITS_REGEX) || [];
}
- 注意,不要写成
const DIGITS_REGEX = new RegExp('\d+', 'g')。这里有个转义陷阱:字符串中的'\d'会先被 Ja vaScript 解析,结果传给RegExp构造函数的就只剩下字母'd'了。 - 只有当正则模式需要动态拼接时(比如从变量中注入位数限制),才考虑使用
new RegExp,并且务必对来源字符串进行适当的转义处理。 - 另外提一点:带有
g标志的正则表达式对象有lastIndex属性。不过,match方法本身并不会修改这个属性,所以可以放心复用。但如果你手动操作过lastIndex,那就要留意它对后续匹配的影响了。
matchAll 更适合复杂提取(比如带分组的数字)
如果你的目标不仅仅是“拿到所有数字字符串”,还想知道“每个数字在原始字符串中的位置”,或者需要“从一个混合结构中抽取特定字段”,那么 matchAll 方法会比 match 更合适。它返回一个迭代器,其中每个元素都是一个完整的匹配结果对象,包含了 index(匹配开始的位置)、groups(命名捕获组)等信息。
举个例子,从 "id:123, count:45" 这样的字符串中提取键值对:
const re = /(\w+):(\d+)/g;
for (const match of "id:123, count:45".matchAll(re)) {
console.log(match[1], match[2]); // 依次输出 "id" "123", 然后 "count" "45"
}
matchAll没有null的困扰:当没有匹配项时,它返回一个空的迭代器,用for...of循环遍历时会自然跳过,无需额外的空值判断。- 当然,它的缺点是兼容性:不支持 IE 浏览器,Node.js 需要 12 及以上版本,在前端使用时需要确认运行环境。
- 所以,如果只是单纯地提取所有数字,
match配合/\d+/g依然是更轻量、更直接的选择。
最后,还有一个极其容易被忽略的关键点:正则表达式里的那个 g(全局匹配)标志,不是可选的。如果漏掉了它,match 方法只会返回第一个匹配项(是一个包含索引、输入文本等信息的对象),而不是预期的字符串数组。这个细节一旦写错,代码可能不会报错,结果看起来也“有值”,但实际上已经漏掉了大部分数据,排查起来相当棘手。
