mysql怎么用函数实现多字节字符的截取_使用SUBSTRING与CHARACTER_LENGTH
MySQL 中 SUBSTRING 截取中文乱码?本质是字节 vs 字符混淆
核心问题在于:SUBSTRING 函数默认按字节进行截取。在 utf8mb4 编码下,一个中文字符通常占用 3 到 4 个字节。若错误地使用返回字节数的 LENGTH() 函数来配合 SUBSTRING 操作,极易截取到半个汉字,从而产生乱码。正确的解决方案是使用 CHARACTER_LENGTH() 函数,它返回的是我们直观可见的字符数,能确保精准定位到“第几个字”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

SUBSTRING(str, pos, len) 的 pos 和 len 都按字符位置算
需要明确一个关键点:SUBSTRING 函数本身不区分编码,其参数 pos(起始位置)和 len(长度)在定义上就是基于“字符数”计算的。但前提是,你传递给它的数值必须是字符数,而非字节数。
- 典型的错误写法:
SUBSTRING(name, LENGTH(LEFT(name, 2)), 1)。此代码试图先用LEFT取前2个字节,再用LENGTH()计算其字节长度作为起始位。风险在于,LEFT(name, 2)取出的2个字节可能只是一个汉字的一部分,导致后续计算完全偏离预期。 - 正确的做法:直接使用字符数。例如,
SUBSTRING(name, 1, 2)就是截取前2个字符,简单直接。若需动态计算,例如截取最后2个字符,可写作:SUBSTRING(name, CHARACTER_LENGTH(name) - 2 + 1, 2)。 - 额外注意:在
utf8mb4的排序规则(如utf8mb4_0900_as_cs)下,SUBSTRING的行为是稳定可靠的。但如果使用的是旧版的utf8(实为 utf8mb3),处理四字节的 Emoji 表情时仍可能出错。
CHARACTER_LENGTH() 不是万能补丁,得看字段实际编码
使用 CHARACTER_LENGTH() 就能一劳永逸吗?并非如此。该函数返回的是 Unicode 字符的个数,但其准确性依赖于字段本身声明的字符集。设想一个场景:一个字段被定义为 latin1 字符集,但实际存储的却是 UTF-8 编码的中文。此时,CHARACTER_LENGTH() 可能会将一个汉字错误地计为3个字符。这并非函数缺陷,而是数据存储层出现了编码不匹配。
- 第一步,检查字段的真实字符集:执行
SHOW FULL COLUMNS FROM table_name LIKE 'column_name';,重点关注Collation列,确保其指向utf8mb4_*系列的排序规则。 - 临时转换的权宜之计:若暂时无法修改表结构,可在查询时进行编码转换:
SUBSTRING(CONVERT(column_name USING utf8mb4), 1, 5)。但此方法存在性能开销,不建议在数据量大的表或 WHERE 条件中频繁使用。 - 更简洁的替代方案:对于简单的截取操作,
LEFT(column_name, 5)与SUBSTRING(column_name, 1, 5)效果完全相同,前者书写更简洁。RIGHT()函数同理。
遇到 SUBSTRING 返回空或问号?先查连接层编码
有时,即使 SQL 语句逻辑无误,执行结果仍可能出现乱码、空字符串或问号。这通常源于数据库连接层的编码问题。如果客户端连接使用的是 latin1 编码,或未正确设置 SET NAMES utf8mb4,那么 SUBSTRING 函数接收到的可能已是一个被损坏的字符串,后续任何字符数计算都将失效。
- 连接时指定编码:在命令行连接时,可添加参数:
mysql --default-character-set=utf8mb4 -u user -p。 - 执行前校验编码设置:运行查询
SELECT @@character_set_client, @@character_set_connection, @@character_set_results;,确保这三个系统变量的值均为utf8mb4。 - 一个常见的错误现象:执行
SUBSTRING('你好世界', 1, 2)却返回空值或乱码。这大概率是客户端解码失败所致,而非函数本身功能失效。
归根结底,真正的挑战往往不在于函数语法本身,而在于确保字符集声明、连接参数与实际字段存储三者之间的一致性。只要其中任何一层未能对齐,缺少了关键的 mb4 支持,那么之前所有基于 CHARACTER_LENGTH() 的精心计算都可能前功尽弃。
相关攻略
MySQL 中 SUBSTRING 截取中文乱码?本质是字节 vs 字符混淆 核心问题在于:SUBSTRING 函数默认按字节进行截取。在 utf8mb4 编码下,一个中文字符通常占用 3 到 4 个字节。若错误地使用返回字节数的 LENGTH() 函数来配合 SUBSTRING 操作,极易截取到半
怎么利用 Base64 工具类实现图片字节数组与字符串的相互转换 先说一个核心概念:Base64 工具类本身不处理任何图片逻辑,它只专注做好一件事——字节数组和字符串之间的编解码。图片最终能否正确还原,完全取决于你传入的字节数组是否完整、格式是否合法。这就好比一个翻译官,他只负责把一种语言翻译成另一
如何在单次操作中将一个字节的低3位复制到另一个字节的低3位 本文详解如何通过位运算(and + or)在一条语句中将源字节的低3位无损覆盖到目标字节的对应位置,兼顾动态值处理与可移植性,避免误改高位。 在嵌入式开发、协议解析或底层数据操作中,我们常常遇到一个经典场景:需要精准修改字节中特定的几位,而
CSV读取静默截断主因是 x00或 x1a等控制字符被当EOF;需用二进制模式预清理字节,再解码,而非依赖pandas参数或编码设置。 CSV读取时突然截断,大概率是 x00或 x03这类控制字符在捣鬼 你有没有遇到过这种情况:用pandas read_csv()读文件,明明文件很大,读出来的数据却
腾讯WorkBuddy、字节Trae、阿里灵码:三只国产“龙虾”,你该夹哪只? 先别急着选,搞清楚你在选什么 先问一句:你究竟在选什么?这三个名字听起来都像是AI编程助手,但仔细一瞧,它们根本不是同一类产品。 腾讯的WorkBuddy,严格来说,甚至不算是传统的编程工具。它的定位是“AI Agent
热门专题
热门推荐
你一直认为自己是个无与伦比的职工 不迟到、不早退、准时完成工作,对单位里的大小文具从不顺手牵羊——这当然是职业素养的基石。不过,衡量工作成绩的优劣,有时并不仅仅看个人表现,与周围环境的协调能力同样是重要的考察维度。一味地严于律己固然好,但若与同事龃龉过多,这些不经意间埋下的“暗礁”,很可能成为阻碍你
Pharos Network公共主网正式上线:一条聚焦合规与互操作性的新公链启航 Web3市场的发展一日千里,用户对既高效又合规的金融基础设施的渴求,从未像今天这样迫切。正是在这样的背景下,基于权益证明机制、兼容EVM的第一层区块链——Pharos Network,于今日正式向公众敞开了大门。通过一
基本原则 职业女性的着装,从来不是一件小事。它像一张无声的名片,必须精准地传达出你的个性、体态特征、职位角色,更要与你所处的企业文化、办公环境乃至个人志趣相契合。 这里有个常见的误区:认为展现权威就得向男同事的着装看齐。其实恰恰相反,真正的“女强人”魅力,源于“做女人真好”的自信心态。充分发挥女性特
现代社会中,智慧与才华成为职业生涯的决定因素 工业化和高科技的浪潮,正悄然改变着职场的力量格局。一个显著的趋势是,男性的体力优势在众多领域逐渐变得不那么关键,这为女性更广泛、更深入地参与社会财富创造打开了大门。如今在工作中,“人”的属性越来越超越性别属性。那句广为流传的宣言——“没有专门只给男人或者
在办公室里,同事每天见面的时间最长,谈话可能涉及到工作以外的各种事情,讲错话常常会给你带来不必要的麻烦。同事与同事间的谈话,如何掌握分寸就成了人际沟通中不可忽视的一环。 办公室里最好不要辩论 职场里总有些人,似乎天生就喜欢争论,凡事都要争个高低对错才肯罢休。如果你恰好也具备这种“才华”,那么真心建议





