如何在 PHP 中按句号将文本精准分割为两部分
如何在 PHP 中按句号将文本精准分割为两部分

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
本文介绍一种可靠方法,使用 PHP 将长文本按最后一个完整句号(.)为界,精确切分为前后两段,确保第一部分以句号结尾,第二部分为剩余内容。
处理长文本时,你是否遇到过这样的需求:需要把一段内容“智能”地切成两半,并且要求前半部分必须恰好在一个完整的句子后结束?无论是为了生成内容摘要、进行分页预处理,还是截断邮件正文,这个需求都挺常见。核心目标很明确:第一部分必须以句号(.)结尾,避免生硬地切断单词或停在标点前,从而保证语义的完整性。
听起来简单,但直接用 `explode(‘.’, $text)` 可不行。那样会把所有句号都当成分隔符,结果就是得到一堆文本碎片。更麻烦的是,它无法分辨一个句号究竟是句子的结束(如 `It is.`),还是缩写的一部分(如 `e.g.` 或 `Dr.`),更别提精准定位“最后一个完整句子的结尾”了。
✅ 推荐方案:基于 strrpos() 的精确定位与分割
那么,如何实现既精准又可靠的拆分呢?关键在于使用 `strrpos()` 函数来定位最后一个句号,再配合 `substr()` 进行切割。下面是一个经过实战检验的代码示例:
$text = 'Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry\'s standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum.';
// 查找最后一个句号的位置(注意:需确保其后紧跟空格或字符串结尾,提升语义准确性)
$lastDotPos = strrpos($text, '.');
if ($lastDotPos !== false) {
// 确保该句号是句子结束:后面是空格、换行或字符串末尾
$nextChar = $text[$lastDotPos + 1] ?? '';
if (ctype_space($nextChar) || $nextChar === '' || $nextChar === "\n" || $nextChar === "\r") {
$part1 = substr($text, 0, $lastDotPos + 1); // 包含句号
$part2 = substr($text, $lastDotPos + 2); // 跳过句号及后续空白
} else {
// 若最后一个句号不满足句子结束条件,可向前搜索更安全的句号(可选增强逻辑)
$part1 = rtrim(substr($text, 0, $lastDotPos), " \t\n\r") . '.';
$part2 = ltrim(substr($text, $lastDotPos + 1));
}
} else {
// 无句号时,按需处理:全归 part1 或抛出异常
$part1 = $text;
$part2 = '';
}
echo "Part 1:\n" . $part1 . "\n\nPart 2:\n" . $part2;
关键说明与注意事项
这套方案之所以可靠,在于它兼顾了效率与准确性。以下是几个需要留意的要点:
- 效率优先:`strrpos()` 的时间复杂度是 O(n),直接从字符串末尾反向搜索,效率很高,避免了正则表达式可能带来的性能开销。
- 语义校验:严格检查句号后的字符(是否为空格、换行或字符串结尾),这一步至关重要。它能有效规避 `e.g.`、`Dr.` 这类缩写中的点被误判为句子结束,大幅提升了代码的鲁棒性。
- 扩展性考量:如果业务场景需要支持更多句子终止符(比如感叹号 `!` 或问号 `?`),可以扩展为多字符匹配。例如,使用 `preg_match(‘/[.!?]\s+$/u’, $text, $matches, PREG_OFFSET_CAPTURE)` 来定位最末的句末标点。
- 边界安全:务必校验 `strrpos()` 的返回值是否为 `false`。这是为了防止在空文本或根本不存在句号的文本中调用 `substr()` 而导致错误。
- 语言兼容性:本例主要针对英文文本。在中文混排场景中,中文句号 `。` 需要单独处理。实际项目中,若涉及多语言,务必考虑 Unicode 标点的兼容性问题。
总的来说,这个方法思路清晰、可控性强且性能优良,能够满足绝大多数服务端文本预处理的需求。它提供了一种在“精准分割”与“代码简洁”之间取得平衡的实用路径。
立即学习“PHP免费学习笔记(深入)”;
相关攻略
phpEnv 中无 fileinfo 选项属正常设计,需手动确认配置 在 Windows 下使用 phpEnv 时,如果发现界面里压根找不到开启 fileinfo 扩展的选项,先别急着怀疑软件有问题。这其实是它的设计逻辑:phpEnv 本质上是一个 PHP 版本切换和管理工具,它并不负责替你编译或安
ThinkPHP多语言切换:别让语言标识在URL里“迷路” 想让ThinkPHP的多语言切换真正稳定可靠?关键在于让语言标识在路由、参数和Session三者之间协同工作,形成一个闭环。如果只是简单地在URL里写死,那么页面一刷新,语言状态就可能丢失,甚至还会意外覆盖掉其他重要参数。 URL里明明带了
ThinkPHP路由中间件必须显式绑定,无自动识别机制;单个路由用->middleware()链式调用,分组路由用Route::group()->middleware()统一绑定;权限标识应通过->option()注入,中间件中用$request->rule()->getOption()获取;获取完
ThinkPHP在Nginx下遭遇404?根本在于请求未“进门” 有没有遇到过这种情况?明明已经把ThinkPHP项目部署到了Nginx服务器上,但访问时却必须带上index php(比如https: example com index php index hello),否则就直接给你一个冷冰冰的
ThinkPHP路由参数含斜杠时404的根本原因与解决方案 在ThinkPHP开发中,你是否遇到过这样的场景:一个看似合理的URL,比如需要传递一个包含路径信息的参数,框架却直接返回了404?这背后,其实是一个关于框架如何“理解”URL的经典问题。 ThinkPHP 路由参数含斜杠时 404 的根本
热门专题
热门推荐
一、授予系统权限并启动基础服务 想让BetterTouchTool真正“活”起来,第一步就得打通系统权限。它需要“辅助功能”权限来监听你的触控板事件,也需要“屏幕录制”权限来执行一些窗口操作。这两项权限缺一不可,否则你会发现手势做了,但电脑毫无反应。 具体操作其实不复杂:先进入系统「设置」-「隐私与
如何开启Windows 11“高性能模式” 解决笔记本玩游戏掉帧降频方法 笔记本玩游戏,最扫兴的莫过于画面突然卡顿、帧率断崖式下跌。很多时候,问题并非出在硬件本身,而是Windows 11默认的电源策略在“拖后腿”。为了省电,系统会动态调节处理器频率、让核心休眠,甚至给显卡设置功耗墙,这直接限制了硬
macOS更新失败?别慌,这五步能帮你搞定 升级macOS时,进度条卡住不动、弹窗提示“无法验证更新”或者干脆报错退出,这事儿确实让人头疼。其实,这些看似随机的故障,背后通常逃不出几个核心原因:存储空间不连续、网络连接不干净、缓存文件有冲突,或者磁盘底层出了点小状况。别担心,按照下面这套经过验证的步
Linux下使用Jattach工具诊断Ja va进程 零停机获取Dump信息 开门见山,先说一个核心判断:jattach 并非 JDK 自带工具,也不能直接替代 jstack。但它的价值在于,能在某些棘手场景下,绕过 JVM 的安全限制成功获取 dump。当然,这有个前提——目标 JVM 的 Att
Tyk Dashboard 启动失败?从配置到排查的完整指南 在Linux上部署Tyk,可不是简单的apt install或yum install就能搞定。它背后依赖着MongoDB和Redis,并且对配置顺序有严格的要求。跳过其中任何一环,tyk-dashboard服务很可能就会卡在502错误,或





