XML 空白详解:空格、制表符与空行的处理规则
在 XML 规范中,空白字符主要包括空格、制表符以及空行。编写 XML 文档时,开发者常利用空白来分隔标记,提升代码的可读性与结构清晰度。然而,在数据交换与解析过程中,这些出于排版目的而添加的空白往往被视为冗余信息。但值得注意的是,在某些特定场景下,空白本身承载着关键内容——例如诗歌的换行与韵律,或是程序源代码的缩进格式,此时的空白便不再是可有可无的装饰,而是构成语义完整性不可或缺的一部分。
XML 处理器如何对待空白字符?
首先需要明确一个核心原则:XML 处理器会将文档中所有非标记字符原封不动地传递给上层应用。如果使用的是支持有效性验证的处理器,它还会额外向应用程序报告哪些空白出现在元素内容内部。
那么,当我们需要明确要求应用程序“保留此处空白”时,应该如何实现?这就涉及到一个专为空白处理而设计的关键属性。
关键属性:xml:space 的作用与声明
在 XML 文档中,可以通过在元素内使用 xml:space 属性来指示应用程序保留该元素内的空白字符。这一属性专门用于控制空白的处理方式。
在有效的 XML 文档中,xml:space 属性必须经过正式声明方可使用。它必须被声明为枚举类型,其取值仅限于 "default" 和 "preserve" 中的一个或两者皆可。
以下是两种常见的声明示例:
这行声明为 poem(诗歌)元素定义了 xml:space 属性。属性类型为枚举,允许的值为 "default" 或 "preserve",且默认值设为 'preserve'。这意味着,除非显式指定其他值,否则 poem 元素内的所有空白都应当被保留。
另一个示例如下:
此声明针对 pre(预格式化文本,常用于展示代码)元素。枚举列表仅包含 "preserve" 一个值,并通过 #FIXED 关键字设定了固定缺省值。这相当于一个强制规定:该元素的空白处理模式只能是保留,不可更改。
简单来说:"default" 表示采用应用程序默认的空白处理策略(通常为合并或移除无关空白);而 'preserve' 则明确指示应用程序:此元素内的所有空白字符都必须完整保留。
此外,有一条重要规则:若某个元素设置了 xml:space 属性,则该设置会应用于其所有后代元素——除非某个后代元素自身重新定义了 xml:space 属性,从而覆盖从祖先继承而来的规则。
有效空白与无效空白的区分
从严格意义上讲,XML 文档中的空白可分为两类:(a) 有效空白 与 (b) 无效空白。准确理解二者的区别对于正确处理 XML 至关重要。
什么是有效空白?
有效空白通常出现在元素内容混合了文本与标记的情况下。此时,空白是内容的重要组成部分,不同的空白会导致不同的语义。
对比以下两个元素:
TanmayPatil
与
Tanmay Patil
显然,它们表示不同的内容。第一个是“TanmayPatil”(无空格),第二个是“Tanmay Patil”(中间含空格)。任何解析此 XML 的程序都必须严格区分两者,这里的空白是有效的,具有实际意义。
什么是无效空白?
无效空白通常出现在纯标记区域,例如标签名或属性名内部。为了直观说明,我们用点号(.)来代表空白:
或
尽管书写时插入了点号(代表空白),但对 XML 解析器而言,这两个标签是完全等价的。标签名 address.category 内部的空白被视为无效,解析时会被直接忽略。属性值内部的空白处理遵循其他规则,但属性名本身的空白同样无效。
这正是 xml:space 属性发挥价值之处。通过它,我们可以明确告知应用程序:此元素内的空白(尤其是那些通常被视作“无效”的空白),必须予以保留。
最终的属性声明与使用示例如下:
最后,重申两个取值的核心含义:
- default: 采用应用程序默认的空白处理方式。
- preserve: 应用程序必须保护此元素内的所有空白字符,不得删除或合并。
精通 XML 空白处理机制,并善用 xml:space 属性,能够帮助开发者在确保数据机器可读性的同时,完美兼顾文档对人类阅读者的友好性,实现两者间的理想平衡。
