坦白说,在文档智能解析领域,市面上充斥着大量依靠“猜测”结构的方案。许多产品实际上只是将PDF切割成碎片,再通过OCR强行拼接,最终导致文档结构错乱、逻辑断裂,用户体验不佳。
然而,LongCat AI采取了截然不同的方法。

它并非依赖“猜测”结构,而是先深度理解文档内容再构建模型。标题、段落、表格、图注等元素,都被还原为具有父子层级、阅读顺序和语义角色的结构化数据——看似基础?但实际上,能做到这一点的产品在市场中极为罕见。
那么,它是如何实现的呢?其核心在于四层能力的叠加。
统一Token化:将排版信号转化为模型可理解的语言
LongCat-Next 和 LongCat2.0 系列模型采用了名为DiNA(Discrete Native Autoregressive)的架构。该架构在底层处理上意义重大:它将文字、标题样式、缩进、字体大小、空白行、编号序列等视觉与排版信号,全部统一映射到同一套离散Token序列中。
具体来说:一个以“1.2.3”开头的段落,一段“加粗居中”的文字,或者“缩进两格+无序符号”的内容,都会被封装成携带层级意图的Token序列。模型在训练中学会的,是这些符号并非装饰——而是作者刻意表达的组织逻辑。换言之,模型从一开始就识别出这些外貌迥异的元素,在结构上具有明确的“身份”。
双维度坐标系统:为每个句子赋予唯一“地址”
借鉴DeepRead的思路,LongCat在解析阶段为每个文本单元赋予双重标签:
- 层级坐标:精准识别H1→H2→H3的嵌套关系。例如,“2.3 实验设置”不会孤立出现,它明确隶属于“2 方法”下的子节。模型能够完整复现这一层级链条。
- 顺序坐标:按真实阅读流顺序编号(doc_id, sec_id, para_idx)。跨页表格、浮动图注均可与对应正文锚定。例如图表下方标注的“图3:用户留存率变化趋势”,不会独立存在,而是绑定到“3.2 用户行为分析”章节下的第4段落。AI调用时可自动关联上下文,确保信息连贯。
如此一来,机器所理解的文档不再是平铺的文字流,而是具备深度与顺序的立体结构。
原生超长上下文:一次性载入完整文档
LongCat2.0支持100万Token的超长上下文,LongCat-Flash-Chat-FP8则支持128K。这意味着模型无需将文档切分再拼接——它能一次性加载整份财报或论文,直接理解目录树、章节跳转和脚注引用链。
结构不再是额外附加的元数据,而是内嵌于长文本流中的自然模式。当模型读到“详见附录B”时,无需额外检索,因为附录B位于当前上下文的末尾,坐标可直接访问。这对于处理动辄上百页的复杂文档而言,是质的飞跃。
多模态对齐:扫描件同样可解析
在扫描件或包含图像的PDF中,纯文本解析极易出错。LongCat-Next的做法是将图像区域(如章节目录截图、流程图边框、表格线)与对应文字Token进行跨模态对齐。OCR识别的标题位置、视觉区块检测和字体特征三者联合投票,相比单纯依靠文字规则更为鲁棒。
即使某页标题被遮挡一半,也能通过相邻页的风格一致性和图像布局,补全层级推测。这相当于为模型赋予了“脑补”能力,使其在信息残缺时仍能做出合理的结构判断。
总之,LongCat AI既不依赖人工标注的模板,也不依靠固定的规则硬性匹配。它将结构视为文档的“语法”,像人类一样从格式、节奏和上下文中学习。这才是文档智能解析应有的姿态。
