这位学者尖锐指出了现有Tokenizer系统的不足。他以具体案例说明,即便是视觉上相同的字符,在不同编码方式下也可能被模型识别为截然不同的标记——就连表情符号都会被简化为抽象标识,而非保留其视觉实体特征。这种处理机制不仅割裂了视觉信息的完整性,还沿袭了大量历史编码遗留的冗余设计。
科技企业家埃隆·马斯克的参与将讨论推向了更高维度。他断言未来AI模型的输入输出将有超过99%采用光子形式,并从宇宙学视角给出解释:可观测宇宙中光子密度高达每立方厘米410个,仅宇宙微波背景辐射所贡献的光子数量就达到1.5×10⁸⁹个。这种数量级的绝对优势,使光子成为最具扩展潜力的信息载体。
马斯克进一步指出,相较于宇宙微波背景辐射,恒星辐射等其他光源贡献的光子数量几乎可以忽略不计。这种物理层面的数量级差异,构成了他认定光子将主导AI未来发展的核心依据。这场跨越计算机视觉、自然语言处理和宇宙学的跨界讨论,正在重塑人们对AI信息处理模式的认知边界。
