聊一个很有意思的情节——在电影《让子弹飞》中,黄四郎手持张麻子的上任证件,满脸狐疑地问道:“这照片是你吗?”张麻子回答:“是我。”黄四郎立刻说:“这就不是你。”张麻子也急了:“我也说这根本就不是我。去照相馆照相,取照片时他们给我这张,我说这不是我,他们说这就是你,我说这不是我!他们说这就是你。没办法,只能贴上去。”
于是,张麻子就这样走马上任了。
这段剧情乍看是搞笑桥段,但细想之下,实则是一幕大型现实魔幻主义场景。如果在现实中,寻找失散多年的亲人、追踪肇事逃逸的罪犯,只能依赖这种易被伪造、模糊不清的信息,那么整个任务便会陷入僵局。

准确鉴定一个人的身份乃至外貌,已成为一个亟待解决的关键社会问题。而目前,最便捷且安全的解决方案,无疑就是DNA技术。
人体内的DNA具有唯一性(同卵双胞胎可能共享相同DNA)和永久性,因此DNA鉴定在权威性与准确性上堪称“黄金标准”,也是全球范围内应用最广、最成熟的犯罪侦查技术之一。此外,DNA信息极难被彻底抹去——一件穿过的衣服、一块嚼过的口香糖、一根脱落的头发,都可能采集到有效样本。试想,如果能根据DNA直接描绘出人的长相,那是不是就能快速锁定关键信息,让亲人团聚的脚步加快、案件侦破的进度提速?
举个例子,不久前备受关注的徐州小花梅事件调查结果公布,通过DNA检验比对确认了杨某侠即小花梅的身份。但网友对比两人照片后,很多人认为模样不像同一个人。在这种情况下,如果能通过DNA预测并生成面部画像,或许就能直观且准确地呈现面貌特征,从而有效说服质疑者。
事实上,基于DNA信息对人类外部可见特征(EVCs)的预测,早已被应用于刑侦身份确认等领域。那么,它究竟是不是寻人缉凶中那颗重开身份迷雾的“银弹”(silver bullet)呢?
DNA to Face,靠谱吗?
在全球范围内,DNA表型都是一种极为重要的刑侦手段。当侦查毫无头绪时,DNA表型可以从个体DNA中提取某些基因来预测面部特征,帮助判断肇事者可能的长相,进一步缩小嫌疑人范围,从而加快调查进程。
对于渴望寻亲的人来说,DNA表型也能帮助他们快速定位出潜在亲人的面貌,排除那些完全不具有相关遗传变异的候选人,助力早日团聚。
具体来说,首先通过分析遗传变异点位SNP,确定身体和面部特征。这些点位差异会影响人体的一系列信息,比如眼睛颜色、头发颜色、年龄、性别、身高、遗传病等。因此,通过比对SNP可以得出一个人的容貌特征数据样本。
然后,基于人工智能算法和深度生成模型,提取与身体特征相关的信息,创建面部图像。为了保证科学性,每个特征往往以准确率百分比的形式呈现。例如,对方可能有88.6%的概率是白人男性,88.3%的概率有褐色眼睛,而有雀斑的概率则仅为22%。
此外,即使案件已经过去多年,DNA表型也能与AI面部识别技术结合,生成对方随时间流逝后的长相,或还原儿童时期的模样。如果一个孩子失踪了几年,那么从孩子的梳子上取下的一缕头发,就可以用来创建一组年龄进展图像。
DNA研究公司Parabon的生物信息学总监Ellen McRae Greytak曾分享过,该公司在过去七年中帮助解决了200多起案件。2015年,哥伦比亚警方就通过现场收集的DNA生成嫌疑人图像,逮捕了一名男子,最终破获了一个四年毫无进展的凶杀案。DNA表型的3D图像显示,凶手应该是一位非洲阿尔及利亚男性,有着橄榄色皮肤、绿色眼睛、丰满嘴唇,很少或没有雀斑。基于DNA生成的图像,结合其他调查信息形成寻人或通缉海报,无疑会让进展事半功倍。
不是银弹,却是尖刀
但在普通人眼中,这项技术好像有点用,又似乎没什么大用。
因为目前DNA技术还无法准确预测多种面貌特征。脸部的形状由数以千计的基因决定,某一处单个特征的标记都可能影响整个面部表现,让脸型从男性化变成女性化。这种模糊性给后续追查带来挑战。
另外,DNA表型只能反映基因遗传特征,不能显示与后天成长环境的相互作用。比如染发、断鼻、掉牙等情况,都可能改变嫌疑人外表,却无法体现在DNA中。所以仅凭DNA不可能预测一个人精准的样子。
还有一点,深度学习模型依赖大规模数据集训练,但目前许多面部识别系统的数据集中,不同种族的面部数据并不均衡。这会导致对不同群体的识别准确度大相径庭,算法准确率低的群体容易被误判和定罪,带来新的不公平。例如2019年基于Hapmap数据集展开的一项DNA表型研究,GLOBAL队列(全球样本)的表现就不如EURO队列(欧洲样本)好。原因之一,就是欧洲人在基因组方面的数据规模更大,模型识别效果更好。
而且无论我们走到哪里,都会留下DNA痕迹——地铁上的一缕头发、咖啡馆里玻璃杯上沾到的唾液。当DNA样本的易得性遇上市场化服务和大规模数据库的应用,这项技术便产生了巨大的隐私风险。
2013年,纽约艺术家希瑟·杜威-哈格堡(Heather Dewey-Hagborg)启动了一个艺术项目“陌生人视角(Stranger Visions)”,从公共场所收集的遗传物质制作肖像雕塑。比如,从一根掉落的烟头里,DNA显示吸烟者是一个东欧血统的男性,眼睛是棕色的。
(2013年1月6日中午12点15分,杜威·哈格堡在纽约收集了一个烟头)
她将这些参数输入算法模型,创建出人脸的3D模型,并用3D打印出雕塑。
不难想象,如果这项技术开始规模化应用,而DNA样本又无处不在,那么很可能你的所有行程、所作所为,都会被扒个底儿掉。
而这一天,已经到来了。目前,很多海外生物机构和科技企业提供类似的服务,比如Greytak、Parabon、Corsight等,Human Longevity早在2017年就曾使用DNA重建面部照片。哥伦比亚警方正是通过Parabon NanoLabs公司开发的程序Snapshot,创建出嫌疑人形象。还有一些简单易用的面部DNA测试应用可以在网上免费下载,帮助人们判断血统、确定亲子关系、寻找亲人。应用程序Face IT DNA,号称可以通过60多个面部点匹配来帮助用户确认关系,只需要进行人脸识别扫描,匹配准确率高达92%。
仅仅人脸识别当然达不到这样高的精度,而且很可能导致你的敏感个人信息泄露。一些公开的DNA数据库也已经建立。GEDMatch就是一个可以免费使用的DNA测试数据库,但用户把自己的DNA档案上传到GEDMatch等网站比对后,相关信息也被美国警方拿到,然后抓捕了一位嫌疑人用户。这种运用不合理手段获取个人基因数据的行为,引发了大量反对,要求GEDMatch限制对平台数据的访问。
面对这些DNA表型存在的现实问题,生物学家和工程师Yves Moreau认为,它就像一把刀——人们低估了它能有多锋利。在向犯罪分子重磅出击的时候,也可能先割伤普通人。
瑕不掩瑜,必不可少
既然DNA表型目前还有很多挑战和不足,那还有研究的必要吗?至少目前来说,作为一种新型的DNA技术,是各国不可回避的领域。
从科学角度看,研究DNA表型能够帮助全人类更了解自己是谁,搞清楚人类的起源和演变。DNA虽然不能精准反映个体的面貌细节,却是一个人生物血统和族裔血统最靠谱的证明。读懂DNA中隐藏的信息,能够了解人类历史过程中的迁移动向、族群选择以及其他随机影响。举个例子,位于Y染色体上的标记只能从父亲传给儿子,因此能够完全反映出父系谱系中(男性)祖先的地理起源。借助DNA表型测试系统,可以大致确定个体血统,并根据地理祖先推断出某些外部可见的特征。像是金发、蓝眼睛和浅色皮肤的人,都至少有一部分欧洲血统。
从国家角度看,目前很多国家也在建设自己的生物识别数据库,这被视为数字治理的重要组成部分。比如印度的Aadhar系统,以及澳大利亚政府正在建立的面部识别系统“The Capability”,可以将监控录像中的人脸和驾驶执照中的图像信息相匹配。未来结合DNA表型预测肇事者的脸,快速从人脸数据库中找到潜在嫌疑人,将不再是难事。建立具有本国国民特征的规模数据库,成为更好地应用人脸识别、深度学习等技术的土壤。正如一些科学家所说,识别的基因数据越多,这种技术就会越准确,进而更好地帮助亲人团聚、更早将犯罪分子绳之以法。
而对于个人来说,今天人脸识别技术已经应用在门禁、安检、移动支付、进出场馆等诸多场合。想象一下,在未来世界里,一个人的外表可以仅从DNA中准确重建出来,那么身份证、护照、社会保障卡等证件或许都不再需要。这会大大提升人脸识别场景的准确度和唯一性。此外,DNA表型的相关算法模型还可以扩展到医学图像(如脑部扫描)与基因的联系,为医疗诊断、遗传分析等提供辅助,帮助研究阿尔茨海默氏症等神经退行性疾病。
无论我们走到哪里,都会留下一些DNA。让这些信息被看见,或许那些不明身份的人,都能够拥有自己的姓名。而作恶的人,也暴露在阳光下。
这就是技术的世界,让一切真实无所遁形。
