利用人工智能实现脑肿瘤早期检测的潜力,早已不是新鲜话题。然而,要将这一潜力真正转化为现实,核心挑战始终明确:数据不足。没有任何一家医疗中心能够独立构建足够庞大且多样化的训练数据集。如今,英特尔与宾夕法尼亚大学佩雷尔曼医学院联合牵头,携手全球29家国际医疗及研究机构,共同推动一项重大举措——借助名为“联邦学习”的隐私保护技术,训练出能够精准识别脑肿瘤的AI模型。美国国立卫生研究院下属的国家癌症研究所已为该计划提供资助,项目总金额达120万美元,为期三年,研究经费直接拨付给宾夕法尼亚大学生物医学图像计算与分析中心的首席研究员Spyridon Bakas博士。
机器学习模型的性能,在很大程度上依赖于数据的广度和多样性。这已是科学界的普遍共识,但单家机构能够获取的数据终究有限。本次联盟规模可观——29家合作机构分别来自美国、加拿大、英国、德国、荷兰、瑞士和印度,他们所要突破的,正是这道数据壁垒。核心解决方案是“联邦学习”:一种分布式机器学习方法。简而言之,各机构的数据保留在本地,不共享原始患者信息,但算法可以“轮转”至各家机构进行学习,最终整合成一个全局模型。这样一来,既保障了敏感数据的安全,又能将分散各地的数据价值有效汇聚。
这项技术并非纸上谈兵。去年,宾夕法尼亚大学医学院与英特尔已在医学影像领域发布相关研究论文,实验结果显示,通过联邦学习训练出的模型,其准确率可达到传统无隐私保护方法的99%以上。该论文最初于2018年在国际医学图像计算与计算机辅助干预会议上发表。新的项目将在这一基础上更进一步,借助英特尔的硬件与软件来落实联邦学习,为模型和数据提供双重隐私保障。
为何非得这么做?数据清晰地表明了其必要性:根据美国脑肿瘤协会的统计,今年预计将有近8万人被确诊为脑肿瘤,其中包含超过4600名儿童患者。早发现、早干预,对于改善预后至关重要。然而,要训练出一个可靠的检测模型,研究团队需要海量的脑部影像数据——而这类数据中,大量属于高度敏感的医疗信息。联邦学习恰好化解了这一两难困境:既能充分利用数据,又无需暴露数据本身。
2020年,该联盟将正式进入实施阶段。他们将采用迄今为止规模最大的脑肿瘤数据集来训练模型,而所有敏感的病患数据均仅保存在各合作机构内部。第一批参与者包括宾夕法尼亚大学医院、圣路易斯华盛顿大学、匹兹堡大学医疗中心、范德比尔特大学、皇后大学、慕尼黑技术大学、伯尔尼大学、伦敦国王学院以及塔塔纪念医院等知名医疗机构。这套由英特尔软硬件支撑的联邦学习方案,将使它们在保障隐私的前提下,协同构建出性能最优的AI模型。
