人工智能技术在医学影像产业的应用与思考
来源:《人工智能》|2020年第003期|
作者:朱森华、章桦
以深度学习( Deep Learning )为核心的第三代人工智能技术的兴起给计算机视觉、自然语言处理、语音识别等领域带来了巨大的技术突破。这些技术突破也逐渐从通用算法研发拓展到了包括医疗、遥感、自动驾驶在内的各种专业学科场景中。 以医疗为例,医疗科室的应用场景非常庞杂,各科室不断通过引进包括人工智能技术在内的各种自动化工具,升级打造满足临床需要的医疗器械产品,成为了科技和商业发展的必然。作为一家拥有众多人工智能发明专利的国家高新医疗企业的算法负责人,笔者在长期跟医院开展医学影像相关的科研合作过程中,对于如何打造既有技术先进性和可行性、又能真实满足临床诉求的医疗科技产品有较为深人的思考。本文以人工智能技术在医学影像领域的应用为切入点,探讨深度学习神经网络的技术特性及产业应用现状,希望能够促进研发人员思考如何能够更好地发挥技术优势去打造满足临床诉求的智能医疗产品,也能够加深临床医生对当前深度学习技术的技术边界的认识。这些观察和思考以点及面地拓展到医疗以外的其它产业场景也有充分的借鉴意义。
以医疗为例,医疗科室的应用场景非常庞杂,各科室不断通过引进包括人工智能技术在内的各种自动化工具,升级打造满足临床需要的医疗器械产品,成为了科技和商业发展的必然。作为一家拥有众多人工智能发明专利的国家高新医疗企业的算法负责人,笔者在长期跟医院开展医学影像相关的科研合作过程中,对于如何打造既有技术先进性和可行性、又能真实满足临床诉求的医疗科技产品有较为深人的思考。本文以人工智能技术在医学影像领域的应用为切入点,探讨深度学习神经网络的技术特性及产业应用现状,希望能够促进研发人员思考如何能够更好地发挥技术优势去打造满足临床诉求的智能医疗产品,也能够加深临床医生对当前深度学习技术的技术边界的认识。这些观察和思考以点及面地拓展到医疗以外的其它产业场景也有充分的借鉴意义。
今天流行于媒体报道的以神经网络为代表的人工智能(Artificial Intelligence,AI )技术名词最早于1956年在达特茅斯会议上被提出,到现在为止已经有60多年的发展历程。深度学习是神经网络技术发展过程中的集大成者。追溯神经网络发展史,神经网络起源于生理和心理学家在神经科学领域中对神经元工作机制的研究和抽象,并随着人类对大脑视觉加工机制的深入研究而不断发展。我们有必要关注和理解神经网络发展史中的几个重要节点:
1943年一位心理学家联合一位数学家根据认知心理学中对人类大脑神经功能的研究而首次抽象出了被称为“人工神经元”的M-P数学模型。1956年8月,一群在人类历史上熠熠生辉的科学家包括约翰·麦卡锡(JohnMcCarthy,计算机科学家)、马文·闵斯基(Marvin Minsky,人工智能与认知学家)、克劳德·香农(Claude Shannon,信息论创始人)等人在美国达特茅斯学院组织了主题为“用机器来模仿人类学习以及其他方面的智能”的研讨会,史称“达特茅斯会议”会议,首次把在讨论的这一揽子可能的技术命名为“人工智能”,由此“人工智能”的概念正式登上历史舞台,因此,1956年亦被称之为“人工智能元年”。1957年又是一位心理学家基于1949年神经心理学家Hebb提出的突触学习模型(史称Hebb定律)实现了被称为“感知机( Perceptron )”的“人工神经网络”的算法和硬件实现,从而标志着AI技术的第一次兴起。这次AI浪潮却在达特茅斯会议成员之一的马文·闵斯基在出版的《感知机》一书总结指出了感知机难以克服计算力瓶颈之后开始跌入低谷,由此开始了第一次长达13年的AI寒冬。1986年,心理学家兼计算机科学家Geoffrey Hinton等实现用误差反向传播(ErrorBackpropagation)算法解决了感知机计算能力瓶颈问题之后宣告AI浪潮第二次兴起。在这次AI热潮中,美国、日本等国都投入了巨大资金抢占AI技术高地,日本更是野心勃勃地试图打造被称为“AI计算机”的第五代计算机。而这次AI浪潮也最终以日本第五代计算机项目失败为标志再次跌入低谷,进入了长达15年的第二次寒冬。这次AI浪潮的失败在于当时在网络模型无法克服多层神经网络训练在反向传播( BackProagation,BP)中的梯度弥散问题。2006年,由Geoffrey Hinton等提出的以深度信念网络( Deep Belief Network,DBN)为代表的深度学习模型及其训练方法,克服了多层神经网络在反向传播训练中的梯度弥散问题。此后,以深度学习神经网络为代表的AI技术开始取得巨大进展。2013年,基于深度学习的语音和视觉识别成功率已分别达到99%和95%,部分任务场景下超越人类,在学术上被认为是标志着第三次AI技术的兴起。2016年,以AlphaGo击败人类顶级围棋选手事件为标志,第三代AI技术的魅力开始引发了全球媒体及产业界的关注,各行业都掀起了AI技术改造的浪潮。
综合来看,深度学习技术的兴起与产业落地是三大技术进步的综合结果,这三大技术分别是基于反向传播的神经网络训练技术的成熟、互联网时代可便利获取用于网络训练的大量数据、以GPU为代表的硬件能够支撑算法训练所需的计算力。技术可行性方面的成熟,让深度学习进一步获得了各国政府和企业的巨量资金加持,进而在学术界和产业界之间形成了相得益彰的相互促进发展生态,AI技术在计算机视觉、自然语言处理、语音识别等领域的成就不断被自我突破,进而形成了今天的繁荣局面。如何在各产业中正确有效地应用AI技术以提升效能,首先需要我们对AI技术的特点和发展阶段有清晰的认识,其次需要我们对具体的产业应用场景有深入的理解。下面我们将以AI技术在医学影像场景中的应用为例,探讨对这些问题的思考。
借鉴视知觉的分层加工机制,深度学习中的卷积神经网络(Convolutional NeuralNework,CNN)设计了以卷积模块为连接核心的多层网络架构,整个网络主要由输入层、多个中间隐含层和输出层三大部分组成。卷积神经网络的可视化研究表明,网络中从浅层到深层的卷积核所学习到的特征,跟视觉加工从简单到抽象的机制相似,分别学习到的是从角点、直线等局部细节特征到更为抽象的纹理、几何形状等高级语义特征。模拟大脑视觉皮层“从局部到整体”加工机制的卷积神经网络在计算机视觉领域最先获得了巨大成功。
需要注意的是,有关人类视知觉加工机制的理论除了“从局部到整体”的假设之外,还存在其它有影响力的视知觉加工理论。中科院生物物理所脑与认知科学国家重点实验室的陈霖院士在近40年前提出了“从整体到局部”的“大范围首先”拓扑视觉加工理论。在陈霖院士的理论和脑功能实证研究中,有证据表明,在传统两条大脑视觉加工通路之外还存在更为快捷的皮层下应急加工通道的假设,而这个假设跟目前深度学习中高速路网络( Highway Net )和残差网络(Residual Net ) 等跨层网络连接的实践是相符合的。尽管当前CNN在通过卷积不断融合局部特征以模拟“从局部到整体”的视知觉加工机制过程中取得了巨大成功,但陈霖院士“从整体到局部”的大范围首先视觉加工理论将来是否会对当前存在缺乏旋转不变性、缺乏空间关系相对性等问题的CNN架构改进起到重大的启发借鉴作用,我们可以拭目以待。也希望有更多的认知神经科学家投入到与AI的交叉研究中来。
Geoffrey Hinton 坚持了30多年建立起当今的“深度学习帝国”。他在深度学习技术上为人工智能领域做出了众多奠基性的贡献,这其中包括“深度学习”这个名词本身,还有应用反向传播以学习网络输入的内部表征、受限玻尔兹曼机、深度置信网络等。但Hinton自今年来以“What is wrong with convolutional neural nets?”为题做了多场报告,他对当前CNN的态度是“我的观点是把它全部抛掉,重头再来”。Hinton清晰地表达了自己要突破当前的深度学习神经网络框架的想法,并于2017年正式发表论文提出了胶囊网络(Capsule Network ) 的理论框架。他向打破深度学习而建立胶囊网络的出发点就在于当前基于反向传播的深度学习机制“不像大脑”,低效而适应性低。
有关CNN的研究测试表明,基于CNN的计算机视觉识别框架存在几个重大问题: 1 )CNN缺乏对检测物体不同组件之间的相对空间关系的理解;2)CNN对图像识别缺乏大幅度的旋转不变性,学习不到3D空间信息;3)基于误差反向传播的神经网络训练机制效率低下,相比于人类只需要看几十个例子就能非常好地习得数字,CNN需要成千上万的训练数据才能较好地区分数字;4 ) Max Pooling 操作丢失了大量有价值的空间位置信息。
2017年,Hinton和 Sabour等人提出的胶囊网络被认为是借鉴了脑科学中的大脑分区理论,该框架模拟地把大脑不同功能区组织成了被称为“胶囊”的模块。这些胶囊擅长处理物体的位置、大小、方向、形变、速度、反照率、色调、纹理等特征,进而通过网络连接形成网络。相较于深度学习,胶囊网络被认为:1 )Capsule可以学习到目标物体中不同组件的空间位置关系;2)Capsule可以对物体的3D空间关系进行明确建模,能较好地实现类似人类视觉的旋转不变性;3 )Capsule可以使用更小的数据集来训练得到媲美CNN的识别结果,更加接近人脑的高效学习能力。
与Hinton努力寻求深度学习框架突破相并行的是,认知神经科学领域的专家也在积极寻求通用人工智能的解决框架。陈霖院士对新一代人工智能的核心基础科学问题也展开了讨论和思考,并基于认知基本单元的理论阐述了认知和计算的关系;美国加州大学洛杉矶分校的朱松纯教授在主题演讲《走向通用人工智能:从大数据到大任务》中分享了他们团队从认知神经科学角度出发,尝试建立的一个“从大数据到大任务”的通用人工智能解决框架。
尽管当前包括胶囊网络等在内的超越深度学习的研究进展尚显缓慢,但相比于用了30多年时间建立的“深度学习帝国”,我们对一个新理论框架的成长需要保持足够的耐心。清醒地认识到当前人工智能技术的不足,并积极向自然智能的研究中去寻求新的理论支撑,必将是AI不断向前发展的动力源泉。
以深度学习为核心的AI技术的兴起给医学影像领域带来先进的技术工具。但目前无论技术本身还是临床应用,都还有很多局限性需要克服。需要算法研发、产业应用、国家监管、数据与模型标准化等多方面的协同才能更好地促进AI技术在产业中的发展应用。