产品中心

【神麻人智】深度神经网络可通过一系列分析视频准确检测失血量和判断出血控制成功与否
首页 > 产品中心 > 食品加工
来源:开云全站app    发布时间:2024-06-12 04:21:40

  【神麻人智】深度神经网络可通过一系列分析视频准确检测失血量和判断出血控制成功与否

  我们报道了一种新的DNN流程,它从尸体训练练习中提取视频信息,并准确地定量内镜鼻内手术中BL和判断出血控制的成功与否。

  计算机视觉(Computer vision, CV)是计算机科学的一个分支,它可以被用于对图像和视频信息的分析,非常适合于帮助分析每天记录的大量神经外科视频。如果被系统地分析,视频可能会产生有价值的信息来为手术评估、手术培训和临床决策提供帮助。到目前为止,使用CV来对手术视频做多元化的分析仅限于识别屏幕上的器械或确认手术过程的步骤。目前尚不清楚CV方法是否能通过视频来预测临床相关结果。

  我们先前已经验证了一种基于尸体的用于管理颈内动脉(internal carotid artery, ICA)损伤修复的模拟分析,并且已经证明从这个训练中开发的数据集是神经外科数据科学应用的理想测试平台。

  在本项研究中,我们的主要目标是利用基于数据库的内窥镜经鼻入路手术的视频和深度神经网络(deep neural networks,DNNs)开发基于CV的流水线,以准确预测具临床意义的指标(测量的失血量[BL]和任务是否成功)。BL测量和任务成功分类在临床和评估工具方面都具有实用价值,我们的工作是首个被应用于神经外科视频的可预测具有临床相关性结果的研究,可证实CV价值的端到端流水线。

  我们的次要目标是分析DNN在有或无手动创建的器械类型和器械是否在画面中标注的情况下的表现,以进一步了解深度学习技术被应用于神经外科视频分析时可能实现的优化水平。这些工作有助于促进对基于视频的自动化手术评估技术的开发。

  曾经被用于 2017 年至 2020 年间全国培训课程(SOCAL)的经验证的高保真模拟器被用来教授外科医生怎么样处理 颈内动脉医源性撕裂,这是一种罕见但危及到生命的经鼻内镜手术并发症。对于每个模拟,在准备好鼻腔手术入路后,尸体头部标本被灌注了人造血液替代品,对 ICA 造成了故意伤害,并在每个模拟会线分钟模拟时间内尝试两次处理动脉破口:一次是在接受任何指导之前,一次是在专家指导之后。在 ICA 损伤中实现持续止血的一种公认方法是在损伤部位放置一块肌肉瓣。因此,将肌肉成功放置在伤口上被认为是一次成功的尝试。这种尸体模拟已被验证为具有极高的实用性并可被转化并应用于手术室。设置参与者的人口统计资料和表现的详情信息之前已发布。这项研究得到了我们机构的机构审查委员会的批准。

  来自这一全国性教育干预的视频采用用边框法手动按先前发表的方法对手术器械进行勾勒。结合测试视频记录,我们记录了每个参与者的“结果数据”(如BL和任务成功程度)和人口统计学数据(如训练状态和信心)。在试验结束时,通过计量吸引管罐中的血液体积(mL)来测量BL。这些视频从每秒30帧(fps)降采样到1 fps,并使用开源注释软件VoTT(微软公司)以边界框的方式来进行标注。所有标注的框架都以人工审核的方式来进行质量控制。对器械缺失或标记错误的框架进行了重新标注和纠正。这组带标注的视频和相应的性能数据被称为颈内动脉撕裂伤后的模拟结果(SOCAL)视频数据集,可在公开获得。

  我们的模型在概念上可大致分为两个部分:特征生成和时序分析,每个部分都使用独立的卷积神经网络(CNNs)方法来预测BL(mL)和任务成功。

  卷积神经网络(CNNs)是一类深度学习网络,很适合用于图像分析。个人会使用在ImageNet 2012分类数据集上训练的预训练ResNet模型作为特征生成的基线模型。ResNet是一种特殊的CNN,可用于处理训练非常深度的DNNs 中面临的困难,并已在通过图像分析提取重要的空间信息的深度学习架构中都会存在。ImageNet是一个预先制作好的图像库,可用于训练许多CV模型。来自SOCAL的19个帧先被传递到一个经过训练的ResNet模型中,以识别与测量BL和任务成功相关的特征。然后将生成的特征传递到下述的时序模型中。

  长短期记忆(LSTM)是一种对时间数据的分析特别有用的循环神经网络。一个LSTM单元包含一个神经元、输入、输出和消除门,它允许网络调节怎么样去使用来自前一神经元的信息来影响当前神经元的输出。基于LSTM的网络已被用于开发能从短视频片段中识别手术阶段的模型。

  总共开发了4个独特的模型:一个可预测操作是否成功的自动模型,一个可预测BL的自动模型,一个可预测操作成功的半自动模型,以及一个可预测BL的半自动模型。对于所有的模型,我们训练了一个可从单帧画面中预测结果的特征生成器(修改后的ResNet;附录A,地址)。然后,将此第一个模型对单一试验的每一帧的输出作为输入量输入到第二个LSTM模型中,以预测该试验的结果(自动模型)(图1)。半自动模型模拟了自动化模型的体系结构,但它不仅包含(1)我们的特征生成模型的输出,与自动化模型不同的是,它还包含了(2)关于图像中是不是真的存在工具的信息,这一些信息被以二元制矩阵的形式输入(由于需要手动标注,故命名为半自动)。

  来自SOCAL的20次试验被留作测试数据(10次成功,10次失败)。剩下的123次试验被用于训练。所有展示的评价都是测试数据的结果。模型实现的细节,包括实验再现性的损失函数,见附录A,。

  我们感兴趣的是我们的深度学习模型与BL预测的基线模型相比的性能。使用两个对照:一个对照简单地预测每个试验的BL并获得整体的平均BL(称为控制1)来说明BL预测的下界;另一个对照被代入一个简单的线性模型来预测仅使用止血时间作为输入变量情况下的出血量(称为控制2)。在我们的任务中,由于试验持续的时间越长,出血的可能性就越大,止血时间(秒)是一个与BL很好地相关的指标。因此,任何有价值的高级模型均需优于这个简单但具高度预测性的模型。

  我们使用模型预测的BL输出与实际记录的BL的均方差(RMSE)来衡量模型的性能。考虑到手术长度和BL之间的强关联,对于基线模型,我们从仅使用止血时间来预测BL的模型中来确定R2。

  共使用了SOCAL数据中的143次试验。完整的实施表现和模型结果见表。这些试验被分成,包括123个用于训练模型的试验,其表现如下:84次成功尝试(68%),平均BL:407 mL(范围10-1594 mL),平均试验时长:192秒。20次试验被用以评估模型(测试数据),其性能标准为:10次成功尝试(50%),平均BL:758 mL(范围:71-1885 mL),平均试验时长为244秒。

  对照1:使用整个队列的平均BL作为每个试验的BL预测值,其RMSE为459(R2 = 0)。对照2:预测BL的RMSE为431 mL,R2为0.3。一个选择最大有可能的结果(成功)的朴素量估计将在测试数据上达到50%的准确性。

  两种DNN模型的表现都优于两种对照模型(图2)。使用测试数据,自动化(仅图像)模型的RMSE为358 mL(R2= 0.4),准确预测成功或失败的准确率为85%。半自动化模型(带有工具定位的图像)是表现最好的模型,其RMSE为260 mL(R2 = 0.7),并在90%的试验中准确预测了任务成功。

  随着内窥镜、外视镜和具有记录能力的显微镜在手术室中被应用得越来越普遍,对手术视频的严格分析能够给大家提供对外科技能、手术技术和手术相关护理的临床相关方面的独特视角。先前在术中视频分析领域的工作大多分布在在识别手术阶段或手术视野中的器械方面。在本项工作中,我们描述了一种端到端CV流程,该系统通过视频获取信息,可在经鼻内镜神经外科手术中准确预测模拟的出血事件中的BL和任务成功率。添加器械的存在数据能大大的提升模型的性能。在本讨论中,我们将探讨CV和DNN在视频分析方面的影响,并讨论在没有额外的临床输入(如器械标注)的情况下,这些技术的优点和缺陷。

  本研究开发的DNN模型优于对照模型,并能从手术视频中准确预测BL和任务成功。测量的两种结果(BL和任务成功)都显示了CV和DNN在预测临床有价值指标上的潜力。准确、实时的出血量估计是手术中一个重要的方面;通过更准确的估计出血量能够最终靠更优化地进行血容量置换和避免过度输血的并发症来改善患者的预后。在产科病例中,CV模型通过一系列分析手术纱布图像可以准确估计BL,并进一步影响产科输血率。在我们的模型中,提示活动性BL的视觉线索,如损伤部位出血或视野完全被血液占据,都可能被ResNet的许多卷积层所捕获。在屏幕上的量化流是一项CV特有的有助于回答问题的工作。此外,对照组模型(对照组2)是一个相当简单的模型,仅使用试验的时长(止血时间或5分钟)来预测BL,这突出了一个相当强的预期相关性(R2= 0.3)。虽然比较的理想对照是由训练有素的神经外科医生在观看这些试验后获得的BL预测,但在使用我们的深度学习模型时观察到的准确性的提高表明,该模型可能捕获了只包含在与BL相关的视频中的特征(颜色、轮廓等)。

  其次,我们的DNN模型显示出识别成功和不成功试验的稳健的能力。在我们的训练练习中,任务的成功被定义为在不到5分钟(300秒)内用肌肉瓣实现最终的止血。两种DNN模型都表现出了预测任务成功与否的强大能力(自动化模型85%,半自动化模型90%)。预测外科医生能否有效地完成一项给定任务是有价值的,因为,对那些罕见的并发症(如颈内动脉损伤),外科医生可能在他们的培训中从未处理过该项任务,受训者也在大多数情况下要额外的帮助。这项工作可能会推动基于CV和基于DNN的安全机制的逐步发展,该机制可以识别特定的手术场景,并为手术团队提供支持或预警。

  考虑到获取和确认标注的时间和成本,最小化手动标注数据的DNN模型是令人鼓舞的。在我们的实验中,我们开发了2个使用DNN的模型——一个只包含图像(自动模型),另一个同时包含图像和帧中手动标注的手术器械存在(半自动模型)。自动化模型的结果能通过最小的预处理和数据集开发来实现。虽然无标注的CV有可能降低进入机器学习的障碍,但我们的实验中强调了许多需要讨论的缺陷。

  首先,从我们的研究结果中可以清楚地看出,虽然没有标注的深度学习模型可能优于某些基线对照,但它的总体预测能力是有限的。通过在DNN模型中添加了器械标注,使性能提高了近30%,这表明在这两种输入类型中均包含了重要的信号。此外,该模型显示了训练和测试结果之间的方差最小(表),这可能对能否将将我们的结果外推到外部数据集上有重要影响。这些发现表明,与手术视频相结合的额外输入层,如音频流、模拟生命体征和外科医生的生物识别技术,能更加进一步提高模型的性能。一些研究小组已经对术中视频和音频的自动捕获以及外科医生术中心率变化的作用表现出关注。这些额外的输入通道可能会提取那些最初未被确定为重要,但对结果预测很重要的信息(一项很适合神经网络的任务)。

  其次,将DNN模型的输入转换为输出的操作被视为一个黑匣子,这使得很难确定模型是如何做出预测的。临床“知识”的输入(例如,在屏幕上标定手术器械)允许某些特定的程度的可释性和对模型的工作原理进行更彻底的评估,并有助于防止对人工干扰的采集。此外,随着机器学习模型逐渐被纳入临床实践,临床医生不仅需要预测能力,而且需要理解模型如何得出结论,而这只有通过某些特定的程度的人工输入(例如边界框)才能实现。

  尽管较少标注的深度学习存在一定缺陷,但作者相信它在外科数据科学流水线中有其价值。使用无标注的方法来建立基线模型并确定数据集中的固有的信号是合理的。这一些方法可能有助于确定多元数据的优先级,或确定一个临床问题是不是可以从数据中得到回答。从那时起,就可以将适当的时间、资源和精力用于开发复杂的标注系统,并期望其结果能带来显著的性能提高。

  这项研究有许多局限性。DNN的一个局限性是,这些模型作为黑匣子,使得确定视频帧内有助于成功预测结果的确切特征较为困难。利用显著性图和注意层来提高DNN的可解释性,能增加这些预测的透明度和把握度。其次,虽然所提出的模型优于其他简单的线性回归算法,但在临床相关性的背景下的效应值是不确定的。后续的模型可以纳入有临床意义的对照(如外科医生分级)或确定在给定画面中是否有出血量相关的显著特征(如活动性出血)。此外,尽管尸体模型之前已被验证为具有较高的外在表现和结构效度,但它们最终是在训练练习环境中进行的,可能在外推到真实术中场景时价值有限。此外,进一步的数据增强技术、额外的层,探索不同的时序模型结构和对象识别模型可以产生更佳的结果。最后,为了获得真正的临床相关性,这些模型需要与专业的人建议进行比较。

  我们报道了一种新的DNN流程,它从尸体训练练习中提取视频信息,并准确地定量内镜鼻内手术中BL和判断出血控制的成功与否。我们上面所列举的方法和具有不一样数据准备量的端到端模型为将来该技术领域的发展提供了一定基础,但在将术中视频进一步应用于其他临床场景前,还需进一步的研究。

  计算机视觉是AI领域的一个重要分支,简单来说,它要解决的问题就是:让计算机看懂图像或者视频里的内容,对手术视频以及图像的分析则是一个计算机视觉领域与医学领域交叉的一个学科,研究人员已经将许多在计算机视觉领域中的成功办法来进行改进并应用到这一领域中,使CV被成功应用于手术过程并发挥辅助手术的功能成为可能。

  卷积神经网络作为最重要的网络模型之一,已经在多个领域被大范围的应用,如光学字符识别、人脸识别、图像分类等。卷积神经网络属深层结构,其基本组成包括输入层、卷积层、池化层、全连接层等;输入层的主要任务是对图像信息进行读取和标准化,卷积层则对特征进行提取,接着由池化(pooling)层对特征图进行压缩,提取其主要特征,以降低网络计算的复杂性,全连接层则对局部信息进行整合并输出。卷积神经网络在本研究中大多数都用在出血量和止血成功与否的相关特征提取,其结果被输入到此后的时序模型(长短期记忆LSTM)中,利用LSTM 网络提取手术视频中的时序信息,最后输出结果。

  本研究采用视频对深度神经网络进行了训练,构建了2个DNN模型(自动和半自动),研究之后发现深度网络模型可被用于对训练场景下模拟处理颈内动脉(ICA)损伤效果的分析,可有效预测失血量,评估止血成功率,其效能要优于对照模型。研究的结果证实:计算机视觉和深度神经网络不仅可用于手术工具的识别和手术进程的识别,还可被用来对手术结果进行预测,从某种角度而言,这开启了对神经外科术中视频处理的一个新的思路,但正如作者所言,进一步的数据增强技术、额外的层,探索不同的时序模型结构和对象识别模型可以产生更佳的结果,在将其运用到真正的临床场景前,还有很多工作要做。