用于实时处理医学图像的系统和方法专利检索-乐器声学专利检索查询-专利查询网

IPRDB

API 数据接口

专利申请

使用指引 chat嘟嘟

会员体验

联系我们

交流群

现在联系顾问~

用于实时处理医学图像的系统和方法
申请号	CN202280052703.1	申请日	2022-07-04	公开(公告)号	CN117836870A	公开(公告)日	2024-04-05
申请人	AI瓦力股份有限公司;			发明人	阿扎尔·阿扎德; 熊博; 大卫·阿姆斯特朗; 方淇音; 大卫·弗利特; 米查·利夫尼;
摘要	本文描述了用于分析在医疗诊断过程中获得的图像和语音的系统的各种实施例，以使用具有至少一个感兴趣对象(OOI)的一个或多个图像的注释数据和分类来自动生成注释图像，其中注释数据包括根据用户对具有至少一个OOI的一个或多个图像进行注释所提供的语音生成的文本。
权利要求	1.一种用于分析医疗过程的医学图像数据的系统，其中所述系统包括：非暂时性计算机可读介质，其上存储有用于分析所述医疗过程的医疗图像数据的程序指令；和至少一个处理器，其在执行所述程序指令时被配置为：接收一系列图像中的至少一个图像；确定何时所述至少一个图像中存在至少一个感兴趣对象(OOI)，并且当存在至少一个OOI时，确定所述至少一个OOI的分类，其中使用至少一个机器学习模型来执行所述两个确定；在所述医疗过程期间在显示器上向用户显示所述至少一个图像和任何确定的OOI；在所述医疗过程期间从所述用户接收包括语音的输入音频信号，并识别所述语音；当所述语音在所述医疗过程期间被识别为对所述至少一个图像的注释时，使用语音到文本转换算法将所述语音转换为至少一个文本串；将所述至少一个文本串与提供来自所述用户的语音的至少一个图像相匹配；和生成将所述至少一个文本串链接到相应的至少一个图像的至少一个注释图像。 2.根据权利要求1所述的系统，其中所述至少一个处理器还被配置为，当所述语音被识别为具有与所述至少一个OOI以相同分类而分类的OOI的至少一个参考图像的请求时，显示所述至少一个参考图像，并从所述用户接收确认或否定所述至少一个OOI的分类的输入。 3.根据权利要求1或权利要求2所述的系统，其中所述至少一个处理器还被配置为，当所述至少一个OOI被分类为可疑时，从所述用户接收指示针对具有未确定OOI的至少一个图像的用户分类的输入。 4.根据权利要求1至3中任一项所述的系统，其中所述至少一个处理器还被配置为自动生成包括所述至少一个注释图像的报告。 5.根据权利要求1至4中任一项所述的系统，其中所述至少一个处理器还被配置为，对于给定图像中的给定OOI：识别与所述给定图像中的给定OOI相关联的边界框的边界框坐标；基于所述给定OOI的分类的概率分布来计算置信度得分；和当所述置信度得分高于置信度阈值时，在所述边界框坐标处将边界框覆盖在所述至少一个图像上。 6.根据权利要求1至5中任一项所述的系统，其中所述至少一个处理器被配置为通过以下方式确定OOI的分类：通过执行卷积、激活和池化操作将卷积神经网络(CNN)应用于所述OOI以生成矩阵；通过使用所述卷积、激活和池化操作处理所述矩阵来生成特征向量；和基于所述特征向量来执行所述OOI的分类。 7.根据权利要求1至6中任一项所述的系统，其中所述至少一个处理器还被配置为在生成所述至少一个注释图像时将时间戳覆盖在相应的至少一个图像上。 8.根据权利要求4至7中任一项所述的系统，其中所述至少一个处理器还被配置为在显示器上或在所述报告中实时指示所述至少一个图像的置信度得分。 9.根据权利要求1至8中任一项所述的系统，其中所述至少一个处理器被配置为在所述医疗过程期间通过以下方式接收所述输入音频：在检测到第一用户动作时启动从所述用户接收用于输入音频的音频流，所述第一用户动作包括：暂停所述一系列图像的显示；拍摄所述一系列图像中的给定图像的快照；或提供初始语音命令；和在检测到第二用户动作时结束对所述音频流的接收，所述第二用户动作包括：在预定的长度内保持沉默；按下指定的按钮；或提供最终语音命令。 10.根据权利要求1至9中任一项所述的系统，其中所述至少一个处理器还被配置为在所述医疗过程期间接收所述输入音频时存储所述一系列图像，从而指定所述至少一个图像接收注释数据，以生成相应的至少一个注释图像。 11.根据权利要求4至10中任一项所述的系统，其中所述至少一个处理器还被配置为通过以下方式生成所述医疗过程的报告：捕获要添加到所述报告的一组患者信息数据；加载包括所述至少一个注释图像的一系列图像的子集；和将所述一组患者信息数据与包括所述至少一个注释图像的一系列图像的子集组合到所述报告中。 12.根据权利要求1至11中任一项所述的系统，其中所述至少一个处理器还被配置为通过以下方式执行对所述至少一个机器学习模型的训练：将编码器应用于至少一个训练图像，以生成用于所述至少一个训练图像中的训练OOI的至少一个特征向量；通过将所述至少一个特征向量应用于所述至少一个机器学习模型来选择用于所述训练OOI的类；和使用解码器，通过将所述至少一个特征向量与所述至少一个训练图像和用于训练所述至少一个机器学习模型所选择的类相关联来重构标记的训练图像。 13.根据权利要求12所述的系统，其中所述类是健康组织类、不健康组织类、可疑组织类或未聚焦组织类。 14.根据权利要求12或权利要求13所述的系统，其中所述至少一个处理器还被配置为：使用训练数据集来训练所述至少一个机器学习模型，所述训练数据集包括标记的训练图像、未标记的训练图像或标记的和未标记的训练图像的混合，所述图像包括按健康组织、不健康组织、可疑组织和未聚焦组织分类的示例。 15.根据权利要求12至14中任一项所述的系统，其中所述至少一个处理器还被配置为通过使用监督学习、无监督学习或半监督学习来训练所述至少一个机器学习模型。 16.根据权利要求14或权利要求15所述的系统，其中所述训练数据集还包括所述不健康组织和所述可疑组织中的每一个的子类别。 17.根据权利要求12至16中任一项所述的系统，其中所述至少一个处理器还被配置为通过以下方式创建所述至少一个机器学习模型：接收训练图像作为对所述编码器的输入；使用所述编码器将所述训练图像投影到作为特征空间的一部分的特征中；使用分类器将所述特征映射到一组目标类；识别所述训练图像的形态特征以生成新的训练数据集，所述新的训练数据集具有将参数链接到所述训练图像的数据；和基于所述形态特征来确定存在一个或多个映射类还是不存在映射类。 18.根据权利要求17所述的系统，其中所述至少一个处理器还被配置为通过以下方式确定所述至少一个OOI的分类：接收所述特征中的一个或多个作为对所述解码器的输入；使用反卷积神经网络将所述特征之一映射到未标记的数据集上；和使用所述解码器从所述特征之一重构新的训练图像，以训练所述至少一个机器学习模型。 19.根据权利要求1至18中任一项所述的系统，其中所述至少一个处理器还被配置为使用语音数据集来训练所述语音到文本转换算法，所述语音数据集包括地面实况文本和所述地面实况文本的音频数据，以将新的音频数据与所述语音集进行比较，从而识别与所述地面实况文本的匹配。 20.根据权利要求1至19中任一项所述的系统，其中所述语音到文本转换算法将所述至少一个OOI映射到多个OOI医学术语中的一个。 21.根据权利要求1至20中任一项所述的系统，其中所述医学图像数据是从一个或多个内窥镜检查过程、一个或多个MRI扫描、一个或多个CT扫描、一个或多个X射线、一个或多个超声波检查、一个或多个核医学图像或一个或多个组织学图像获得的。 22.一种用于训练至少一个机器学习模型以用于分析医疗过程的医学图像数据和语音到文本转换算法的系统，其中所述系统包括：非暂时性计算机可读介质，其上存储有用于训练所述机器学习模型的程序指令；和至少一个处理器，其在执行所述程序指令时被配置为：将编码器应用于至少一个训练图像，以生成所述至少一个培训图像中的训练感兴趣对象(OOI)的至少一个特征；通过将所述至少一个特征应用于所述至少一个机器学习模型来选择用于所述训练OOI的类；使用解码器，通过将所述至少一个特征与所述训练图像和用于训练所述至少一个机器学习模型所选择的类相关联来重构标记的训练图像；训练所述语音到文本转换算法，以使用包括所述地面实况文本和所述地面实况文本的音频数据的语音数据集来识别新的音频数据和所述地面实况文本之间的匹配，从而生成至少一个文本串；和将所述训练OOI和所述至少一个文本串覆盖在注释图像上。 23.根据权利要求22所述的系统，其中所述类是健康组织类、不健康组织类、可疑组织类或未聚焦组织类。 24.根据权利要求22或权利要求23所述的系统，其中所述至少一个处理器还被配置为：使用训练数据集来训练所述至少一个机器学习模型，所述训练数据集包括标记的训练图像、未标记的训练图像或标记的和未标记的训练图像的混合，所述图像包括按健康组织、不健康组织、可疑组织和未聚焦组织分类的示例。 25.根据权利要求22至24中任一项所述的系统，其中所述至少一个处理器还被配置为通过使用监督学习、无监督学习或半监督学习来训练所述至少一个机器学习模型。 26.根据权利要求24或权利要求25所述的系统，其中所述训练数据集还包括所述不健康组织和所述可疑组织中的每一个的子类别。 27.根据权利要求22至26中任一项所述的系统，其中所述至少一个处理器还被配置为通过以下方式创建所述至少一个机器学习模型：接收训练图像作为对所述编码器的输入；使用所述编码器将所述训练图像投影到包括特征的特征空间中；使用分类器将所述特征映射到一组目标类；识别所述训练图像的形态特征以生成训练数据集，所述训练数据集具有将参数链接到所述训练图像的数据；和基于所述形态特征来确定存在一个或多个映射类还是不存在映射类。 28.根据权利要求22至27中任一项所述的系统，其中所述至少一个处理器还被配置为：接收所述特征中的一个或多个作为对所述解码器的输入；使用反卷积神经网络将所述特征之一映射到未标记的数据集上；和使用所述解码器从所述特征之一重构新的训练图像，以训练所述至少一个机器学习模型。 29.根据权利要求22至28中任一项所述的系统，其中所述语音到文本转换算法将所述至少一个OOI映射到多个OOI医学术语中的一个。 30.根据权利要求22至29中任一项所述的系统，其中所述至少一个处理器还被配置为：当基于产生与所述至少一个文本串匹配的输入音频的所述语音到文本转换算法确定与所述OOI相关联的至少一个文本串是所述OOI的地面实况时，从在分析所述医学图像数据时检测到的感兴趣对象(OOI)生成至少一个新的训练图像。 31.根据权利要求22至30中任一项所述的系统，其中所述至少一个处理器还被配置为：当基于产生与所述至少一个文本串匹配的输入音频的所述语音到文本转换算法确定与所述OOI相关联的至少一个文本串不是所述OOI的地面实况时，从在分析所述医学图像数据时检测到的感兴趣对象(OOI)生成至少一个新的训练图像。 32.根据权利要求22至31中任一项所述的系统，其中对从一个或多个内窥镜检查过程、一个或多个MRI扫描、一个或多个CT扫描、一个或多个X射线、一个或多个超声波检查、一个或多个核医学图像或一个或多个组织学图像获得的医学图像数据执行训练。 33.一种用于分析医疗过程的医学图像数据的方法，其中所述方法包括：接收一系列图像中的至少一个图像；确定何时所述至少一个图像中存在至少一个感兴趣对象(OOI)，并且当存在至少一个OOI时，确定所述至少一个OOI的分类，其中使用至少一个机器学习模型来执行所述两个确定；在所述医疗过程期间在显示器上向用户显示所述至少一个图像和任何确定的OOI；在所述医疗过程期间从所述用户接收包括语音的输入音频信号，并识别所述语音；当所述语音在所述医疗过程中被识别为对所述至少一个图像的注释时，使用语音到文本转换算法将所述语音转换为至少一个文本串；将所述至少一个文本串与提供来自所述用户的语音的至少一个图像相匹配；和生成将所述至少一个文本串链接到相应的至少一个图像的至少一个注释图像。 34.根据权利要求33所述的方法，还包括：当所述语音被识别为包括对具有所述分类的至少一个参考图像的请求时，显示具有与所述至少一个OOI以相同分类而分类的OOI的所述至少一个参考图像，并从所述用户接收确认或否定所述至少一个OOI的分类的输入。 35.根据权利要求33或34所述的方法，还包括：当所述至少一个OOI被分类为可疑时，从所述用户接收指示针对具有未确定OOI的至少一个图像的用户分类的输入。 36.根据权利要求33至36中任一项所述的方法，还包括：自动生成包括所述至少一个注释图像的报告。 37.根据权利要求33至36中任一项所述的方法，还包括：对于给定图像中的给定OOI：识别与所述给定图像中的给定OOI相关联的边界框的边界框坐标；基于所述给定OOI的分类的概率分布来计算置信度得分；和当所述置信度得分高于置信度阈值时，在所述边界框坐标处将边界框覆盖在所述至少一个图像上。 38.根据权利要求33至37中任一项所述的方法，其中确定所述OOI的分类包括：通过执行卷积、激活和池化操作将卷积神经网络(CNN)应用于所述OOI以生成矩阵；通过使用所述卷积、激活和池化操作处理所述矩阵来生成特征向量；和基于所述特征向量来执行所述OOI的分类。 39.根据权利要求33至38中任一项所述的方法，还包括：在生成所述至少一个注释图像时将时间戳覆盖在相应的至少一个图像上。 40.根据权利要求33至39中任一项所述的方法，还包括：在显示器上或在所述报告中实时指示所述至少一个图像的置信度得分。 41.根据权利要求33至40中任一项所述的方法，其中在所述医疗过程期间接收所述输入音频包括：在检测到第一用户动作时启动从所述用户接收用于输入音频的音频流，所述第一用户动作包括：暂停所述一系列图像的显示；拍摄所述一系列图像中的给定图像的快照；或提供初始语音命令；和在检测到第二用户动作时结束对所述音频流的接收，所述第二用户动作包括：在预定的长度内保持沉默；按下指定的按钮；或提供最终语音命令。 42.根据权利要求33至41中任一项所述的方法，还包括：在所述医疗过程期间接收所述输入音频时存储所述一系列图像，从而指定所述至少一个图像接收注释数据，以生成相应的至少一个注释图像。 43.根据权利要求33至42中任一项所述的方法，还包括通过以下方式生成所述医疗过程的报告：捕获要添加到所述报告的一组患者信息数据；加载包括所述至少一个注释图像的一系列图像的子集；将所述一组患者信息数据与包括所述至少一个注释图像的一系列图像的子集组合到所述报告中。 44.根据权利要求33至43中任一项所述的方法，还包括：通过以下方式执行对所述至少一个机器学习模型的训练：将编码器应用于至少一个训练图像，以生成用于所述至少一个训练图像中的训练OOI的至少一个特征向量；通过将所述至少一个特征向量应用于所述至少一个机器学习模型来选择用于所述训练OOI的类；和使用解码器，通过将所述至少一个特征向量与所述至少一个训练图像和用于训练所述至少一个机器学习模型所选择的类相关联来重构标记的训练图像。 45.根据权利要求44所述的方法，其中所述类是健康组织类、不健康组织类，可疑组织类或未聚焦组织类。 46.根据权利要求44或权利要求45所述的方法，还包括：使用训练数据集来训练所述至少一个机器学习模型，所述训练数据集包括标记的训练图像、未标记的训练图像或标记的和未标记的训练图像的混合，所述图像包括按健康组织、不健康组织、可疑组织和未聚焦组织分类的示例。 47.根据权利要求44至46中任一项所述的方法，其中训练所述至少一个机器学习模型包括使用监督学习、无监督学习或半监督学习。 48.根据权利要求46或权利要求47所述的方法，其中所述训练数据集还包括所述不健康组织和所述可疑组织中的每一个的子类别。 49.根据权利要求44至48中任一项所述的方法，还包括：通过以下方式创建所述至少一个机器学习模型：接收训练图像作为对所述编码器的输入；使用所述编码器将所述训练图像投影到作为特征空间的一部分的特征中；使用分类器将所述特征映射到一组目标类；识别所述训练图像的形态特征以生成新的训练数据集，所述新的训练数据集具有将参数链接到所述训练图像的数据；和基于所述形态特征来确定存在一个或多个映射类还是不存在映射类。 50.根据权利要求49所述的方法，其中确定所述至少一个OOI的分类包括：接收所述特征中的一个或多个作为对所述解码器的输入；使用反卷积神经网络将所述特征之一映射到未标记的数据集上；和使用所述解码器从所述特征之一重建新的训练图像，以训练所述至少一个机器学习模型。 51.根据权利要求43至50中任一项所述的方法，还包括：使用语音数据集来训练所述语音到文本转换算法，所述语音数据集包括地面实况文本和所述地面实况文本的音频数据，以将新的音频数据与所述语音集进行比较，从而识别与所述地面实况文本的匹配。 52.根据权利要求43至51中任一项所述的方法，其中所述语音到文本转换算法将所述至少一个OOI映射到多个OOI医学术语中的一个。 53.根据权利要求33至52中任一项所述的方法，其中所述医学图像数据是从一个或多个内窥镜检查过程、一个或多个MRI扫描、一个或多个CT扫描、一个或多个X射线、一个或多个超声波检查、一个或多个核医学图像或一个或多个组织学图像获得的。 54.一种用于训练至少一个机器学习模型以用于分析医疗过程的医学图像数据和语音到文本转换算法的方法，其中所述方法包括：将编码器应用于至少一个训练图像，以生成所述至少一个培训图像中的训练感兴趣对象(OOI)的至少一个特征；通过将所述至少一个特征应用于所述至少一个机器学习模型来选择用于所述训练OOI的类；使用解码器，通过将所述至少一个特征与所述训练图像和用于训练所述至少一个机器学习模型所选择的类相关联来重构标记的训练图像；训练所述语音到文本转换算法，以使用包括所述地面实况文本和所述地面实况文本的音频数据的语音数据集来识别新的音频数据和所述地面实况文本之间的匹配，从而生成至少一个文本串；和将所述训练OOI和所述至少一个文本串覆盖在注释图像上。 55.根据权利要求54所述的方法，其中所述类是健康组织类、不健康组织类、可疑组织类或未聚焦组织类。 56.根据权利要求54或权利要求55所述的方法，还包括：使用训练数据集来训练所述至少一个机器学习模型，所述训练数据集包括标记的训练图像、未标记的训练图像或标记的和未标记的训练图像的混合，所述图像包括按健康组织、不健康组织、可疑组织和未聚焦组织分类的示例。 57.根据权利要求54至56中任一项所述的方法，其中训练所述至少一个机器学习模型包括使用监督学习、无监督学习或半监督学习。 58.根据权利要求56或权利要求57所述的方法，其中所述训练数据集还包括所述不健康组织和所述可疑组织中的每一个的子类别。 59.根据权利要求54至58中任一项所述的方法，还包括：通过以下方式创建所述至少一个机器学习模型：接收训练图像作为对所述编码器的输入；使用所述编码器将所述训练图像投影到包括特征的特征空间中；使用分类器将所述特征映射到一组目标类；识别所述训练图像的形态特征以生成训练数据集，所述训练数据集具有将参数链接到所述训练图像的数据；和基于所述形态特征来确定存在一个或多个映射类还是不存在映射类。 60.根据权利要求54至59中任意一项所述的方法，该方法还包括：接收所述特征中的一个或多个作为对所述解码器的输入；使用反卷积神经网络将所述特征之一映射到未标记的数据集上；和使用所述解码器从所述特征之一重构新的训练图像，以训练所述至少一个机器学习模型。 61.根据权利要求54至60中任一项所述的方法，其中所述语音到文本转换算法将所述至少一个OOI映射到多个OOI医学术语中的一个。 62.根据权利要求54至61中任一项所述的方法，还包括：当基于产生与所述至少一个文本串匹配的输入音频的所述语音到文本转换算法确定与所述OOI相关联的至少一个文本串是所述OOI的地面实况时，从在分析所述医学图像数据时检测到的感兴趣对象(OOI)生成至少一个新的训练图像。 63.根据权利要求54至62中任一项所述的方法，还包括：当基于产生与所述至少一个文本串匹配的输入音频的所述语音到文本转换算法确定与所述OOI相关联的至少一个文本串不是所述OOI的地面实况时，从在分析所述医学图像数据时检测到的感兴趣对象(OOI)生成至少一个新的训练图像。 64.根据权利要求54至63中任一项所述的方法，其中对从一个或多个内窥镜检查过程、一个或多个MRI扫描、一个或多个CT扫描、一个或多个X射线、一个或多个超声波检查、一个或多个核医学图像或一个或多个组织学图像获得的医学图像数据执行训练。
说明书全文	用于实时处理医学图像的系统和方法 [0001] 相关申请相互参照 [0002] 本申请要求2021年7月4日提交的第63/218,357号美国临时专利申请的权益；第63/218,357号美国临时专利申请的全部内容全部并入本文。技术领域 [0003] 本文描述了通常涉及用于实时处理医学图像的系统及其方法和计算机程序产品的各种实施例。背景技术 [0004] 以下段落是作为本公开的背景提供的。然而，它们并不承认其中讨论的任何内容是现有技术或本领域技术人员知识的一部分。 [0005] 医学成像提供了确认疾病诊断、监测患者对治疗的反应以及在某些情况下提供治疗程序所需的输入。许多不同的医学成像模式可以用于各种医疗诊断程序。医学成像模式的一些示例包括胃肠道(GI)内窥镜检查、X射线、MRI、CT扫描、超声、超声心动图、膀胱造影和腹腔镜检查。每一种都需要分析以确保正确诊断。现有技术可能会导致误诊率，而误诊率是可以改进的。 [0006] 例如，内窥镜检查是确认胃肠道疾病诊断、监测患者对治疗的反应以及在某些情况下提供治疗程序的金标准。在临床试验期间从患者收集的内窥镜视频通常由独立临床医生进行审查，以减少偏差并提高准确性。然而，这些分析需要目视检查视频图像并手动记录结果，或者手动注释图像，这是昂贵、耗时且难以标准化的。 [0007] 每年都有数百万患者被误诊，其中近一半患有早期癌症。结直肠癌(CRC)是全球第三大癌症死亡原因；然而，如果及早发现，可以成功治疗。目前，临床医生在目视分析内窥镜/结肠镜检查视频图像后手动报告他们的诊断。内窥镜的误诊错误率超过28％，这很大程度上是由于人为错误造成的。因此，误诊是医疗保健系统和患者的一个主要问题，并且会产生重大的社会经济后果。 [0008] 传统系统在内窥镜检查期间显示内窥镜产生的视频，记录视频(在极少数情况下)，并且不提供进一步的功能。在某些情况下，研究人员可能会将图像保存在桌面上，并使用离线程序在息肉或其他感兴趣对象周围手动绘制线条。然而，这种分析是在内窥镜检查过程执行后进行的，因此如果有任何不确定的结果，临床医生无法重新扫描结肠区域，因为程序已经完成。 [0009] 需要一种解决上述挑战和/或缺点的系统和方法。发明内容 [0010] 根据本文的教导，提供了用于实时处理医学图像的系统和方法以及与其一起使用的计算机产品的各种实施例。 [0011] 在一个广泛的方面，根据本文的教导，在至少一个实施例中，提供了一种用于分析医疗过程的医学图像数据的系统，其中所述系统包括：非暂时性计算机可读介质，其上存储有用于分析所述医疗过程的医疗图像数据的程序指令；和至少一个处理器，其在执行所述程序指令时被配置为：接收一系列图像中的至少一个图像；确定何时所述至少一个图像中存在至少一个感兴趣对象(OOI)，并且当存在至少一个OOI时，确定所述至少一个OOI的分类，其中使用至少一个机器学习模型来执行所述两个确定；在所述医疗过程期间在显示器上向用户显示所述至少一个图像和任何确定的OOI；在所述医疗过程期间从所述用户接收包括语音的输入音频信号，并识别所述语音；当所述语音在所述医疗过程中被识别为对所述至少一个图像的注释时，使用语音到文本转换算法将所述语音转换为至少一个文本串；将所述至少一个文本串与提供来自所述用户的语音的至少一个图像相匹配；和生成将所述至少一个文本串链接到相应的至少一个图像的至少一个注释图像。 [0012] 在至少一个实施例中，所述至少一个处理器还被配置为，当所述语音被识别为具有与所述至少一个OOI以相同分类而分类的OOI的至少一个参考图像的请求时，显示所述至少一个参考图像，并从所述用户接收确认或否定所述至少一个OOI的分类的输入。 [0013] 在至少一个实施例中，所述至少一个处理器还被配置为，当所述至少一个OOI被分类为可疑时，从所述用户接收指示针对具有未确定OOI的至少一个图像的用户分类的输入。 [0014] 在至少一个实施例中，所述至少一个处理器还被配置为自动生成包括所述至少一个注释图像的报告。 [0015] 在至少一个实施例中，所述至少一个处理器还被配置为，对于给定图像中的给定OOI：识别与所述给定图像中的给定OOI相关联的边界框的边界框坐标；基于所述给定OOI的分类的概率分布来计算置信度得分；和当所述置信度得分高于置信度阈值时，在所述边界框坐标处将边界框覆盖在所述至少一个图像上。 [0016] 在至少一个实施例中，所述至少一个处理器还被配置为通过以下方式确定OOI的分类：通过执行卷积、激活和池化操作将卷积神经网络(CNN)应用于所述OOI以生成矩阵；通过使用所述卷积、激活和池化操作处理所述矩阵来生成特征向量；和基于所述特征向量来执行所述OOI的分类。 [0017] 在至少一个实施例中，所述至少一个处理器还被配置为在生成所述至少一个注释图像时将时间戳覆盖在相应的至少一个图像上。 [0018] 在至少一个实施例中，所述至少一个处理器还被配置为在显示器上或在所述报告中实时指示所述至少一个图像的置信度得分。 [0019] 在至少一个实施例中，所述至少一个处理器被配置为在所述医疗过程期间通过以下方式接收所述输入音频：在检测到第一用户动作时启动从所述用户接收用于输入音频的音频流，所述第一用户动作包括：暂停所述一系列图像的显示；拍摄所述一系列图像中的给定图像的快照；或提供初始语音命令；和在检测到第二用户动作时结束对所述音频流的接收，所述第二用户动作包括：在预定的长度内保持沉默；按下指定的按钮；或提供最终语音命令。 [0020] 在至少一个实施例中，所述至少一个处理器被配置为在所述医疗过程期间接收所述输入音频时存储所述一系列图像，从而指定所述至少一个图像接收注释数据，以生成相应的至少一个注释图像。 [0021] 在至少一个实施例中，所述至少一个处理器还被配置为通过以下方式生成所述医疗过程的报告：捕获要添加到所述报告的一组患者信息数据；加载包括所述至少一个注释图像的一系列图像的子集；和将所述一组患者信息数据与包括所述至少一个注释图像的一系列图像的子集组合到所述报告中。 [0022] 在至少一个实施例中，所述至少一个处理器还被配置为通过以下方式执行对所述至少一个机器学习模型的训练：将编码器应用于至少一个训练图像，以生成用于所述至少一个训练图像中的训练OOI的至少一个特征向量；通过将所述至少一个特征向量应用于所述至少一个机器学习模型来选择用于所述训练OOI的类；和使用解码器，通过将所述至少一个特征向量与所述至少一个训练图像和用于训练所述至少一个机器学习模型所选择的类相关联来重构标记的训练图像。 [0023] 在至少一个实施例中，类是健康组织类、不健康组织类、可疑组织类或未聚焦组织类。 [0024] 在至少一个实施例中，所述至少一个处理器还被配置为：使用训练数据集来训练所述至少一个机器学习模型，所述训练数据集包括标记的训练图像、未标记的训练图像或标记的和未标记的训练图像的混合，所述图像包括按健康组织、不健康组织、可疑组织和未聚焦组织分类的示例。 [0025] 在至少一个实施例中，所述至少一个处理器还被配置为通过使用监督学习、无监督学习或半监督学习来训练所述至少一个机器学习模型。 [0026] 在至少一个实施例中，所述训练数据集还包括所述不健康组织和所述可疑组织中的每一个的子类别。 [0027] 在至少一个实施例中，所述至少一个处理器还被配置为通过以下方式创建所述至少一个机器学习模型：接收训练图像作为对所述编码器的输入；使用所述编码器将所述训练图像投影到作为特征空间的一部分的特征中；使用分类器将所述特征映射到一组目标类；识别所述训练图像的形态特征以生成新的训练数据集，所述新的训练数据集具有将参数链接到所述训练图像的数据；和基于所述形态特征来确定存在一个或多个映射类还是不存在映射类。 [0028] 在至少一个实施例中，所述至少一个处理器还被配置为通过以下方式确定所述至少一个OOI的分类：接收所述特征中的一个或多个作为对所述解码器的输入；使用反卷积神经网络将所述特征之一映射到未标记的数据集上；和使用所述解码器从所述特征之一重构新的训练图像，以训练所述至少一个机器学习模型。 [0029] 在至少一个实施例中，所述至少一个处理器还被配置为使用语音数据集来训练所述语音到文本转换算法，所述语音数据集包括地面实况文本和所述地面实况文本的音频数据，以将新的音频数据与所述语音集进行比较，从而识别与所述地面实况文本的匹配。 [0030] 在至少一个实施例中，所述语音到文本转换算法将所述至少一个OOI映射到多个OOI医学术语中的一个。 [0031] 在至少一个实施例中，所述医学图像数据是从一个或多个内窥镜检查过程、一个或多个MRI扫描、一个或多个CT扫描、一个或多个X射线、一个或多个超声波检查、一个或多个核医学图像或一个或多个组织学图像获得的。 [0032] 在另一个广泛的方面，根据本文的教导，在至少一个实施例中，提供了一种用于训练至少一个机器学习模型以用于分析医疗过程的医学图像数据和语音到文本转换算法的系统，其中所述系统包括：非暂时性计算机可读介质，其上存储有用于训练所述机器学习模型的程序指令；和至少一个处理器，其在执行所述程序指令时被配置为：将编码器应用于至少一个训练图像，以生成所述至少一个培训图像中的训练感兴趣对象(OOI)的至少一个特征；通过将所述至少一个特征应用于所述至少一个机器学习模型来选择用于所述训练OOI的类；使用解码器，通过将所述至少一个特征与所述训练图像和用于训练所述至少一个机器学习模型所选择的类相关联来重构标记的训练图像；训练所述语音到文本转换算法，以使用包括所述地面实况文本和所述地面实况文本的音频数据的语音数据集来识别新的音频数据和所述地面实况文本之间的匹配，从而生成至少一个文本串；和将所述训练OOI和所述至少一个文本串覆盖在注释图像上。 [0033] 在至少一个实施例中，类是健康组织类、不健康组织类、可疑组织类或未聚焦组织类。 [0034] 在至少一个实施例中，所述至少一个处理器还被配置为：使用训练数据集来训练所述至少一个机器学习模型，所述训练数据集包括标记的训练图像、未标记的训练图像或标记的和未标记的训练图像的混合，所述图像包括按健康组织、不健康组织、可疑组织和未聚焦组织分类的示例。 [0035] 在至少一个实施例中，所述至少一个处理器还被配置为通过使用监督学习、无监督学习或半监督学习来训练所述至少一个机器学习模型。 [0036] 在至少一个实施例中，所述训练数据集还包括所述不健康组织和所述可疑组织中的每一个的子类别。 [0037] 在至少一个实施例中，所述至少一个处理器还被配置为通过以下方式创建所述至少一个机器学习模型：接收训练图像作为对所述编码器的输入；使用所述编码器将所述训练图像投影到包括特征的特征空间中；使用分类器将所述特征映射到一组目标类；识别所述训练图像的形态特征以生成训练数据集，所述训练数据集具有将参数链接到所述训练图像的数据；和基于所述形态特征来确定存在一个或多个映射类还是不存在映射类。 [0038] 在至少一个实施例中，所述至少一个处理器还被配置为：接收所述特征中的一个或多个作为对所述解码器的输入；使用反卷积神经网络将所述特征之一映射到未标记的数据集上；和使用所述解码器从所述特征之一重构新的训练图像，以训练所述至少一个机器学习模型。 [0039] 在至少一个实施例中，所述语音到文本转换算法将所述至少一个OOI映射到多个OOI医学术语中的一个。 [0040] 在至少一个实施例中，所述至少一个处理器还被配置为：当基于产生与所述至少一个文本串匹配的输入音频的所述语音到文本转换算法确定与所述OOI相关联的至少一个文本串是所述OOI的地面实况时，从在分析所述医学图像数据时检测到的感兴趣对象(OOI)生成至少一个新的训练图像。 [0041] 在至少一个实施例中，所述至少一个处理器还被配置为：当基于产生与所述至少一个文本串匹配的输入音频的所述语音到文本转换算法确定与所述OOI相关联的至少一个文本串不是所述OOI的地面实况时，从在分析所述医学图像数据时检测到的感兴趣对象(OOI)生成至少一个新的训练图像。 [0042] 在至少一个实施例中，对从一个或多个内窥镜检查过程、一个或多个MRI扫描、一个或多个CT扫描、一个或多个X射线、一个或多个超声波检查、一个或多个核医学图像或一个或多个组织学图像获得的医学图像数据执行训练。 [0043] 在另一个广泛的方面，根据本文的教导，在至少一个实施例中，提供了一种用于分析用于医疗过程的医学图像数据的方法，其中所述方法包括：接收一系列图像中的至少一个图像；确定何时所述至少一个图像中存在至少一个感兴趣对象(OOI)，并且当存在至少一个OOI时，确定所述至少一个OOI的分类，其中使用至少一个机器学习模型来执行所述两个确定；在所述医疗过程期间在显示器上向用户显示所述至少一个图像和任何确定的OOI；在所述医疗过程期间从所述用户接收包括语音的输入音频信号，并识别所述语音；当所述语音在所述医疗过程中被识别为对所述至少一个图像的注释时，使用语音到文本转换算法将所述语音转换为至少一个文本串；将所述至少一个文本串与提供来自所述用户的语音的至少一个图像相匹配；和生成将所述至少一个文本串链接到相应的至少一个图像的至少一个注释图像。 [0044] 在至少一个实施例中，所述方法还包括：当所述语音被识别为包括对具有所述分类的至少一个参考图像的请求时，显示具有与所述至少一个OOI以相同分类而分类的OOI的所述至少一个参考图像，并从所述用户接收确认或否定所述至少一个OOI的分类的输入。 [0045] 在至少一个实施例中，所述方法还包括：当所述至少一个OOI被分类为可疑时，从所述用户接收指示针对具有未确定OOI的至少一个图像的用户分类的输入。 [0046] 在至少一个实施例中，所述方法还包括：自动生成包括所述至少一个注释图像的报告。 [0047] 在至少一个实施例中，所述方法还包括，对于给定图像中的给定OOI：识别与所述给定图像中的给定OOI相关联的边界框的边界框坐标；基于所述给定OOI的分类的概率分布来计算置信度得分；和当所述置信度得分高于置信度阈值时，在所述边界框坐标处将边界框覆盖在所述至少一个图像上。 [0048] 在至少一个实施例中，所述方法还包括通过以下方式确定OOI的分类：通过执行卷积、激活和池化操作将卷积神经网络(CNN)应用于所述OOI以生成矩阵；通过使用所述卷积、激活和池化操作处理所述矩阵来生成特征向量；和基于所述特征向量来执行所述OOI的分类。 [0049] 在至少一个实施例中，所述方法还包括在生成所述至少一个注释图像时将时间戳覆盖在相应的至少一个图像上。 [0050] 在至少一个实施例中，所述方法还包括在显示器上或在所述报告中实时指示所述至少一个图像的置信度得分。 [0051] 在至少一个实施例中，在所述医疗过程期间通过以下方式接收所述输入音频包括：在检测到第一用户动作时启动从所述用户接收用于输入音频的音频流，所述第一用户动作包括：暂停所述一系列图像的显示；拍摄所述一系列图像中的给定图像的快照；或提供初始语音命令；和在检测到第二用户动作时结束对所述音频流的接收，所述第二用户动作包括：在预定的长度内保持沉默；按下指定的按钮；或提供最终语音命令。 [0052] 在至少一个实施例中，所述方法还包括在所述医疗过程期间接收所述输入音频时存储所述一系列图像，从而指定所述至少一个图像接收注释数据，以生成相应的至少一个注释图像。 [0053] 在至少一个实施例中，所述方法还包括通过以下方式生成所述医疗过程的报告：捕获要添加到所述报告的一组患者信息数据；加载包括所述至少一个注释图像的一系列图像的子集；将所述一组患者信息数据与包括所述至少一个注释图像的一系列图像的子集组合到所述报告中。 [0054] 在至少一个实施例中，所述方法还包括通过以下方式执行对所述至少一个机器学习模型的训练：将编码器应用于至少一个训练图像以生成用于所述至少一个训练图像中的训练OOI的至少一个特征向量；通过将所述至少一个特征向量应用于所述至少一个机器学习模型来选择用于所述训练OOI的类；和使用解码器，通过将所述至少一个特征向量与所述至少一个训练图像和用于训练所述至少一个机器学习模型所选择的类相关联来重构标记的训练图像。 [0055] 在至少一个实施例中，类是健康组织类、不健康组织类，可疑组织类或未聚焦组织类。 [0056] 在至少一个实施例中，所述方法还包括使用训练数据集来训练所述至少一个机器学习模型，所述训练数据集包括标记的训练图像、未标记的训练图像或标记的和未标记的训练图像的混合，所述图像包括按健康组织、不健康组织、可疑组织和未聚焦组织分类的示例。 [0057] 在至少一个实施例中，所述方法还包括通过使用监督学习、无监督学习或半监督学习来训练所述至少一个机器学习模型。 [0058] 在至少一个实施例中，所述训练数据集还包括所述不健康组织和所述可疑组织中的每一个的子类别。 [0059] 在至少一个实施例中，所述方法还包括通过以下方式创建所述至少一个机器学习模型：接收训练图像作为对所述编码器的输入；使用所述编码器将所述训练图像投影到作为特征空间的一部分的特征中；使用分类器将所述特征映射到一组目标类；识别所述训练图像的形态特征以生成新的训练数据集，所述新的训练数据集具有将参数链接到所述训练图像的数据；和基于所述形态特征来确定存在一个或多个映射类还是不存在映射类。 [0060] 在至少一个实施例中，所述方法还包括通过以下方式确定所述至少一个OOI的分类：接收所述特征中的一个或多个作为对所述解码器的输入；使用反卷积神经网络将所述特征之一映射到未标记的数据集上；和使用所述解码器从所述特征之一重构新的训练图像，以训练所述至少一个机器学习模型。 [0061] 在至少一个实施例中，所述方法还包括使用语音数据集来训练所述语音到文本转换算法，所述语音数据集包括地面实况文本和所述地面实况文本的音频数据，以将新的音频数据与所述语音集进行比较，从而识别与所述地面实况文本的匹配。 [0062] 在至少一个实施例中，所述语音到文本转换算法将所述至少一个OOI映射到多个OOI医学术语中的一个。 [0063] 在至少一个实施例中，所述医学图像数据是从一个或多个内窥镜检查过程、一个或多个MRI扫描、一个或多个CT扫描、一个或多个X射线、一个或多个超声波检查、一个或多个核医学图像或一个或多个组织学图像获得的。 [0064] 在另一个广泛的方面，根据本文的教导，在至少一个实施例中，提供了一种用于训练至少一个机器学习模型以用于分析医疗过程的医学图像数据和语音到文本转换算法的方法，其中所述方法包括：将编码器应用于至少一个训练图像，以生成所述至少一个培训图像中的训练感兴趣对象(OOI)的至少一个特征；通过将所述至少一个特征应用于所述至少一个机器学习模型来选择用于所述训练OOI的类；使用解码器，通过将所述至少一个特征与所述训练图像和用于训练所述至少一个机器学习模型所选择的类相关联来重构标记的训练图像；训练所述语音到文本转换算法，以使用包括所述地面实况文本和所述地面实况文本的音频数据的语音数据集来识别新的音频数据和所述地面实况文本之间的匹配，从而生成至少一个文本串；和将所述训练OOI和所述至少一个文本串覆盖在注释图像上。 [0065] 在至少一个实施例中，类是健康组织类、不健康组织类、可疑组织类或未聚焦组织类。 [0066] 在至少一个实施例中，所述方法还包括使用训练数据集来训练所述至少一个机器学习模型，所述训练数据集包括标记的训练图像、未标记的训练图像或标记的和未标记的训练图像的混合，所述图像包括按健康组织、不健康组织、可疑组织和未聚焦组织分类的示例。 [0067] 在至少一个实施例中，训练所述至少一个机器学习模型包括使用监督学习、无监督学习或半监督学习。 [0068] 在至少一个实施例中，所述训练数据集还包括所述不健康组织和所述可疑组织中的每一个的子类别。 [0069] 在至少一个实施例中，所述方法还包括通过以下方式创建所述至少一个机器学习模型：接收训练图像作为对所述编码器的输入；使用所述编码器将所述训练图像投影到包括特征的特征空间中；使用分类器将所述特征映射到一组目标类；识别所述训练图像的形态特征以生成训练数据集，所述训练数据集具有将参数链接到所述训练图像的数据；和基于所述形态特征来确定存在一个或多个映射类还是不存在映射类。 [0070] 在至少一个实施例中，所述方法还包括：接收所述特征中的一个或多个作为对所述解码器的输入；使用反卷积神经网络将所述特征之一映射到未标记的数据集上；和使用所述解码器从所述特征之一重构新的训练图像，以训练所述至少一个机器学习模型。 [0071] 在至少一个实施例中，所述语音到文本转换算法将所述至少一个OOI映射到多个OOI医学术语中的一个。 [0072] 在至少一个实施例中，所述方法还包括：当基于产生与所述至少一个文本串匹配的输入音频的所述语音到文本转换算法确定与所述OOI相关联的至少一个文本串是所述OOI的地面实况时，从在分析所述医学图像数据时检测到的感兴趣对象(OOI)生成至少一个新的训练图像。 [0073] 在至少一个实施例中，所述方法还包括：当基于产生与所述至少一个文本串匹配的输入音频的所述语音到文本转换算法确定与所述OOI相关联的至少一个文本串不是所述OOI的地面实况时，从在分析所述医学图像数据时检测到的感兴趣对象(OOI)生成至少一个新的训练图像。 [0074] 在至少一个实施例中，对从一个或多个内窥镜检查过程、一个或多个MRI扫描、一个或多个CT扫描、一个或多个X射线、一个或多个超声波检查、一个或多个核医学图像或一个或多个组织学图像获得的医学图像数据执行训练。 [0075] 通过以下结合附图的详细描述，本申请的其他特征和优点将变得显而易见。然而，应该理解的是，在指示本申请的优选实施例的同时，详细描述和具体示例仅通过说明的方式给出，因为在本申请的精神和范围内的各种变化和修改将通过该详细描述对本领域技术人员变得显而易见。附图说明 [0076] 为了更好地理解这里描述的各种实施例，并且为了更清楚地示出这些各种实施例可以如何实施，将通过示例的方式参考附图，附图示出了至少一个示例性实施例，现在对其进行描述。附图并不旨在限制本文所描述的教导的范围。 [0077] 图1示出了用于实时处理诸如但不限于内窥镜检查图像之类的医疗过程图像的系统的示例性实施例的框图。 [0078] 图2示出了与图1的系统一起使用的内窥镜检查设备的示例设置和内窥镜检查图像分析系统的替代示例性实施例的示意图。 [0079] 图3示出了用于与图2的内窥镜检查图像分析系统一起使用的计算机设备的硬件组件和数据流的示例性实施例的框图。 [0080] 图4示出了输入音频和实时注释过程之间交互的示例性实施例的框图。 [0081] 图5A示出了用于利用实时注释过程来处理输入音频流和输入图像序列的方法的示例性实施例的框图。 [0082] 图5B示出了用于开始和结束图5A的输入音频流的捕获的方法的示例性实施例的框图。 [0083] 图5C示出了用于使用语音识别算法处理输入音频流的方法的示例性实施例的框图。 [0084] 图6示出了使用图2的系统在内窥镜检查过程中执行图像分析的方法的示例性实施例的框图。 [0085] 图7示出了图像分析训练算法的示例性实施例的框图。 [0086] 图8A示出了由对象检测算法使用的U‑net架构的第一示例性实施例的框图。 [0087] 图8B示出了由对象检测算法使用的U‑net架构的第二示例性实施例的详细框图。 [0088] 图9示出了具有健康形态特征的内窥镜检查图像的示例。 [0089] 图10示出了具有不健康形态特征的内窥镜检查图像的示例。 [0090] 图11示出了来自排他性数据集的未标记视频帧图像的示例。 [0091] 图12示出了报告生成过程的示例性实施例的框图。 [0092] 图13示出了用于使用视频处理算法和注释算法来处理输入视频流的方法的示例性实施例的框图。 [0093] 图14示出了训练结果的图表，其示出了相对于真实正值的阳性语音识别结果率。 [0094] 图15示出了语音识别算法的示例性实施例的框图。 [0095] 图16示出了可以由图像分析算法使用的对象检测算法的示例性实施例的框图。 [0096] 图17示出了包括注释图像的报告的示例性实施例。 [0097] 本文描述的示例性实施例的另外的方面和特征将从下面结合附图的描述中显现出来。具体实施方式 [0098] 下面将描述根据本文的教导的各种实施例，以提供所要求保护的主题的至少一个实施例的示例。本文描述的实施例不限制任何要求保护的主题。所要求保护的主题不限于具有下述任一装置、系统或方法的所有特征的装置、系统或方法，也不限于本文所述的多个或所有装置、系统或方法所共有的特征。这里所描述的装置、系统或方法可能不是任何所要求保护的主题的实施例。本文中描述的任何未在本文件中要求保护的主题可能是另一保护文书的主题，例如，持续的专利申请，并且申请人、发明人或所有者不打算通过在本文件中公开任何此类主题来放弃、否认或向公众奉献任何此类主题。 [0099] 应当理解，为了说明的简单和清楚，在认为合适的情况下，附图标记可以在附图中重复以指示相应或类似的元件。另外，阐述了许多具体细节以便提供对本文描述的实施例的透彻理解。然而，本领域普通技术人员将理解，在没有这些具体细节的情况下也可以实践本文描述的实施例。在其他情况下，没有详细描述众所周知的方法、过程和组件，以免模糊本文描述的实施例。而且，该描述不应被视为限制本文描述的实施例的范围。 [0100] 还应当注意的是，本文所使用的术语“耦合到”或“耦合”可以具有多种不同的含义，这取决于使用这些术语的上下文。例如，术语“耦合到”或“耦合”可以具有机械或电气含义。例如，如本文所使用的，术语“耦合到”或“耦合”可以表示，两个元件或装置可以根据特定的上下文直接彼此连接，或通过一个或多个中间元件或装置经由电信号、电连接或机械连接彼此连接。 [0101] 还应当注意的是，如本文所使用的，措辞“和/或”旨在表示包含性或。即，“在和/或Y在意在表示例如X或Y或两者。作为进一步的示例，“两、Y和/或Z两是指X、Y或Z或其任何组合。 [0102] 应当注意的是，本文所使用的诸如“基本上”、“约”和“大约”之类的程度术语是指修饰术语的合理偏差量，使得最终结果不会显著改变。这些程度术语还可以被解释为包括所修饰术语的偏差，例如1％、2％、5％或10％，例如，如果该偏差不否定其所修饰的术语的含义。 [0103] 此外，本文通过端点列举的数值范围包括包含在该范围内的所有数字和分数(例如，1至5包括1、1.5、2、2.75、3、3.90、4和5)。还应当理解，所有数字及其分数均假定由术语“约”修饰，这意味着如果最终结果没有显著改变，则所参考的数字最多可变化一定量，例如1％、2％、5％或10％。 [0104] 还应当注意，术语“窗口”连同描述本文描述的任何系统或方法的操作的使用意味着被理解为描述用于执行初始化、配置或其他用户操作的用户界面。 [0105] 根据本文的教导描述的设备、系统或方法的示例性实施例可以被实现为硬件和软件的组合。例如，本文描述的实施例可以至少部分地通过使用在包括至少一个处理元件和至少一个存储元件(即，至少一个易失性存储元件和至少一个非易失性存储器元件(存储器元件在本文中也可以称为存储器单元))的一个或多个可编程装置上执行的一个或多个计算机程序来实现。硬件可以包括输入设备，包括触摸屏、触摸板、麦克风、键盘、鼠标、按钮、键、滑块、脑电图(EEG)输入设备、眼动追踪设备等中的至少一个，以及显示器、打印机等中的一个或多个，这取决于硬件的实现。 [0106] 还应当注意，可以存在用于实现本文描述的实施例的至少一部分的一些元件，这些元件可以通过以高级过程语言(诸如面向对象编程)编写的软件来实现。程序代码可以用C++、C#、JavaScript、Python或任何其他合适的编程语言来编写，并且可以包括模块或类，如面向对象编程领域的技术人员已知的。替代地或附加地，通过软件实现的这些元件中的一些可以根据需要以汇编语言、机器语言或固件来编写。在任一情况下，该语言可以是编译语言或解释语言。 [0107] 这些软件程序中的至少一些可以存储在计算机可读介质上，例如但不限于ROM、磁盘、光盘、USB密钥等，或者存储在云上，该计算机可读介质可由具有处理器、操作系统以及实现本文描述的至少一个实施例的功能所必需的相关硬件和软件的设备读取(或访问)。当被设备读取时，软件程序代码将设备配置为以新的、特定的和预定义的方式操作(例如，作为专用计算机)，以便执行本文描述的方法中的至少一种。 [0108] 与本文描述的实施例的装置、系统和方法相关联的至少一些程序可以能够以计算机程序产品分发，该计算机程序产品包括计算机可读介质，该计算机可读介质承载用于一个或多个处理单元的计算机可用指令，例如程序代码。介质可以以各种形式提供，包括非暂时性形式，例如但不限于一张或多张软盘、光盘、磁带、芯片以及磁性和电子存储器。在替代实施例中，介质本质上可以是暂时的，例如但不限于有线传输、卫星传输、互联网传输(例如，下载)、媒体、数字和模拟信号等。计算机可用指令还可以是各种格式，包括编译的和非编译的代码。 [0109] 根据本文的教导，提供了用于处理各种模式的医学图像的系统和方法以及与其一起使用的计算机产品的各种实施例。处理可以实时进行。 [0110] 在该系统的至少一个实施例中，该系统提供了对传统系统的改进，该传统系统分析用于医疗过程的医疗图像数据，以从一系列图像(例如，在医疗过程期间拍摄的视频馈送)产生注释图像。医疗过程可以是医疗诊断程序。例如，系统接收图像，该图像可以是来自视频帧序列的一个视频帧，或者可以从一系列图像获得，例如，一个或多个对应的CT或MRI切片的一个或多个图像。系统确定图像中何时存在感兴趣对象(OOI)，并且当存在OOI时，确定OOI的分类。该系统使用至少一个机器学习模型来执行这两个确定。在医疗过程中，该系统在显示器上向用户显示图像和任何确定的OOI。该系统还在医疗过程中接收来自用户的输入音频。该系统从输入音频中识别语音，并使用语音到文本转换算法将语音转换为文本串。在某些情况下，系统会将文本字符串与相应的图像进行匹配。该系统生成注释图像，其中文本串被链接到(例如，覆盖在)对应图像上。在至少一个替代实施例中，文本串可以包括诸如用于查看来自库或数据库的图像(其可以被称为参考图像)的命令，其中参考图像已经被类似地分类为OOI，并且可以被显示以允许用户将来自一系列图像(例如，来自视频帧序列或来自CT或MRI切片的一系列图像)的给定图像与参考图像进行比较，以确定OOI的自动分类是否正确。 [0111] 医学成像技术 [0112] 本文描述的用于实时处理医学图像的系统和方法的各种实施例在各种医学成像技术中具有应用。本文描述的实施例的优点之一包括提供语音识别以实时生成文本，该文本可用于(a)识别/标记图像中的感兴趣区域，其中感兴趣区域可以是异常、结构损伤区域、生理变化区域或治疗目标；和/或(b)标记/标注图像中的感兴趣区域以用于下一步骤的治疗或程序。另一个优点包括生成即时报告的能力(例如，其中可以基于识别/标记/标注以及生成的文本或其一部分将图像包括在报告中)。另一个优点包括实时显示与操作员识别的OOI相似的先前注释或表征的图像，以增强和支持操作员的诊断能力。 [0113] 本文所描述的各种实施例还可以在程序期间在语音到文本技术中具有应用，例如为质量保证和临床记录提供过程事件的实时、带时间戳的文档的机会。例如，在内窥镜检查中，这包括记录患者症状(例如疼痛)、镇痛药施用、患者位置变化等。然后，这些数据可以与其他监测信息、患者生理参数(例如脉搏、血压、血氧计)和仪器操作等同时记录。 [0114] 下面的表1提供了用于使用本文所述的用于处理医学图像的系统和方法的各种实施例的临床应用的示例，但不是详尽的列表： [0115] 表1：临床应用 [0116] [0117] [0118] 表1中的其他临床应用反映了这样一个事实，即“内窥镜”技术用于许多其他专业，需要由完全满足执行程序的视觉运动要求的操作员实时识别异常并进行实时记录。尽管治疗干预措施也越来越多，但是大多数“内窥镜”手术主要是诊断性的。 [0119] 相比之下，尽管是基于对治疗目标的准确识别，但是手术腹腔镜主要是治疗性的。许多手术时间很长，几乎没有机会对过程事件或治疗干预进行综合记录，然后必须在过程后凭记忆记录。 [0120] 需要注意的是，大多数专家将组织病理学诊断纳入其管理计划，但组织病理学的诊断和报告等由组织病理学家执行。本文描述的实施例的优点之一是，它们为组织病理学家提供了一种机制，用于在研究期间实时识别、定位和注释图像或OOI，生成后续报告，并可以访问数据库中的可比较图像/OOI。 [0121] 本文描述的实施例的另一个优点是，它们提供了使用语音控制/注释来标记图像中OOI的位置的选项，并且这可以应用于放射学和组织病理学。放射科医生或病理学家可以将病变识别为OOI，同时使用标准化词汇表用语音到文本技术注释OOI。 [0122] 程序过程中对图像或视频的注释，可能使用语音到文本的OOI定位，是一种记录或报告手术的一种手段(基于(例如)腹腔镜手术过程的视频记录)。 [0123] 内窥镜检查应用 [0124] 为了说明的目的，使用从GI内窥镜检查获得的图像来描述根据本文教导描述的用于处理医学图像的系统和方法的各种实施例。因此，应当理解，本文所述的系统和方法可以与从不同类型的内窥镜检查应用或其他医疗应用产生的医学图像一起使用，其中图像是使用其他成像模式获得的，例如表1中给出的示例。可以使用本文所述的系统和方法的内窥镜检查的一些不同应用包括但不限于与呼吸系统、耳鼻喉科、妇产科、心脏病学、泌尿学、神经病学以及矫形外科和普通外科有关的应用。 [0125] 呼吸系统： [0126] 内窥镜检查应用包括柔性支气管镜检查和医用胸腔镜检查，例如但不限于支气管内超声和导航支气管镜检查，例如基于使用标准化内窥镜检查平台，具有或不具有窄带成像(NBI)。 [0127] ENT： [0128] 内窥镜检查应用包括解决听力学并发症的外科手术，例如但不限于镫骨切开术或其他耳鼻喉科手术；治疗影响会厌、舌头和声带的喉部疾病的外科手术；上颌窦外科手术；鼻息肉或任何其他临床或结构评估，以集成到耳鼻喉科医生决策支持系统中。 [0129] 妇产科： [0130] 内窥镜检查应用包括与妇产科相关的疾病的结构和病理评估和诊断，例如但不限于微创手术(包括机器人手术技术)和腹腔镜手术。 [0131] 心脏病学： [0132] 内窥镜检查应用包括与心脏病学相关的疾病的结构和病理学评估和诊断，例如但不限于微创手术(包括机器人手术技术)。 [0133] 泌尿外科： [0134] 内窥镜检查应用包括用于肾脏疾病的诊断和治疗、肾脏结构和病理评估的程序，以及治疗程序(包括机器人和微创手术)和应用，包括但不限于作为局部治疗和/或手术的肾结石、癌症等的治疗。 [0135] 神经病学(中枢神经系统/脊柱)： [0136] 内窥镜检查应用包括但不限于脊柱的结构和病理评估，例如基于标准化技术或3D成像的微创脊柱手术。 [0137] 骨科： [0138] 内窥镜检查应用包括但不限于关节手术。 [0139] 首先参考图1，其示出了用于检测医疗过程中的形态特征并实时注释一个或多个图像的自动化系统100的示例性实施例的框图。医疗过程可以是医疗诊断程序。当在内窥镜检查的背景下使用时，系统100可以被称为内窥镜镜检查图像分析(EIA)系统。然而，如前所述，系统100可以与其他成像模式和/或医疗诊断程序结合使用。系统100可以与至少一个用户设备110进行通信。在一些实施例中，系统100可以由服务器来实现。用户设备110和系统100可以经由例如可以是有线或无线的通信网络105进行通信。通信网络105可以是例如因特网、广域网(WAN)、局域网(LAN)、WiFi、蓝牙等。 [0140] 用户设备110可以是由用户操作的计算设备。用户设备110可以是例如智能手机、智能手表、平板电脑、笔记本电脑、虚拟现实(VR)设备或增强现实(AR)设备。用户设备110还可以是例如一起操作的计算设备的组合，例如智能手机和传感器。用户设备110也可以是例如由用户以其他方式操作的设备，这可以远程完成；在这种情况下，例如，用户可以通过个人计算设备(例如智能手机)来操作用户设备110。用户设备110可以被配置为运行与系统100的某些部分通信的应用程序(例如，移动应用程序)。 [0141] 系统100可以在单个计算机上运行。系统100包括处理器单元124、显示器126、用户接口128、接口单元130、输入/输出(I/O)硬件132、网络单元134、电源单元136和存储器单元(也称为“数据存储器”)138。在其他实施例中，系统100可以具有更多或更少的组件，但通常以类似的方式起作用。例如，系统100可以使用多于一个的计算设备或计算系统来实现。 [0142] 处理器单元124可以包括标准处理器，例如Intel Xeon处理器。或者，处理器单元124可以使用多个处理器，并且这些处理器可以并行工作并执行某些功能。显示器126可以是但不限于计算机监视器或LCD显示器，例如用于平板设备的显示器。用户接口128可以是可经由网络单元134访问的应用程序编程接口(API)或基于网络的应用程序。网络单元134可以是诸如以太网或802.11x适配器之类的标准网络适配器。 [0143] 处理器单元124可以与预测引擎152一起操作，该预测引擎152可以使用诸如图形处理单元(GPU)的一个或多个独立处理器来实现，该独立处理器的功能是通过使用存储在存储器单元138中的机器学习模型146来提供预测。预测引擎152可以通过将训练数据应用于一个或多个机器学习算法来构建一个或多个预测算法。训练数据可以包括例如图像数据、视频数据、音频数据和文本。该预测可以包括首先识别图像中的对象，然后确定它们的分类。例如，训练可以基于OOI的形态学特征，例如息肉或在其他医疗诊断/外科应用或其他成像模式中可能遇到的至少一个其他生理结构，然后在图像分析期间，图像分析软件将首先识别新获得的图像是否具有与息肉的图像的形态特征匹配的OOI，并且如果是，则预测OOI是息肉或至少一个其他生理结构。这可以包括确定OOI被正确识别的置信度得分。 [0144] 处理器单元124还可以执行用于生成各种GUI的图形用户界面(GUI)引擎154的软件指令。GUI引擎154根据每个用户界面的特定布局提供数据，并且还接收来自用户的数据输入或控制输入。GUI引擎154然后可以使用来自用户的输入来改变在显示器126上显示的数据，或者改变系统100的操作，这可以包括显示不同的GUI。 [0145] 存储器单元138可以存储操作系统140的程序指令、其他应用程序的程序代码142(也称为“程序142为)、输入模块144、多个机器学习模型146、输出模块148、数据库150和GUI引擎154。机器学习模型146可以包括但不限于基于深度学习模型和其他方法的图像识别和分类算法。数据库150可以是例如存储在存储器单元138上的本地数据库，或者在其他实施例中，它可以是外部数据库，例如云上的数据库、多个数据库或其组合。 [0146] 在至少一个实施例中，机器学习模型146包括卷积神经网络(CNN)、递归神经网络(RNN)和/或预测建模的其他合适实现(例如，多层感知器)。细胞神经网络被设计用于识别图像和模式。CNN执行卷积运算，例如，可以使用卷积运算对图像区域进行分类，并查看在图像区域中识别的对象的边缘。RNN可用于识别序列，例如文本、语音和时间演化，因此RNN可以应用于数据序列来预测接下来会发生什么。因此，CNN可用于检测在给定时间发生的事情或检测给定图像上的至少一个生理结构，而RNN可用于提供信息消息(例如，OOI的分类)。 [0147] 程序142包括程序代码，该程序代码在被执行时配置处理器单元124以特定方式操作以实现系统100的各种功能和工具。程序142包括可用于各种算法的程序代码，包括图像分析算法、语音识别算法、文本匹配算法和术语校正算法。 [0148] 参考图2，其示出了用于实时获取和处理医学图像的系统的示例设置200的图。如图2所示的设置200示出了用于获得和处理内窥镜检查图像的系统，作为医学图像的具体示例，但是也可以用于其他医疗应用和/或医学成像模式。设置200包括内窥镜系统和内窥镜检查图像分析(EIA)系统242。内窥镜系统包括五个主要部件：内窥镜检查平台210、主图像处理器215、内窥镜220、手持控制器225和内窥镜检查监视器240。内窥镜检查图像分析系统包括元件245至270。 [0149] 主图像处理器215通过内窥镜220接收输入。内窥镜220可以是适于插入患者体内的任何内窥镜。在其他实施例中，对于其他医疗应用和/或成像模式，内窥镜被另一成像设备和/或传感器代替，如下所述，用于获得图像，例如表1中给出的示例。当内窥镜220被插入胃肠道或其他人体部位并且内窥镜的相机被用于捕捉图像(例如，图像信号)时，主图像处理器215还接收来自用户的输入。主图像处理器215从内窥镜220接收图像信号，该图像信号可以被处理以被显示或输出。例如，主图像处理器215将由内窥镜220捕获的图像发送到内窥镜检查监视器240以在其上显示。内窥镜检查监视器240可以是适用于与内窥镜220和主图像处理器215兼容的内窥镜检查过程的任何监视器。对于其他医学成像模式，主图像处理器215可以从其他设备/平台接收图像，例如CT扫描设备、超声设备、MRI 扫描仪、X光机、核医学成像机、组织学成像设备等，并且相应地，来自内窥镜220的输出被来自那些应用中的这些设备/平台中的每一个的输出所替代，例如表1中给出的示例。 [0150] 图像处理单元235控制来自内窥镜220的图像信号的处理。图像处理单元235包括主图像处理器215，其用于接收来自内窥镜220的图像信号，然后以与相机执行的传统图像处理一致的方式处理图像信号。主图像处理器215然后通过经由连接电缆236将图像数据和控制信号发送到内窥镜检查监视器240来控制处理后的图像在内窥镜监控器240上的显示。 [0151] 内窥镜220连接到由编程按钮230组成的手持控制面板225。手持控制面板225和编程按钮230可以是输入模块144的一部分。编程按钮230可以被按下以发送输入信号来控制内窥镜220。编程按钮230可以由用户(其可以是临床医生、胃肠病学家或其他医学专业人员)致动，以便向主图像处理器215发送输入信号，其中输入信号可用于指示主图像处理器215暂停一系列图像(例如，视频流或视频帧序列)的显示或拍摄一系列图像中给定图像的快照(例如，视频流的视频帧或视频帧序列中的视频帧)。输入信号可以临时中断一系列图像的显示(例如，显示给内窥镜检查监视器240的视频流)，这允许服务器120检测将被注释的特定图像(例如，视频帧)。 [0152] 在至少一个实施例中，内窥镜220被产生另一种图像的成像设备代替，该另一种图像可以或可以不一起形成视频(例如，由MRI设备产生的切片)。在这种情况下，图像序列是那些图像的序列(例如，一系列切片)。 [0153] EIA系统242为分析平台(例如基于AI的分析平台)提供一个或多个组件，该分析平台用于分析由内窥镜220获得的图像，并提供这些图像的相应注释版本以及其他功能。EIA系统242可以被认为是系统100的替代示例性实施例。更一般地，当用于其他医学成像模式时，EIA系统242可以被认为是系统100的替代示例性实施例。在这种情况下，对内窥镜检查、内窥镜或内窥镜检查图像的任何引用都可以分别用其他医学成像程序、成像模式、成像设备或医学图像代替，例如表1中给出的示例。 [0154] 在该示例性实施例中，EIA系统242包括微型计算机255，微型计算机255可以例如通过HDMI电缆245连接到内窥镜检查监视器240以接收内窥镜检查图像。HDMI电缆245可以是任何标准的HDMI电缆。转换器键250使得内窥镜检查监视器240的HDMI端口能够连接到微型计算机255的USB端口。微型计算机255通信地耦合到一个或多个存储器设备，例如存储器单元138，存储器设备上共同存储有程序142、预测引擎152和机器学习模型146。微型计算机255执行图像分析软件程序指令，以将图像分析算法应用于由内窥镜220收集的图像信号。 [0155] 微型计算机255可以是例如NVIDIA Jetson微型计算机，其包括CPU和GPU以及一个或多个存储器元件。此外，图像分析算法包括对象检测算法，其可以基于YOLOv4，YOLOv4使用卷积神经网络(例如，如图16所示)来执行某些功能。YOLOv4对象检测算法可能是有利的，因为它可以允许EIA系统以更快的速率分析图像。YOLOv4对象检测算法可以例如通过具有软件加速器(例如TensorRT、Raspberry Pi或TensorFlow)的NVIDIA Jetson微型计算机来实现。 [0156] 软件加速器TensorRT可能是有利的，因为它可以允许EIA系统242使用GPU(例如NVIDIA GPU)以更快的速率训练机器学习模型146。软件加速器TensorRT可以通过允许在不影响EIA系统242的性能的情况下修改机器学习模型146来为EIA系统242提供进一步的优点。软件加速器TensorRT可以使用诸如层融合、块融合和浮点到整数转换器之类的特定功能来实现EIA系统242的这些优点。当EIA系统242使用YOLOv4时，软件加速器TensorRT可以提高YOLOv4的性能速度。 [0157] 微型计算机255可以通过USB连接268连接到麦克风270。麦克风270接收可以包括用户输入的声学信号，例如在医疗过程(例如，医疗诊断程序)期间，并且将声学信号转换成输入音频信号。麦克风270可以被认为是I/O硬件132的一部分。微型计算机255的一个或多个处理器可以通过输入模块软件144的操作来接收由麦克风270获得的输入音频信号。微型计算机255然后可以将语音识别算法应用于麦克风270收集的输入音频信号。语音识别算法可以使用程序142、预测引擎152和机器学习模型146中的一个或多个来实现。 [0158] 图像分析监视器265可以通过使用标准HDMI电缆260的HDMI连接连接到微型计算机255。微型计算机255在图像分析监视器265上显示图像分析算法和语音识别算法的结果。例如，对于给定的图像，图像分析监视器265可以显示一个或多个OOI，其中边界框被放置在每个OOI周围，并且可选地，颜色指示符可以用于边界框以表示关于包含在边界框内的元素的某些信息。由语音识别和语音到文本算法产生的注释可以存储在数据库150或一些其他数据存储器中。语音到文本算法可以使用程序142、预测引擎152和机器学习模型146中的一个或多个来实现。微型计算机255在图像分析监视器265上显示注释。 [0159] 应当注意，在本文描述的至少一个实施例中，置信度得分也可以由图像分析软件生成。这可以通过基于对象(例如息肉)的分类，将针对给定图像(即，给定视频帧)确定的OOI的确定边界框的每个像素与对象的地面实况进行比较来实现。例如，置信度得分可以被定义为0和1之间的十进制数，其可以被解释为置信度的百分比。置信度得分可以描述多个贡献者之间的一致性水平，并指示对结果有效性的“置信度”。可以基于具有最大置信度的响应来选择聚合结果。然后可以将置信度得分与预设置信度阈值进行比较，该阈值可以随着时间的推移进行调整以提高性能。如果置信度得分大于置信度阈值，则可以在医疗过程期间将边界框、分类和可选的置信度得分与给定图像一起显示给用户。或者，如果置信度得分低于置信度阈值，则图像分析系统可以将给定图像标记为可疑，并将该标记与给定图像一起显示给用户。在至少一个实现中，置信度得分是网络的输出。在这种情况下，对象检测模型可以输出对象的类别、对象的位置和/或置信度得分。置信度得分可以由神经网络通过执行卷积、激活和池化操作来生成。在图16中可以看到如何生成置信度得分的示例。 [0160] 参考图3，其示出了用于与EIA系统242的微型计算机255一起使用的计算机设备的硬件组件和数据流300的示例性实施例的框图。如本文参考图3所描述的，硬件组件和数据流300可以在内窥镜检查的背景下与EIA系统242一起使用。然而，更一般地，当用于其他医学成像应用和成像模式时，EIA系统242可以被认为是系统100的替代示例性实施例。在这种情况下，随后对内窥镜检查、内窥镜或内窥镜检查图像的任何引用都可以分别用其他医学成像程序、成像模式、成像设备或医学图像代替，例如表1中给出的示例。 [0161] 微型计算机255在具有各种输入和输出端口的电子板310上实现。微型计算机255通常包括CPU 255C、GPU 255G和存储器单元255M。例如，微型计算机255可以是设计用于高性能AI系统(如医疗器械、高分辨率传感器或自动光学检查)的硬件，具有NVIDIA CUDA 内核的GPU 255G和NVIDIA Camel ARM的CPU 255C、视觉加速器、视频编码和视频解码。数据流300由提供给微型计算机255的输入信号和由微型计算机生成并发送到一个或多个输出设备、存储设备或远程计算设备的输出信号组成。转换器键250接收视频输入信号并将视频输入信号引导到微型计算机USB视频输入端口370。或者，视频输入信号可以通过USB电缆提供，在这种情况下，不需要转换器键250，并且微型计算机USB视频输入端口370接收视频输入信号。微型计算机USB视频输入端口370允许微型计算机255接收来自内窥镜220的实时视频输入信号。 [0162] 微型计算机255通过将来自麦克风270的输入音频信号引导到微型计算机音频USB端口360来接收潜在的用户输入。微型计算机255然后接收来自微型计算机音频USB端口360的输入音频信号以供语音识别算法使用。附加的输入设备可以通过可选的USB连接380连接到微型计算机255。例如，微型计算机255可以连接到两个可选的USB连接380(例如，用于鼠标和键盘)。 [0163] 微型计算机CPU 255C和GPU 255G组合操作以运行程序142、机器学习模型146和预测引擎152中的一个或多个。微型计算机255可以被配置为首先将所有输出文件存储在存储器单元255M中，然后将所有输出文档存储在外部存储器中。外部存储器可以是连接到数据输出端口330的USB存储卡。替代地或附加地，外部存储器可以由用户设备110提供。替代地，或者除此之外，微型计算机255可以向另一计算机(或计算设备)提供输出数据以供存储。例如，微型计算机255可以将输出数据存储在安全云服务器上。作为另一示例，微型计算机255可以在用户设备110上存储和输出数据，其中用户设备110可以是具有兼容应用程序的智能手机。 [0164] 微型计算机255可以具有允许用户选择一个或多个预编程功能的按钮340。按钮340可以被配置为提供用于与微型计算机255相关的特定功能的控制输入。例如，按钮340中的一个可以被配置为打开微型计算机CPU 255C和/或GPU 255G，关闭微型计算机CPU 255和/或GPU255G，启动微型计算机255上的质量控制过程的操作，运行显示包括注释图像的内窥镜检查图像的GUI，以及开始和结束注释。按钮340还可以具有 LED灯341或其他类似的视觉输出设备。微型计算机255通过电力电缆端口350接收电力。电力电缆端口350向微型计算机255的各个部件提供电力以允许它们操作。 [0165] 微型计算机处理器255C可以通过微型计算机USB视频输出端口320在监视器265上显示图像分析结果。监视器265可以使用HDMI连接通过微型计算机HDMI视频输出端口320连接到微型计算机255。 [0166] 参考图4，其示出了用于使用实时注释过程436来处理输入音频和输入视频信号的方法400的示例性实施例的框图。应当注意，虽然方法400和随后的方法和过程被描述为由EIA系统242执行，但这仅用于说明目的，并且应当理解，可以使用系统100或另一合适的处理系统。然而，更一般地，当用于其他医学成像应用和成像模式时，EIA系统242可以被认为是系统100的替代示例性实施例。在这种情况下，对内窥镜检查、内窥镜或内窥镜检查图像的任何引用都可以分别用其他医学成像程序、成像模式、成像设备或医学图像代替，例如表1中给出的示例。方法400可以由CPU 255C和GPU 255G来执行。 [0167] 由于具有高性能能力的GPU 255G和CPU 255C的EIA系统242以及对象检测算法的构建方式，方法400可以实时地提供注释过程436。替代地，或除此之外，方法400和对象检测算法可以使用AWS GPU在云上执行，其中用户可以上传内窥镜检查视频并使用类似于实时注释过程436的过程(例如，实时模拟内窥镜检查或允许暂停视频)。 [0168] 在405，在运行实时注释过程436之前，EIA系统242将语音识别算法410置于待机状态。在待机时，语音识别算法410等待来自输入模块144的输入音频信号。语音识别算法410可以使用程序142、机器学习模型146和预测引擎152中的一个或多个来实现。 [0169] 在420，EIA系统242在第一信号接收器处接收来自用户的开始信号421，以开始实时注释过程436。EIA系统242通过麦克风270接收输入音频信号。例如，信号接收器可以是按钮340之一。 [0170] 在422，EIA系统242捕获输入音频信号，并通过使用语音识别算法410将输入音频信号转换为语音数据，该语音识别算法可以使用程序142来实现。语音数据然后由语音到文本转换算法处理，以将语音数据转换成一个或多个文本串，该文本串用于创建注释数据。然后，EIA系统242通过使用图像和注释数据匹配算法来确定应将注释数据添加到哪个图像。 [0171] 在430，图像和注释数据匹配算法从注释数据中的文本串所对应的输入图像序列(例如，输入视频信号)中确定给定图像，然后将注释数据链接到给定图像上。将注释数据链接到给定图像可以包括，例如，(a)将注释数据覆盖到给定图像上；(b)将注释数据覆盖到给定图像上；(c)在给定图像上提供链接到具有所述注释数据的网页的超链接；(d)提供具有当悬停在给定图像或其相关部分上时弹出的注释数据的弹出窗口；或(e)本领域技术人员已知的任何等效链接。图像和注释数据匹配算法可以例如使用彼此匹配的时间戳来进行该确定，用于捕获正被注释的图像和接收注释数据。输入图像序列例如可以是来自使用内窥镜220获得的视频输入流的输入视频信号。在其他成像模式中，输入视频信号可以是如前所述的一系列图像。 [0172] 在432，第二信号接收器接收并处理结束信号422。例如，第二信号接收器可以是按钮340中的另一个或与第一信号接收器相同的按钮。在接收到结束信号422之后，EIA系统242结束实时注释过程436。当没有接收到结束信号422时，EIA系统242通过继续操作语音识别算法410、注释捕获和匹配算法430来继续实时注释过程436。 [0173] 在434，EIA系统242输出一个或多个注释图像。该输出可以：(a)显示在监视器或显示器上，(b)合并到报告中，(c)存储在数据存储元件/设备上，和/或(d)传输到另一电子设备。 [0174] 微型计算机255配备有诸如存储器单元255M之类的内部存储器440。内部存储器440可用于存储数据，例如内窥镜检查过程的完整视频或其一部分、一个或多个注释图像和/或音频数据。例如，微型计算机255可以在实时注释过程436期间捕获音频数据，并将其存储在内部存储器440中。替代，或者除此之外，微型计算机255可以将注释图像存储在内部存储器440中。 [0175] 参考图5A，其示出了用于利用实时注释过程436处理一系列图像的输入音频流和输入流(例如，输入视频流)的方法500的示例性实施例的框图。方法500可以由CPU 255C和/或GPU 255G来执行。方法500由启动命令信号423启动，该启动命令信号由EIA系统242接收作为输入。语音识别算法410接收输入音频信号并开始处理以开始识别语音。EIA系统242记录由语音识别算法410确定的音频数据。当接收到结束命令信号422时，语音识别算法410停止处理输入音频信号。 [0176] 语音到文本转换算法520可以使用程序142、预测引擎152和机器学习模型146中的一个或多个来实现。例如，语音到文本算法520可以是开源的预训练算法，例如Wav2vec 2.0，或者任何其他合适的语音识别算法。语音到文本算法520获取由语音识别算法410确定的语音数据，并使用算法将语音数据转换为文本525，该算法可以是卷积神经网络(例如，如图15所示)。 [0177] 然后通过术语校正算法530来处理文本525。术语校正算法530可以使用程序142和预测引擎152中的一个或多个来实现。术语校正算法530使用字符串匹配算法和自定义词汇表来校正语音到文本转换算法520所产生的错误。术语校正算法142可以是诸如Fuzzywuzzy之类的开源算法。文本525相对于定制词汇表中的每个术语被交叉引用。术语校正算法142然后基于文本525与定制词汇表中的术语的匹配程度来计算匹配分数。术语校正算法确定匹配分数是否高于阈值匹配分数。如果匹配分数高于阈值匹配分数，则术语校正算法530用自定义词汇表中的术语替换文本525或其一部分。 [0178] 语音识别输出540可以被称为注释数据，其包括要添加到用户评论的给定图像的注释。语音识别输出540被发送到匹配算法430。匹配算法430可以使用程序142或机器学习模型146来实现。匹配算法430确定注释数据对应的匹配图像(即，用户对哪个图像进行了口头评论，该图像被转换为注释数据)，并将来自语音识别输出540的注释数据覆盖到从来自内窥镜220的一系列图像510的输入流(例如，视频输入流)捕获的匹配图像上，以产生注释图像输出434。注释图像输出434可以是其上覆盖有语音识别输出540的关键图像434‑1(例如，其具有OOI)。注释图像输出434可以是覆盖了语音识别输出540的视频剪辑434‑2。关键图像434‑1和视频剪辑434‑2可以由服务器120输出并存储在440中。 [0179] 在至少一个实施例中，内窥镜220由产生其他种类的图像(例如，由MRI设备产生的切片)的成像设备代替。在这种情况下，关键图像434‑1可以是不同种类的图像(例如，切片)，并且视频剪辑434‑2可以由图像序列(例如，片序列)代替。 [0180] 语音到文本转换算法520可以使用语音数据集来训练，该语音数据集包括地面实况文本和地面实况文本的音频数据。可以将新的音频数据与新的语音数据集进行比较，以识别与地面实况文本的匹配。对于各种医疗应用和成像模式，可以获得地面实况文本和地面实况文本的音频数据，表1中给出了其中的一些示例。 [0181] 参考图5B，其示出了用于开始和结束由图5A的语音识别算法410处理的输入音频流的捕获的方法550的示例性实施例的框图。方法550可以由CPU 255C来执行。EIA系统242响应于启动输入信号423(例如，由于用户交互而提供的)启动语音识别算法410，该启动输入信号可以包括暂停视频命令560、拍摄快照命令562或启动语音命令564。当输入信号提供暂停视频命令560时，EIA系统242暂停输入视频流。当输入信号421提供拍摄快照命令562时，EIA系统242拍摄输入视频流的快照，这涉及拍摄当接收到拍摄快照命令561时显示的特定图像。当输入信号421提供开始语音命令564时，例如“开始注释”，EIA系统242开始注释。对于其他医疗应用和/或成像模式，可以执行本领域技术人员已知的其他控制动作。 [0182] 在至少一个实施例中，将EIA系统242替换为用于分析从产生其他种类的图像(例如，由MRI设备产生的切片)的成像设备获得的图像的等效系统。在这种情况下，暂停视频命令560被暂停一系列图像(例如，切片序列)的显示的命令所代替。 [0183] EIA系统242响应于结束输入信号424(例如，由用户生成)而结束语音识别算法410的操作，该结束输入信号可以包括静音输入570、按钮按压输入572或结束语音命令574。静音输入570可以是例如听不见的输入或低于阈值音量水平的输入音频。静音输入570可以例如持续至少5秒以成功地结束语音识别算法410的操作。按钮按压输入572可以是用户按压指定按钮(例如按钮340之一)的结果。诸如“停止注释”之类的结束语音命令574可以用于停止注释图像。 [0184] 参考图5C，其示出了用于使用语音识别和语音到文本转换算法(例如语音到文本转换算法520)来处理输入音频流(例如音频信号582)的方法580的框图，该语音到文本变换算法与定制词汇表584交叉引用。方法580可以由EIA系统242的一个或多个处理器来执行。自定义词汇表584可以在EIA系统242运行之前建立，并且可选地不时更新。在其他实施例中，可以为其他医疗应用和/或医学成像模式构建定制词汇表584。语音到文本转换算法520接收音频信号582，该音频信号典型地是用户记录到麦克风270的输入。地面实况586可以是特定于正在执行的医疗过程的一系列术语，例如在胃肠内窥镜检查、或另一种类型的内窥镜检查过程、或使用如前所述的另一种成像模式的其他医疗过程中。地面实况586可以是存储在数据库(例如数据库150)中的数据库文件。对于不同类别的术语，例如胃、结肠、肝脏等，可能存在多个地面实况数据集。地面实况586最初可以由胃肠内窥镜检查或其他医疗应用和/或成像模式特有的预定术语组成。因此，地面实况允许语音到文本转换算法将至少一个OOI映射到多个OOI医学术语之一。一个OOI可以映射到一个以上的医学术语，因为可能存在多种特征，例如息肉和出血。地面实况586可能是有利的，因为它允许语音识别算法520的更新和准确性分析。EIA系统242可以从键盘和/或麦克风接收更新地面实况的用户输入 586。例如，用户可以通过在麦克风270中键入术语和/或对着麦克风270说话来提供术语，以便更新地面实况586。自定义词汇表584是由键值对组成的词典。“键”是语音识别算法520的输出字符串525；而“值”是来自地面实况586的相应文本。 [0185] 参考图6，其示出了使用图2的系统在内窥镜检查过程期间执行图像分析的方法600的示例性实施例的框图。方法600可以由EIA系统242的CPU 255C和GPU 255G来实现，并且允许EIA系统242连续地适应用户以针对每个OOI生成有效的图像分析输出。方法600的某些步骤可以使用微型计算机255的CPU 255C和GPU 255G以及内窥镜检查平台210的主图像处理器215来执行。 [0186] 在610，方法600开始内窥镜检查过程。当在620打开(或激活)内窥镜检查设备时，内窥镜检查过程可以开始。与此并行地，在650处开启麦克风270和AI平台(例如，EIA系统242)。方法600包括彼此并行执行的两个分支。 [0187] 在方法600的从620开始的分支之后，内窥镜检查平台210的处理器215接收存在可操作的内窥镜检查设备220的信号。 [0188] 在622处，处理器215执行诊断检查以确定操作性内窥镜检查设备220正确地连接到处理器210。步骤622可以被称为内窥镜质量保证(QA)步骤。处理器215向监视器240发送确认以向用户指示QA步骤成功或不成功。如果处理器215向监视器240发送错误消息，则用户必须在继续程序之前解决该错误。 [0189] 参考从步骤650开始的方法600的另一分支，在执行步骤650之后，方法600移动到步骤652，在步骤652中，EIA系统242执行诊断检查以确定微型计算机255和麦克风270正确连接，这可以被称为AI平台质量保证(QA)步骤。人工智能平台QA步骤包括检查算法。如果存在错误，则EIA系统252产生显示在监视器265上的错误消息，以通知用户在继续执行视频流捕获之前需要解决与错误消息相关的一个或多个问题。 [0190] 一旦成功地执行了QA步骤，方法600移动到步骤654，并且EIA系统242捕获包括由内窥镜检查设备220提供的图像的输入视频流。来自输入视频流的图像数据可以由输入模块142接收，用于由图像分析算法进行处理。当正在接收输入视频流或用于其他医学成像模式应用的输入图像序列时，微计算机255可以激活LED灯341以指示EIA系统242正在操作(例如，通过显示稳定的绿光)。 [0191] 再次回到左分支，在624，内窥镜检查过程开始，处理器215通过要求用户输入患者信息(例如，经由输入模块144)或通过直接从病历下载患者信息来检查患者信息。患者信息可以包括患者人口统计、用户(例如，EIA系统242)、程序类型和任何唯一标识符。微型计算机255输入从内窥镜检查过程开始的特定帧/图像。该特定图像可以由EIA系统242用来产生第二输出。第二输出可用于DICOM报告中，该DICOM报告包括内窥镜检查过程开始时的特定图像，并且该图像可用于捕获DICOM报告的患者信息。替代地或附加地，可以捕获医疗诊断(例如，内窥镜诊断)信息数据。为了确保隐私，服务器120可以确保患者信息不保存在任何其他数据文件上。 [0192] 在626，在内窥镜检查过程开始和EIA系统242捕获视频流之后，EIA系统242然后处于待机状态以接收输入信号，以开始记录音频。这表示过程A632和过程B660的开始。EIA系统242在接收到开始输入信号421时开始过程A632与过程B660。 [0193] 在628，EIA系统242接收用户输入作为输入音频信号中的语音。EIA系统242继续记录输入音频信号，直到接收到结束输入信号424。 [0194] 在630，在接收到结束输入信号424之后，EIA系统242结束输入音频信号的记录。这表示过程A 632的结束。然而，当提供开始和停止音频命令时，EIA系统242可以稍后重复过程A632，直到内窥镜检查过程完成并且内窥镜检查设备220关闭。 [0195] 一旦内窥镜检查过程完成，方法600前进到634，在634处处理器215接收内窥镜检查过程完成的信号。 [0196] 在638处，处理器215关闭内窥镜检查平台210。替代地，或除此之外，EIA系统242接收指示内窥镜检查平台210关闭的信号。 [0197] 再次参考方法600的右分支，过程B660与过程A632并行执行，并且包括过程A632的所有步骤，在656执行语音识别和语音到文本算法以生成注释数据，并且在658将图像与注释数据匹配。EIA系统242可以重复过程B660，直到EIA系统242接收到包括关闭内窥镜检查设备的用户命令的输入信号为止。 [0198] 在656，EIA系统242启动语音识别和语音到文本转换过程，并生成注释数据。这可以使用语音识别算法410、语音到文本转换算法520、术语校正算法530和实时注释过程436来完成。 [0199] 在658，EIA系统242将图像与注释进行匹配。这可以使用匹配算法430来完成。 [0200] 在662，实时注释过程436接收来自用户的命令信号，以准备用于生成输出和存储的数据文件。例如，图像数据、音频信号数据、注释图像和/或一系列图像(例如，视频剪辑)可以被标记用于存储。可以使用特定数据格式(例如DICOM格式)的注释图像来生成输出文件。 [0201] 在664，EIA系统242发送输出文件准备就绪的消息，这可以在EIA系统242从用户接收到准备数据文件命令信号之后的设定时间(例如，20秒或更短)之后发生。此时，输出文件可以显示在监视器上，存储在存储元件中，和/或传输到远程设备。报告也可以打印出来。 [0202] 在666，EIA系统242在程序结束时关闭操作AI平台和麦克风。替代地，EIA系统242接收指示AI平台和麦克风被关闭的信号。EIA系统242可以由用户通过输入软件命令来断电，以启动系统关闭并禁用来自电源单元136的电力。 [0203] 参考图7，图7示出了图像分析训练算法700的示例性实施例的示意图。编码器720接收输入X 790(例如，经由输入模块144)。输入X 790是由医学成像设备(例如内窥镜220)提供的一系列图像中的至少一个图像。编码器720使用至少一个卷积神经网络(CNN)将输入X 790压缩成特征向量730。特征向量730可以是为了模式识别的目的描述输入X 790的n维向量或数值特征矩阵。编码器720可以通过仅允许2x2个补丁中的最大值(即，最大池)在多个位置向CNN的特征层传播来执行压缩。 [0204] 特征向量730然后被输入到解码器770。解码器770从低分辨率特征向量730重构高分辨率图像780。 [0205] 分类器740将特征向量730映射到目标类750上的分布中。对于被标记(即，用类别或分类进行注释)的输入图像，可以与编码器720和解码器770一起训练分类器740。这可能是有利的，因为它鼓励编码器720和解码器770学习对分类有用的特征，同时共同学习如何对这些特征进行分类。 [0206] 分类器740可以由2个卷积层构成，这些卷积层将通道维度减少一半，然后减少为1，然后是全连接(FC)线性层，以将隐藏状态投影到大小等于类别数量的实值向量中。结果使用映射函数(例如softmax)进行映射，并表示目标类上的分类分布。在卷积层之间可以使用swish激活函数(例如，x*sigmoid(x))。分类器740的输出提供了模型为输入图像中给定OOI的每个类别分配的概率。 [0207] 编码器720、解码器770和分类器740使得EIA系统242能够执行半监督训练。半监督训练是有利的，因为它允许EIA系统242用更少的标记训练数据集来构建图像分析算法。 [0208] 给定图像Xj，根据以下公式为参数的最大似然(ML)学习定义自动编码器损失(LAE)： [0209] LAE(xj)＝(p(x＝xj)log p(x＝xj\|h＝E\|h＝Ep(x＝xj\|‑p(x＝xj))log(1‑p(x＝xj\|h＝E\|h＝Ej\|h＝ [0210] 其中p(x＝xj)表示输入图像，p(x＝xj\|h＝E\|(x))表示重构图像(即，来自解码器的重构图像与输入图像相同的概率)，两者都被解释为彩色图像的通道和像素表示上的伯努利分布。伯努利分布提供了输入图像和重构图像之间一致性的度量。每个图像像素包括3个通道(红色、绿色和蓝色)。每个通道都有一个在[0，…，1]范围内的实数，表示相应颜色的强度，其中0表示无强度，1表示最大强度。由于范围是[0，…，1]，因此强度值可以用作LAE(xj)中的概率，LAE是模型和样本数据分布之间的二进制交叉熵(BCE)。使用随机梯度下降最小化LAE需要学习过程。LAE最小化鼓励学习捕获图像内部信息的特征向量。它通过单独使用编码的特征向量来重构输入图像。也就是说，LAE最小化鼓励学习信息特征，在标签可用的情况下，这些信息特征可以用于分类。LAE可以以无监督的方式进行训练，这意味着EIA系统242不需要标记的训练数据集来构建。 [0211] 给定标记的图像(xi，yi)，EIA系统242根据以下定义用于参数的最大似然(ML)学习的分类器损失(LCLF)： [0212] LCLF(xi,yi)＝log p(y＝yi\|h＝E\|h＝Eg [0213] 其中p(y＝yi\|h＝E\|(x))是类别yi的概率，LCLF(xi，yi)是模型和样本分类分布之间的离散交叉熵(CE)。LCLF鼓励所学习的特征对分类有用，并在给定要在分析流水线中使用的输入图像的情况下提供每个类别的概率。LCLF是以监督的方式进行训练的，这意味着服务器120需要标记的训练数据集才能构建。LCLF可以被认为是量化来自模型的预测与由训练数据提供的地面实况标签之间的一致性的损失。在LCLF是标准交叉熵损失的情况下，这相当于使用模型赋予正确类别的log‑softmax概率。 [0214] 数据集D上的半监督损失定义如下： [0215] LCLF(D)＝下：用模型iLCLF(xi,yi))+1M(MjLAE(xj))， [0216] 其中λ控制分类分量的权重，N是标记图像的数量，M是未标记图像的数目，并且通常N< [0217] 可以分析一系列医学图像(例如，内窥镜检查视频流)以进行对象检测，从而使用不同的算法来确定图像中的OOI。可以使用多个开源数据集和/或独家医疗诊断程序数据集来训练算法。例如，在结肠镜检查的情况下，数据集包括在健康、不健康、不同类中用OOI分类的图像和未标记的结肠镜检查图像，所有这些图像的示例在图9、图10和图11中示出。算法(例如，图像分析算法、对象检测算法)可以查看组织的形态特征来对组织进行分类，如果不能清楚地识别组织，则将其分配给“未聚焦组织”(或模糊)类。因此，未聚焦组织类中的图像是不充分和/或质量差的图像，使得不能准确地执行对象检测和/或分类。对于其他医疗应用和/或成像模式，可以基于要定位和分类的感兴趣对象来使用其他类。 [0218] 系统100或EIA系统242(在内窥镜检查的上下文中)可以在用于OOI分类的机器学习方法的训练期间将监督方法710和无监督方法760组合。该算法组(例如，一起工作的两个或更多个算法)可以使用U‑net架构(例如，如图8A或图8B所示)。训练是在胃肠道内窥镜检查的背景下描述的，但应该理解，通过使用具有期望被检测和分类的各种对象的图像的训练集，可以针对其他类型的内窥镜检查、其他类型的医疗应用和/或其他成像模式来进行训练。 [0219] 注释图像数据集790(例如，带注释的内窥镜检查图像数据集)也可以用于训练监督方法710。在这种情况下，编码器(E)720将给定图像投影到潜在特征空间中，并构建算法/特征向量730，使得分类器(C)740能够将特征映射到目标类上的分布中，并基于训练图像750中疾病/组织的形态学特征来识别多个类。 [0220] 通过使用未标记图像，辅助解码器(G)770使用重构方法780将特征映射到图像上的分布中。为了在U‑net架构中实现重构方法780，可以将图像分解为像素，并且可以使用图像重构算法从检测到的信号中获得初始压力分布(例如，如U‑net架构的右侧图解所示)。无监督方法760可以通过使特征能够在每个类中使用较少数量的注释图像来增加值。 [0221] 参考图8A，其示出了U‑net架构800的第一示例性实施例的框图，其可以由图像分析算法(其可以存储在程序142中)使用。 [0222] 卷积块830(例如，经由输入模块144)接收输入图像810。卷积块830由卷积层、激活层和池化层(例如，串联)组成。卷积块830产生特征XXX。在图8A的左上角示出了第一卷积块830的一个示例。 [0223] 去卷积块接收由卷积块和先前去卷积块之一生成的特征。例如，图8A右上角的去卷积块820接收由卷积块830生成的特征XXX以及前一个(即，下一个)去卷积块的输出。去卷积块840由卷积层、转置卷积层和激活层组成。去卷积块840产生输出特征820。例如，输出特征820可以是数字数组。去卷积块840将信息添加到提供给它的特征，允许在给定相应特征的情况下重构图像。 [0224] 分类器块850由卷积层、激活层和完全连接层组成。分类器块850接收由一系列卷积块中的最后一个卷积块产生的特征XXX。分类器块850在正被分析的图像中产生一个或多个对象的类。例如，每个图像或图像的区域可以用一个或几个类来标记，例如对于胃肠道内窥镜检查的示例，“是息肉”或“不是息肉”，但是其他类可以用于其他类型的内窥镜检查过程、医疗过程和/或成像模式。 [0225] 参考图8B，其示出了U‑net架构860的第二示例性实施例的框图，其可以由图像分析算法(其可以存储在程序142中)使用。 [0226] 在864，第一卷积层接收(例如，经由输入模块144)输入图像。卷积块830(例如，经由输入模块144)接收输入图像810。该级别的各种卷积层线性混合输入图像，并且仅使用卷积的线性部分(例如，对于3x3卷积，将丢失一个像素阶)，以便学习输入图像的简明特征(即表示)。这可以通过conv 3x3 ReLu操作来完成。在每次后续的conv 3x3 ReLu操作之后，层的分辨率降低。例如，层的分辨率可以从572x572(具有3个通道)到570x570(具有64个通道)再到568x568(具有64个通道)。在最后一层，可以应用最大池2x2运算来产生用于下一卷积层的卷积层(在868)。此外，可以将拷贝和裁剪操作应用于卷积层以进行去卷积(在896)。 [0227] 在868，随后的卷积层从上面的卷积层接收卷积层(来自864)。各个层线性混合输入图像，并且仅使用卷积的线性部分，以便学习输入图像的简明特征(即，表示)。这是通过conv 3x3，ReLu操作完成的。在每次后续的conv 3x3ReLu操作之后，层的分辨率降低。例如，层的分辨率可以从284x284(具有64个通道)到282x282(具有128个通道)再到280x280(具有128个通道)。在最后一层，应用最大池2x2运算来产生用于下一卷积层的卷积层(在872)。此外，将拷贝和裁剪操作应用于卷积层以进行去卷积(在892)。 [0228] 在872，另一个后续卷积层从上面的先前卷积层接收卷积层(来自868)。该级别的各个层线性混合输入图像，并且仅使用卷积的线性部分，以便学习输入图像的简明特征(即，表示)。这是通过conv 3x3，ReLu操作完成的。在每次后续的conv 3x3 ReLu操作之后，层的分辨率降低。例如，层的分辨率可以从140x140(具有128个通道)到138x138(具有256个通道)再到136x136(具有256个通道)。在最后一层，应用最大池2x2运算来产生用于下一卷积层的卷积层(在876)。此外，将拷贝和裁剪操作应用于卷积层以进行去卷积(在888)。 [0229] 在876，卷积层从上面的先前卷积层接收卷积层(来自872)。各个层线性混合输入图像，并且仅使用卷积的线性部分，以便学习输入图像的简明特征(即，表示)。这是通过conv 3x3，ReLu操作完成的。在每次后续的conv 3x3 ReLu操作之后，层的分辨率降低。例如，层的分辨率可以从68x68(具有256个通道)到66x66(具有512个通道)再到64x64(具有512个通道)。在最后一层，应用最大池2x2运算来产生用于下一卷积层的卷积层(在880)。此外，将拷贝和裁剪操作应用于卷积层以进行去卷积(在884)。 [0230] 在880，卷积层从上面的卷积层接收特征(来自876)。各个层线性混合输入图像，并且仅使用卷积的线性部分，以便学习输入图像的简明特征(即，表示)。这是通过conv 3x3，ReLu操作完成的。在每次后续的conv 3x3 ReLu操作之后，层的分辨率降低。例如，层的分辨率可以从32x32(具有512个通道)到30x30(具有512个通道)再到28x28(具有512个通道)。在最后一层，向上卷积池2x2操作被应用于卷积层以进行去卷积(在884)。 [0231] 解码器770然后在884、888、892和896执行去卷积。解码器770通过使用一系列线性变换向特征添加维度来从特征重构图像，该线性变换将单个维度映射到2x2补丁(向上卷积)。对于每个像素，使用RGB通道(红、绿、蓝)来表示重构的图像，其中每个值都在[0，…，1]的范围内。值为0表示没有强度，值为1表示完全强度。重构的图像在尺寸和格式上与输入图像相同。 [0232] 在884，去卷积层接收来自下面的卷积层的特征(来自880)和来自先前卷积的裁剪图像(来自876)。这些步骤构建高分辨率分割图，其中包含一系列向上卷积和与来自收缩路径的高分辨率特征的串联。这种向上卷积使用学习的内核将每个特征向量映射到2X2像素的输出窗口，然后是非线性激活函数。例如，层的分辨率可以从56x56(具有1024个通道)到54x54(具有512个通道)再到52x524(具有512个通道)。在最后一层，向上卷积池2x2操作被应用于去卷积层以用于下一个去卷积层(在888)。 [0233] 在888，去卷积层接收来自下面的去卷积层的去卷积的层(来自884)和来自先前卷积的裁剪图像(来自872)。这些步骤构建高分辨率分割图，其中包含一系列向上卷积和与来自收缩路径的高分辨率特征的串联。这种向上卷积使用学习的内核将每个特征向量映射到2X2像素的输出窗口，然后是非线性激活函数。例如，层的分辨率可以从104x104(具有512个通道)到102x102(具有256个通道)再到100x100(具有256个通道)。在最后一层，向上卷积池 2x2操作被应用于去卷积层以用于下一个去卷积层(在892)。 [0234] 在892，去卷积层接收来自下面的去卷积层的去卷积的层(来自888)和来自先前卷积的裁剪图像(来自868)。这些步骤构建高分辨率分割图，其中包含一系列向上卷积和与来自收缩路径的高分辨率特征的串联。这种向上卷积使用学习的内核将每个特征向量映射到2X2像素的输出窗口，然后是非线性激活函数。例如，层的分辨率可以从200x200(具有256个通道)到198x198(具有128个通道)再到196x196(具有128个通道)。在最后一层，向上卷积池 2x2操作被应用于去卷积层以用于下一个去卷积层(在896)。 [0235] 在896，去卷积层(例如，通过输入模块144)接收来自下面的去卷积层的去卷积的层(来自892)和来自先前卷积的裁剪图像(来自864)。这些步骤构建高分辨率分割图，其中包含一系列向上卷积和与来自收缩路径的高分辨率特征的串联。这种向上卷积使用学习的内核将每个特征向量映射到2X2像素的输出窗口，然后是非线性激活函数。例如，层的分辨率可以从392x392(具有128个通道)到390x390(具有64个通道)再到388x388(具有64个通道)。在最后一层，将卷积1x1运算应用于去卷积层，重构图像(在898)。 [0236] 在898，输出具有由卷积产生的特征的重构图像。重构的图像在尺寸和格式上与输入图像相同。例如，重构图像的分辨率可以是572x572(具有3个通道)。 [0237] 尽管图8B示出了具有三个卷积层的U‑net架构，但是U‑net架构可以以存在更多卷积层的方式来构造(例如，对于不同大小的图像或对于不同深度的分析)。 [0238] 参考图9，其示出了具有健康形态特征的内窥镜检查图像900的示例。具有健康形态特征的内窥镜检查图像900从左到右包括正常盲肠、正常幽门和正常z线。这些具有健康形态特征的结肠镜检查图像900取自Kvasir数据集。具有健康形态特征的内窥镜检查图像900可以由EIA系统242用于以监督或半监督的方式训练图像分析算法。 [0239] 参考图10，其示出了具有不健康形态特征的内窥镜检查图像1000的示例。具有不健康形态特征的内窥镜检查图像1000从左到右依次为染色的隆起息肉、染色的切除边缘、食管炎、息肉和溃疡性结肠炎。这些具有不健康形态特征的内窥镜检查图像1000取自Kvasir数据集。具有不健康形态特征的内窥镜检查图像1000可以由EIA系统242用于以监督或半监督的方式训练图像分析算法。替代地，或除此之外，可以从其他设备/平台获得具有健康或不健康形态特征的医学图像，例如但不限于CT扫描仪、超声设备、MRI扫描仪、X光机、核医学成像机、组织学成像设备，以使本文所述的方法和系统适用于其他类型的医疗应用。 [0240] 参考图11，其示出了来自排他性数据集1100的未标记视频帧图像的示例。来自排他性数据集1100的未标记视频帧图像包括健康组织和不健康组织。EIA系统242使用来自排他性数据集1100的未标记视频帧图像来以半监督的方式训练图像分析算法。 [0241] 参考图12，其示出了报告生成过程1200的示例性实施例的框图。报告可以以某种格式生成，例如DICOM报告格式。应当虽然过程1200被描述为由EIA系统242执行，但这仅用于说明目的，并且应当理解，可以使用系统100或另一合适的处理系统。然而，更一般地，当用于其他医学成像应用和成像模式时，EIA系统242可以被认为是系统100的替代示例性实施例。在这种情况下，对内窥镜检查、内窥镜或内窥镜检查图像的任何引用都可以分别用其他医学成像程序、成像模式、成像设备或医学图像代替，例如表1中给出的示例，并且过程1200可以与这些其他医学成像程序、成像模式和成像设备以及医学图像一起使用。 [0242] 在1210，EIA系统242加载患者人口统计框架。患者人口统计框架可以包括患者标识符，例如正在进行内窥镜检查过程的患者的姓名、出生日期、性别和医疗保健号码。EIA系统242可以在内窥镜检查监视器240上显示患者人口统计框架。EIA系统242可以使用来自内窥镜检查监视器240的静止图像来收集患者数据。 [0243] 在1220，EIA系统242执行光学字符识别算法，该算法可以存储在程序142中。EIA系统242使用光学字符识别算法来读取患者人口统计框架。光学字符识别算法可以使用能够识别图像的特定位置中的文本字符的一组代码。特别地，光学字符识别算法可以查看显示患者信息的图像的边界。 [0244] 在1230，EIA系统242提取读取的患者信息，并使用该信息来生成报告。 [0245] 在1240，EIA系统242加载关键图像(即，视频帧或来自一系列图像的图像)和/或视频剪辑(当适用时)，其中注释(例如，来自数据库150)用于报告生成。关键帧可以是通过图像和注释数据匹配算法识别的关键帧。 [0246] 在1250，EIA系统242生成报告。报告可以例如经由输出模块148输出到显示器和/或可以经由网络单元发送到电子健康记录系统或电子医疗记录系统。 [0247] 参考图13，其示出了可以由EIA系统242使用的用于处理一系列图像并使用图像处理算法和注释算法的方法1300的示例性实施例的框图。应当虽然方法1300被描述为由EIA系统242执行，但这仅用于说明目的，并且应当理解，可以使用系统100或另一合适的处理系统。然而，更一般地，当用于其他医学成像应用和成像模式时，EIA系统242可以被认为是系统100的替代示例性实施例。在这种情况下，对内窥镜检查、内窥镜或内窥镜检查图像的任何引用都可以分别用其他医学成像程序、成像模式、成像设备或医学图像代替，例如表1中给出的示例，并且过程1300可以与这些其他医学成像程序、成像模式和成像设备以及医学图像一起使用。 [0248] 在1310，EIA系统242接收一系列图像1304并从该系列图像中裁剪图像，例如来自输入视频流的内窥镜检查图像。例如，可以使用诸如OpenCV(开源库)之类的图像处理库来完成裁剪。EIA系统242可以输入原始图形和x最小值、x最大值、y最小值和y最大值。OpenCV然后可以生成裁剪图像。 [0249] 在1320，EIA系统242检测裁剪的内窥镜检查图像中的一个或多个对象。一旦检测到一个或多个对象，就确定它们的位置，然后确定每个对象的分类和置信度得分。这可以使用经过训练的对象检测算法来完成。对象检测算法的架构可以是YOLOv4。例如，可以使用公共数据库或使用Darknet来训练对象检测算法。 [0250] 可以针对来自图像系列1305的多个图像重复动作1310和1320。 [0251] 在1330，EIA系统242接收信号(560、562、564)以开始对来自图像序列1305的一个或多个图像进行注释。然后，EIA系统242执行语音识别、语音到文本转换，并生成注释数据1335，这可以如前所述进行。 [0252] 方法1300然后移动到1340，将注释数据添加到匹配图像以创建注释图像。同样，这可以基于用户提供的命令和评论对来自图像系列1305的多个图像重复。可以在输出视频流1345中输出注释图像。 [0253] 下面的表2显示了使用监督方法和无监督方法对组织进行分类的结果。 [0254] 表2：组织分类结果 [0255] 类监督精度半监督精度健康/不健康 0.9231 0.8956 息肉‑非息肉 0.8368 0.7881 健康/不健康(未染色) 0.8975 0.8608 健康/不健康(每类) 0.8493 0.7724 染色‑切除‑边缘 0.8299 0.7699 正常盲肠 0.8849 0.8999 正常幽门 0.975 0.9449 [0256] 现在参考图14，其示出了YOLOv4的训练结果的图表1400，该图表1400表示由EIA系统242使用的语音识别算法的准确性，并且示出了相对于真阳性(TP)值的阳性语音识别结果(P)率。图表的x轴表示训练迭代次数(一次迭代是一小批图像，由32个图像组成)，y轴表示使用验证组进行息肉检测的TP检测率。图表1400示出了TP率在迭代500处从0.826开始，并且在迭代1000之后增加到0.922。在1000到3000次迭代中，TP率通常保持在0.92到0.93左右的水平。经过3000次迭代后，TP可以达到0.93。 [0257] 选择人工智能算法提供的分类精度作为分析指标，以评估对象检测或语音识别的准确性。术语假阳性(FP)是指机器学习模型预测“真”值的错误，即使实际观测值是“假”的。另一方面，假阴性(FN)表示一种错误，即即使实际观测值为“真”，机器学习模型也会输出“假”的预测值。当使用机器学习模型时，FP是降低医学领域中软件分类平台可靠性的主要因素。结果，已经使用诸如精度之类的度量来验证本文所描述的经过训练的对象和语音识别算法。 [0258] 参考图15，其示出了语音识别算法1500的示例性实施例的框图。语音识别算法1500可以使用程序142、预测引擎152和机器学习模型146中的一个或多个来实现。应当理解，在其他实施例中，语音识别算法1500可以与其他医学成像过程、成像模式、成像设备或医学图像一起使用，例如表1中给出的示例。 [0259] 语音识别算法1500接收通过麦克风270获得的原始音频数据1510。语音识别算法1500包括卷积神经网络块1520和变换器块1530。卷积神经网络块1520接收原始音频数据 1510。卷积神经网络块1520从原始音频数据1510中提取特征以生成特征向量。卷积神经网络块1520中的每个卷积神经网络可以完全相同，包括所使用的权重。语音识别算法1500中的卷积神经网络块1520的数量可以取决于原始音频数据1510的长度。 [0260] 变换器块1530从卷积神经网络块1520接收特征向量。变换器块1530通过从特征向量中提取特征来产生与用户输入相对应的字母。 [0261] 参考图16，其示出了可以由图像分析算法使用的对象检测算法1620的数据流1600的示例性实施例的框图。对象检测算法1620可以使用程序142、预测引擎152和机器学习模型146中的一个或多个来实现。应当理解，在其他实施例中，对象检测算法1620可以与其他医学成像过程、成像模式、成像设备或医学图像一起使用，例如表1中给出的示例。 [0262] 对象检测算法1620接收处理后图像1610。处理后图像1610可以是原始图像的裁剪和调整大小的版本。 [0263] 处理后的图像1610被输入到CPSDarknet53 1630中，CPSDarknet 53 1630是可以从处理后图像1610中提取特征的卷积神经网络。 [0264] CSPDaknet53 1630的输出被提供给空间金字塔池运算器1640和路径聚合网络1650。 [0265] 空间金字塔池化操作符1640是可以去除CSPDaknet53 1630的固定大小约束的池化层。空间金字塔池化运算器1640的输出被提供给路径聚合网络1650。 [0266] 路径聚合网络1650通过从CSPDaknet53 1630的输出中提取具有不同深度的特征来处理来自CSPDaknet 53 1630和空间金字塔池运算器1640的输出。路径聚合网络1650被输出到Yolo Head 1660。 [0267] Yolo Head 1660预测并产生OOI的类1670、边界框1680和置信度得分1690。类1670是OOI的分类。图9‑11示出了具有分类对象的图像的各种示例。例如，类1670可以是息肉。然而，如果分类1690没有被确定为具有足够高的置信度得分，则该图像可以被分类为可疑。 [0268] 现在参考图17，其中示出了包括根据本文教导生成的注释图像的报告1700的示例性实施例。报告1700包括在根据本文教导的医疗过程(例如，诸如内窥镜检查过程的医疗诊断程序)期间发生的图像和音频捕获期间收集的各种信息。报告1700通常包括各种元素，包括但不限于：(a)患者数据(即，姓名、出生日期等)，(b)关于医疗过程的信息(例如，手术日期，是否获得任何活检，是否进行了任何治疗等)，(c)描述字段，用于提供对程序和任何发现的描述，(d)一个或多个注释图像，以及(e)包括用于对患者进行进一步治疗/随访的任何建议的文本的建议字段。在其他实施例中，除了注释图像之外的一些元素可以是可选的。在某些情况下，注释图像以及边界框、注释数据和置信度得分可以包括在报告中。在其他情况下，边界框、注释数据和/或置信度得分可以不包括在报告中。 [0269] 在本文描述的至少一个实施例中，EIA系统242或系统100可以被配置为执行某些功能。例如，可以显示给定图像，其中OOI被检测和分类，并且该分类被包括在给定图像中。用户然后可以在他们的讲话中提供评论，其中他们可能不同意由EIA系统242提供的自动分类。在这种情况下，用户的评论被转换为与给定图像匹配的文本字符串。使用文本字符串生成注释数据，并且将注释数据链接到(例如，覆盖在或叠加在)给定图像上。 [0270] 在至少一个实施例中，可以显示给定图像，其中OOI被检测并自动分类，并且自动分类被包括在给定图像中。用户可以查看给定的图像，并且可能想要再次检查自动分类是否正确。在这种情况下，用户可以提供查看具有与自动分类相同分类的OOI的其他图像的命令。用户的语音可以包括该命令。因此，当执行语音到文本转换时，可以审查文本以确定其是否包含命令，例如对具有OOI的参考图像的请求，所述OOI已经以与所述至少一个OOI相同的分类进行了分类。然后，EIA系统242或系统100的处理器可以从数据存储中检索参考图像，显示参考图像，并通过用户的语音接收来自用户的后续输入，该后续输入确认或否定对至少一个OOI的自动分类。可以基于该后续输入生成注释数据，然后将其覆盖在给定图像上。 [0271] 在本文描述的至少一个实施例中，EIA系统242或系统100可以被配置为执行某些功能。例如，可以显示给定图像，其中OOI被检测和分类，并且该分类被包括在给定图像中。用户然后可以在他们的讲话中提供评论，其中他们可能不同意由EIA系统242提供的自动分类。在这种情况下，用户的评论被转换为与给定图像匹配的文本字符串。使用文本字符串生成注释数据，并且将注释数据链接到(例如，覆盖在或叠加在)给定图像上。 [0272] 在本文描述的至少一个实施例中，EIA系统242或系统100可以被配置为执行某些功能。例如，可以显示给定图像，其中检测到OOI，但是与分类相关联的置信度得分不足以对OOI进行置信度分类。在这种情况下，给定图像可以被显示并指示为可疑，在这种情况中，可以接收来自用户的指示用户对具有未确定OOI的至少一个图像的分类的输入。然后，可以用用户分类对给定图像进行注释。 [0273] 在本文描述的至少一个实施例中，EIA系统242或系统100可以被配置为在生成注释图像时覆盖时间戳，其中时间戳指示图像最初由医学成像设备(例如内窥镜220)获取的时间。 [0274] 尽管本文所描述的申请人的教导结合各种实施例用于说明目的，但并不意图将申请人的教导局限于本文所描述实施例旨在作为实例的此类实施例。相反，在不偏离本文所述实施例的情况下，本文所描述和说明的申请人的教导包括各种替代方案、修改和等效方案，其一般范围在所附权利要求中限定。