一种公共安全数字互动体验方法及系统转让专利

申请号 : CN202211532510.4

文献号 : CN115543095B

文献日 : 2023-04-11

本发明涉及数字互动的技术领域，揭露了一种公共安全数字互动体验方法及系统，所述方法包括：基于公共安全体验场景文本，利用扩散模型生成公共安全体验场景图像；基于生成的公共安全体验场景图像进行三维公共安全体验场景重建；对公共安全体验三维场景进行边缘结构增强；利用用户行为监测算法实时监测用户位置和用户动作；若监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染。本发明基于用户输入的公共安全体验场景文本实现可自动调节的、多种类的公共安全体验场景构建，并基于三维重建方法得到公共安全体验三维场景，让体验者更直观、更深刻的体验到公共安全主题的模拟场景，并进行实时交互。

1.一种公共安全数字互动体验方法，其特征在于，所述方法包括：S1：人工输入公共安全体验场景文本，基于输入文本利用扩散模型生成公共安全体验场景图像；

S2：基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，得到公共安全体验三维场景；

S3：对公共安全体验三维场景进行边缘结构增强，包括：对重建得到的公共安全体验三维场景进行边缘结构增强，所述边缘结构增强的流程为：S31：计算重建得到的公共安全体验三维场景F在X、Y、Z轴方向的二阶偏导数，构成公共安全体验三维场景F的偏导矩阵：，其中：

偏导矩阵中的值表示公共安全体验三维场景F在任意两个方向的偏导结果；

S32：对偏导矩阵进行特征分解，分解得到其中最大的三个特征值；

S33：构建三维滤波系数；

S34：将公共安全体验三维场景中的像素点输入到基于三维滤波系数的滤波器中，所述滤波器的滤波公式为：，其中：

表示公共安全体验三维场景中任意像素点p的像素值，表示对应像素点p的滤波结果，表示像素值阈值；

e表示自然常数；

S4：利用用户行为监测算法实时监测用户位置和用户动作；

S5：若监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染；

其中，所述S1中人工输入公共安全体验场景文本，包括：用户在公共安全数字互动体验前向公共安全数字体验系统输入公共安全体验场景文本，所述公共安全体验场景文本描述了待体验的公共安全体验场景布置情况以及场景中存在的物品；

其中，所述S1中基于输入文本利用扩散模型生成公共安全体验场景图像，包括：构建扩散模型，将公共安全体验场景文本输入到扩散模型中，扩散模型输出对应的公共安全体验场景图像，所述扩散模型包括文本特征提取层以及图像生成层，所述公共安全体验场景图像的生成流程为：将公共安全体验场景文本输入到扩散模型的文本特征提取层，文本特征提取层利用独热法对公共安全体验场景文本进行编码处理，利用embedding方法将编码后的文本转换为文本特征向量y；

将文本特征向量y输入到图像生成层，图像生成层基于文本特征向量的引导生成对应的公共安全体验场景图像f，所述公共安全体验场景图像的生成公式为：，其中：

表示对扩散模型中待采样图像进行基于文本特征向量f引导的T步采样；

其中，所述S1中所述扩散模型的训练流程包括：

S11：构建包含m张图像以及描述图像文本特征向量的图像训练集，所述图像训练集包含多种不同公共安全体验场景的图像，对图像训练集中的任意第i张基准图像，进行T步的图像加噪扩散；所述图像加噪扩散的流程为：，，其中：表示对图像进行T步图

像加噪扩散的过程序列，表示对第t‑1步的图像加噪扩散结果添加高斯噪声，得到第t步的图像加噪扩散结果的过程；

表示在第t步图像加噪扩散过程中所添加的高斯噪声，所述高斯噪声的分布为高斯分布，表示高斯分布的均值，表示第t步所添加高斯噪声的方差；

S12：在每一步加噪扩散过程中添加高斯噪声所掩盖内容的文本特征向量，得到基于文本特征向量条件的图像加噪扩散流程：，其中：

表示基准图像的文本特征向量，表示第t步加噪扩散过程中添加高斯噪声所掩盖内容的文本特征向量；

S13：加噪图像的采样过程即为加噪图像的复原过程，基于条件的加噪图像采样公式为：，，，其中：

表示复原条件，选取最小的T步加噪图像作为待采样图像，表示基于条件复原的贝叶斯梯度，表示将采样复原为的引导参数，表示符合正态分布的采样分布参数；

表示将采样复原为的公式。

2.如权利要求1所述的一种公共安全数字互动体验方法，其特征在于，所述S2中基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，包括：基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，得到公共安全体验三维场景，所述三维公共安全体验场景的重建流程为：S21：提取所生成公共安全体验场景图像f的SIFT特征，得到公共安全体验场景图像f的K组特征向量集合，；

S22：构建三维网格图像，将公共安全体验场景图像的每个特征向量匹配到三维网格图像的网格顶点位置，所述三维网格图像中三维网格的边长为，其中v为所生成公共安全体验场景图像f中行像素的数目，所述特征向量匹配的公式为：，其中：

为特征向量的长度；

为特征向量的中心在二维图像f中X轴的坐标位置；

为特征向量的中心在二维图像f中Y轴的坐标位置；

为特征向量在三维网格图像中的立体坐标；

S23：随机选取三维网格图像中的网格顶点作为初始建模点，选取与初始建模点坐标距离最小的邻近特征向量作为初始建模点的拓扑节点，并连接初始建模点和拓扑节点，寻找与初始建模点以及拓扑节点坐标距离最小的邻近特征向量，连接三个特征向量构成初始三角形；

S24：将所构成三角形的顶点为初始建模点，重复上述步骤，直到将三维网格图像中的所有特征向量相连；

S25：对于连接后的任意三角形，将三角形顶点所对应特征向量的像素分布梯度直方图渲染为三角形区域的像素分布结果，得到公共安全体验三维场景F。

3.如权利要求1所述的一种公共安全数字互动体验方法，其特征在于，所述S4中利用用户行为监测算法监测用户位置和用户动作，包括：利用用户行为监测算法实时监测用户位置和用户动作，所述用户位置和用户动作的监测流程为：S41：为用户发放交互手环，利用交互手环内的位置传感器以及姿态传感器实时确定用户的位置和姿态信息，其中所述用户的姿态信息包括手臂与身躯的夹角以及手臂的加速度；

S42：计算用户实时位置与公共安全体验三维场景中物品位置的距离，若距离小于预设位置阈值则表示用户处于物品附近；

S43：若监测到用户处于公共安全体验三维场景中物品的附近区域，则将用户的姿态信息输入到交互动作识别模型中，所述交互动作识别模型为二分类模型，输出结果为发生交互动作或未发生交互动作。

4.如权利要求3所述的一种公共安全数字互动体验方法，其特征在于，所述S5中当监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染，包括：预设置所生成公共安全体验三维场景中不同物体的交互响应规则，当监测到用户与公共安全体验三维场景中的物品发生交互动作，则基于交互响应规则对交互物品进行实时交互渲染，所述交互渲染的方式包括基于交互响应规则的交互物品形状重构以及颜色重构。

5.一种公共安全数字互动体验系统，其特征在于，所述系统包括：图像生成装置，用于接收公共安全体验场景文本，基于输入文本利用扩散模型生成公共安全体验场景图像；

三维重建装置，用于基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，对公共安全体验三维场景进行边缘结构增强；

交互控制装置，用于利用用户行为监测算法实时监测用户位置和用户动作，若监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染，以实现如权利要求1‑4任一项所述的一种公共安全数字互动体验方法。

一种公共安全数字互动体验方法及系统

技术领域

[0001] 本发明涉及数字交互体验的技术领域，尤其涉及一种公共安全数字互动体验方法及系统。

背景技术

[0002] 现有的公共安全教育方法以文本教育为主，通过参观见学等方式提高人们的公共安全意识，但是该种方式存在受众面小，不易推广、实施成本高等缺点。且传统公共安全教育方法缺乏直观的场景体验并脱离事故现场，难以让人们足够重视公共安全防范的重要性，制约了公共安全知识的宣传、普及以及教育推进。针对该问题，本专利提出一种公共安全数字互动体验方法，通过数字化方式实现公共安全教育。

发明内容

[0003] 有鉴于此，本发明提供一种公共安全数字互动体验方法，目的在于1）基于用户输入的公共安全体验场景文本实现可自动调节的、多种类的公共安全体验场景构建，并基于三维重建方法得到公共安全体验三维场景，在虚拟环境和真实环境之间搭建起一个桥梁，让体验者更直观、更深刻的体验到公共安全主题的模拟场景，解决了传统公共安全宣传、教育的枯燥传播问题；2）利用边缘结构增强方法对所生成的公共安全体验三维场景进行结构增强，有效标记场景中的物体，并利用用户行为监测算法实时监测用户位置和用户动作，若监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染，用户可以实现在不借助复杂穿戴设备或亲临公共安全场景下，就能与公共安全主题下的物品进行实时交互。

[0004] 为实现上述目的，本发明提供的一种公共安全数字互动体验方法，包括以下步骤：

[0005] S1：人工输入公共安全体验场景文本，基于输入文本利用扩散模型生成公共安全体验场景图像；

[0006] S2：基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，得到公共安全体验三维场景；

[0007] S3：对公共安全体验三维场景进行边缘结构增强；

[0008] S4：利用用户行为监测算法实时监测用户位置和用户动作；

[0009] S5：若监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染。

[0010] 作为本发明的进一步改进方法：

[0011] 可选地，所述S1中人工输入公共安全体验场景文本，包括：

[0012] 用户在公共安全数字互动体验前向公共安全数字体验系统输入公共安全体验场景文本，所述公共安全体验场景文本描述了待体验的公共安全体验场景布置情况以及场景中存在的物品，在本发明实施例中，所述公共安全体验场景包括地震安全体验场景，交通安全体验场景，城市安全体验场景以及应急救护体验场景等。

[0013] 可选地，所述S1中基于输入文本利用扩散模型生成公共安全体验场景图像，包括：

[0014] 构建扩散模型，将公共安全体验场景文本输入到扩散模型中，扩散模型输出对应的公共安全体验场景图像，所述扩散模型包括文本特征提取层以及图像生成层，所述公共安全体验场景图像的生成流程为：

[0015] 将公共安全体验场景文本输入到扩散模型的文本特征提取层，文本特征提取层利用独热法对公共安全体验场景文本进行编码处理，利用embedding方法将编码后的文本转换为文本特征向量y；

[0016] 将文本特征向量y输入到图像生成层，图像生成层基于文本特征向量的引导生成对应的公共安全体验场景图像f，所述公共安全体验场景图像的生成公式为：

[0017]

[0018] 其中：

[0019] 表示对扩散模型中待采样图像进行基于文本特征向量f引导的T步采样，通过对加噪图像进行多步条件引导的采样降噪处理，最终成功降噪的图像即为公共安全体验场景图像。

[0020] 可选地，所述S1中所述扩散模型的训练流程包括：

[0021] S11：构建包含m张图像以及描述图像文本特征向量的图像训练集，所述图像训练集包含多种不同公共安全体验场景的图像，对图像训练集中的任意第i张基准图像，进行T步的图像加噪扩散；

[0022] 所述图像加噪扩散的流程为：

[0023]

[0024]

[0025] 其中：

[0026] 表示对图像进行T步图像加噪扩散的过程序列，表示对第t‑1步的图像加噪扩散结果添加高斯噪声，得到第t步的图像加噪扩散结果的过程；

[0027] 表示在第t步图像加噪扩散过程中所添加的高斯噪声，所述高斯噪声的分布为高斯分布，表示高斯分布的均值，表示第t步所添加高斯噪声的方差；

[0028] S12：在每一步加噪扩散过程中添加高斯噪声所掩盖内容的文本特征向量，得到基于文本特征向量条件的图像加噪扩散流程：

[0029]

[0030] 其中：

[0031] 表示基准图像的文本特征向量，表示第t步加噪扩散过程中添加高斯噪声所掩盖内容的文本特征向量；

[0032] S13：加噪图像的采样过程即为加噪图像的复原过程，所述基于条件的加噪图像采样公式为：

[0033]

[0034]

[0035]

[0036] 其中：

[0037] 表示复原条件，选取最小的T步加噪图像作为待采样图像，表示基于条件复原的贝叶斯梯度，表示将采样复原为的引导
参数，表示符合正态分布的采样分布参数；

[0038] 表示将采样复原为的公式。

[0039] 可选地，所述S2中基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，包括：

[0040] 基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，得到公共安全体验三维场景，所述三维公共安全体验场景的重建流程为：

[0041] S21：提取所生成公共安全体验场景图像f的SIFT特征，得到公共安全体验场景图像f的K组特征向量集合，；

[0042] S22：构建三维网格图像，将公共安全体验场景图像的每个特征向量匹配到三维网格图像的网格顶点位置，所述三维网格图像中三维网格的边长为，其中v为所生成公共安全体验场景图像f中行像素的数目，所述特征向量匹配的公式为：

[0043]

[0044] 其中：

[0045] 为特征向量的长度；

[0046] 为特征向量的中心在二维图像f中X轴的坐标位置；

[0047] 为特征向量的中心在二维图像f中Y轴的坐标位置；

[0048] 为特征向量在三维网格图像中的立体坐标；

[0049] S23：随机选取三维网格图像中的网格顶点作为初始建模点，选取与初始建模点坐标距离最小的邻近特征向量作为初始建模点的拓扑节点，并连接初始建模点和拓扑节点，寻找与初始建模点以及拓扑节点坐标距离最小的邻近特征向量，连接三个特征向量构成初始三角形；

[0050] S24：将所构成三角形的顶点为初始建模点，重复上述步骤，直到将三维网格图像中的所有特征向量相连；

[0051] S25：对于连接后的任意三角形，将三角形顶点所对应特征向量的像素分布梯度直方图渲染为三角形区域的像素分布结果，得到公共安全体验三维场景F。

[0052] 可选地，所述S3中对重建得到的公共安全体验三维场景进行边缘结构增强，包括：

[0053] 对重建得到的公共安全体验三维场景进行边缘结构增强，所述边缘结构增强的流程为：

[0054] S31：计算重建得到的公共安全体验三维场景F在X、Y、Z轴方向的二阶偏导数，构成公共安全体验三维场景F的偏导矩阵：

[0055]

[0056] 其中：

[0057] 偏导矩阵中的值表示公共安全体验三维场景F在任意两个方向的偏导结果；

[0058] S32：对偏导矩阵进行特征分解，分解得到其中最大的三个特征值；

[0059] S33：构建三维滤波系数；

[0060] S34：将公共安全体验三维场景中的像素点输入到基于三维滤波系数的滤波器中，所述滤波器的滤波公式为：

[0061]

[0062] 其中：

[0063] 表示公共安全体验三维场景中任意像素点p的像素值，表示对应像素点p的滤波结果，表示像素值阈值；

[0064] e表示自然常数。

[0065] 可选地，所述S4中利用用户行为监测算法监测用户位置和用户动作，包括：

[0066] 利用用户行为监测算法实时监测用户位置和用户动作，所述用户位置和用户动作的监测流程为：

[0067] S41：为用户发放交互手环，利用交互手环内的位置传感器以及姿态传感器实时确定用户的位置和姿态信息，其中所述用户的姿态信息包括手臂与身躯的夹角以及手臂的加速度；

[0068] S42：计算用户实时位置与公共安全体验三维场景中物品位置的距离，若距离小于预设位置阈值则表示用户处于物品附近；

[0069] S43：若监测到用户处于公共安全体验三维场景中物品的附近区域，则将用户的姿态信息输入到交互动作识别模型中，所述交互动作识别模型为二分类模型，输出结果为发生交互动作或未发生交互动作，在本发明实施例中，所述交互动作识别模型的结构为支持向量机模型。

[0070] 可选地，所述S5中当监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染，包括：

[0071] 预设置所生成公共安全体验三维场景中不同物体的交互响应规则，当监测到用户与公共安全体验三维场景中的物品发生交互动作，则基于交互响应规则对交互物品进行实时交互渲染，所述交互渲染的方式包括基于交互响应规则的交互物品形状重构以及颜色重构。

[0072] 为了解决上述问题，本发明提供一种公共安全数字互动体验系统，其特征在于，所述系统包括：

[0073] 图像生成装置，用于接收公共安全体验场景文本，基于输入文本利用扩散模型生成公共安全体验场景图像；

[0074] 三维重建装置，用于基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，对公共安全体验三维场景进行边缘结构增强；

[0075] 交互控制装置，用于利用用户行为监测算法实时监测用户位置和用户动作，若监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染。

[0076] 为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

[0077] 存储器，存储至少一个指令；及

[0078] 处理器，执行所述存储器中存储的指令以实现上述所述的公共安全数字互动体验方法。

[0079] 为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的公共安全数字互动体验方法。

[0080] 相对于现有技术，本发明提出一种公共安全数字互动体验方法，该技术具有以下优势：

[0081] 首先，本方案提出一种基于公共安全体验场景文本的图像生成方法，通过构建扩散模型，将公共安全体验场景文本输入到扩散模型中，扩散模型输出对应的公共安全体验场景图像，所述扩散模型包括文本特征提取层以及图像生成层，所述公共安全体验场景图像的生成流程为：将公共安全体验场景文本输入到扩散模型的文本特征提取层，文本特征提取层利用独热法对公共安全体验场景文本进行编码处理，利用embedding方法将编码后的文本转换为文本特征向量y；将文本特征向量y输入到图像生成层，图像生成层基于文本特征向量的引导生成对应的公共安全体验场景图像f，所述公共安全体验场景图像的生成公式为：

[0082]

[0083] 其中：表示对扩散模型中待采样图像进行基于文本特征向量f引导的T步采样，通过对加噪图像进行多步条件引导的采样降噪处理，最终成功降噪的图像即为公共安全体验场景图像。所述扩散模型的训练流程包括：构建包含m张图像以及描述图像文本特征向量的图像训练集，所述图像训练集包含多种不同公共安全体验场景的图像，对图像训练集中的任意第i张基准图像，进行T步的图像加噪扩散；所述图像加噪扩散的流程为：

[0084]

[0085]

[0086] 其中：表示对图像进行T步图像加噪扩散的过程序列，表示对第t‑1步的图像加噪扩散结果添加高斯噪声，得到第t步的图像加噪扩散结果的过程；表示在第t步图像加噪扩散过程中所添加的高斯噪声，所述高斯噪声的分布为高斯分布，表示高斯分布的均值，表示第t步所添加高斯噪声
的方差；在每一步加噪扩散过程中添加高斯噪声所掩盖内容的文本特征向量，得到基于文本特征向量条件的图像加噪扩散流程：

[0087]

[0088] 其中：表示基准图像的文本特征向量，表示第t步加噪扩散过程中添加高斯噪声所掩盖内容的文本特征向量；加噪图像的采样过程即为加噪图像的复原过程，所述基于条件的加噪图像采样公式为：

[0089]

[0090]

[0091]

[0092] 其中：表示复原条件，选取最小的T步加噪图像作为待采样图像，表示基于条件复原的贝叶斯梯度，表示将采样复原为的
引导参数，表示符合正态分布的采样分布参数；表示将采样复原为的
公式。本方案利用所构建的扩散模型，基于用户输入的公共安全体验场景文本实现可自动调节的、多种类的公共安全体验场景构建，并基于三维重建方法得到公共安全体验三维场景，在虚拟环境和真实环境之间搭建起一个桥梁，让体验者更直观、更深刻的体验到公共安全主题的模拟场景，解决了传统公共安全宣传、教育的枯燥传播问题。

[0093] 因此，本方案提出一种三维场景内物品实时交互方法，首先对重建得到的公共安全体验三维场景进行边缘结构增强，所述边缘结构增强的流程为：计算重建得到的公共安全体验三维场景F在X、Y、Z轴方向的二阶偏导数，构成公共安全体验三维场景F的偏导矩阵：

[0094]

[0095] 其中：偏导矩阵中的值表示公共安全体验三维场景F在任意两个方向的偏导结果；对偏导矩阵进行特征分解，分解得到其中最大的三个特征值；构建三维滤波系数；将公共安全体验三维场景中的像素点输入到基于三维滤波系数的滤波器中，所述滤波器的滤波公式为：

[0096]

[0097] 其中：表示公共安全体验三维场景中任意像素点p的像素值，表示对应像素点p的滤波结果，表示像素值阈值；e表示自然常数。利用用户行为监测算法实时监测用户位置和用户动作，预设置所生成公共安全体验三维场景中不同物体的交互响应规则，当监测到用户与公共安全体验三维场景中的物品发生交互动作，则基于交互响应规则对交互物品进行实时交互渲染，所述交互渲染的方式包括基于交互响应规则的交互物品形状重构以及颜色重构。本方案利用边缘结构增强方法对所生成的公共安全体验三维场景进行结构增强，有效标记场景中的物体，并利用用户行为监测算法实时监测用户位置和用户动作，若监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染，用户可以实现在不借助复杂穿戴设备或亲临公共安全场景下，就能与公共安全主题下的物品进行实时交互。

附图说明

[0098] 图1为本发明一实施例提供的一种公共安全数字互动体验方法的流程示意图；

[0099] 图2为本发明一实施例提供的公共安全数字互动体验系统的功能模块图；

[0100] 图3为本发明一实施例提供的实现公共安全数字互动体验方法的电子设备的结构示意图。

[0101] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

[0102] 应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0103] 本申请实施例提供一种公共安全数字互动体验方法。所述公共安全数字互动体验方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述公共安全数字互动体验方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

[0104] 实施例1：

[0105] S1：人工输入公共安全体验场景文本，基于输入文本利用扩散模型生成公共安全体验场景图像。

[0106] 所述S1中人工输入公共安全体验场景文本，包括：

[0107] 用户在公共安全数字互动体验前向公共安全数字体验系统输入公共安全体验场景文本，所述公共安全体验场景文本描述了待体验的公共安全体验场景布置情况以及场景中存在的物品，在本发明实施例中，所述公共安全体验场景包括地震安全体验场景，交通安全体验场景，城市安全体验场景以及应急救护体验场景等。

[0108] 所述S1中基于输入文本利用扩散模型生成公共安全体验场景图像，包括：

[0109] 构建扩散模型，将公共安全体验场景文本输入到扩散模型中，扩散模型输出对应的公共安全体验场景图像，所述扩散模型包括文本特征提取层以及图像生成层，所述公共安全体验场景图像的生成流程为：

[0110] 将公共安全体验场景文本输入到扩散模型的文本特征提取层，文本特征提取层利用独热法对公共安全体验场景文本进行编码处理，利用embedding方法将编码后的文本转换为文本特征向量y；

[0111] 将文本特征向量y输入到图像生成层，图像生成层基于文本特征向量的引导生成对应的公共安全体验场景图像f，所述公共安全体验场景图像的生成公式为：

[0112]

[0113] 其中：

[0114] 表示对扩散模型中待采样图像进行基于文本特征向量f引导的T步采样，通过对加噪图像进行多步条件引导的采样降噪处理，最终成功降噪的图像即为公共安全体验场景图像。

[0115] 所述S1中所述扩散模型的训练流程包括：

[0116] S11：构建包含m张图像以及描述图像文本特征向量的图像训练集，所述图像训练集包含多种不同公共安全体验场景的图像，对图像训练集中的任意第i张基准图像，进行T步的图像加噪扩散；

[0117] 所述图像加噪扩散的流程为：

[0118]

[0119]

[0120] 其中：

[0121] 表示对图像进行T步图像加噪扩散的过程序列，表示对第t‑1步的图像加噪扩散结果添加高斯噪声，得到第t步的图像加噪扩散结果的过程；

[0122] 表示在第t步图像加噪扩散过程中所添加的高斯噪声，所述高斯噪声的分布为高斯分布，表示高斯分布的均值，表示第t步所添加高斯噪声的方差；

[0123] S12：在每一步加噪扩散过程中添加高斯噪声所掩盖内容的文本特征向量，得到基于文本特征向量条件的图像加噪扩散流程：

[0124]

[0125] 其中：

[0126] 表示基准图像的文本特征向量，表示第t步加噪扩散过程中添加高斯噪声所掩盖内容的文本特征向量；

[0127] S13：加噪图像的采样过程即为加噪图像的复原过程，所述基于条件的加噪图像采样公式为：

[0128]

[0129]

[0130]

[0131] 其中：

[0132] 表示复原条件，选取最小的T步加噪图像作为待采样图像，表示基于条件复原的贝叶斯梯度，表示将采样复原为的引导
参数，表示符合正态分布的采样分布参数；

[0133] 表示将采样复原为的公式。

[0134] S2：基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，得到公共安全体验三维场景。

[0135] 所述S2中基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，包括：

[0136] 基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，得到公共安全体验三维场景，所述三维公共安全体验场景的重建流程为：

[0137] S21：提取所生成公共安全体验场景图像f的SIFT特征，得到公共安全体验场景图像f的K组特征向量集合，；

[0138] S22：构建三维网格图像，将公共安全体验场景图像的每个特征向量匹配到三维网格图像的网格顶点位置，所述三维网格图像中三维网格的边长为，其中v为所生成公共安全体验场景图像f中行像素的数目，所述特征向量匹配的公式为：

[0139]

[0140] 其中：

[0141] 为特征向量的长度；

[0142] 为特征向量的中心在二维图像f中X轴的坐标位置；

[0143] 为特征向量的中心在二维图像f中Y轴的坐标位置；

[0144] 为特征向量在三维网格图像中的立体坐标；

[0145] S23：随机选取三维网格图像中的网格顶点作为初始建模点，选取与初始建模点坐标距离最小的邻近特征向量作为初始建模点的拓扑节点，并连接初始建模点和拓扑节点，寻找与初始建模点以及拓扑节点坐标距离最小的邻近特征向量，连接三个特征向量构成初始三角形；

[0146] S24：将所构成三角形的顶点为初始建模点，重复上述步骤，直到将三维网格图像中的所有特征向量相连；

[0147] S25：对于连接后的任意三角形，将三角形顶点所对应特征向量的像素分布梯度直方图渲染为三角形区域的像素分布结果，得到公共安全体验三维场景F。

[0148] S3：对公共安全体验三维场景进行边缘结构增强。

[0149] 所述S3中对重建得到的公共安全体验三维场景进行边缘结构增强，包括：

[0150] 对重建得到的公共安全体验三维场景进行边缘结构增强，所述边缘结构增强的流程为：

[0151] S31：计算重建得到的公共安全体验三维场景F在X、Y、Z轴方向的二阶偏导数，构成公共安全体验三维场景F的偏导矩阵：

[0152]

[0153] 其中：

[0154] 偏导矩阵中的值表示公共安全体验三维场景F在任意两个方向的偏导结果；

[0155] S32：对偏导矩阵进行特征分解，分解得到其中最大的三个特征值；

[0156] S33：构建三维滤波系数；

[0157] S34：将公共安全体验三维场景中的像素点输入到基于三维滤波系数的滤波器中，所述滤波器的滤波公式为：

[0158]

[0159] 其中：

[0160] 表示公共安全体验三维场景中任意像素点p的像素值，表示对应像素点p的滤波结果，表示像素值阈值；

[0161] e表示自然常数。

[0162] S4：利用用户行为监测算法实时监测用户位置和用户动作。

[0163] 所述S4中利用用户行为监测算法监测用户位置和用户动作，包括：

[0164] 利用用户行为监测算法实时监测用户位置和用户动作，所述用户位置和用户动作的监测流程为：

[0165] S41：为用户发放交互手环，利用交互手环内的位置传感器以及姿态传感器实时确定用户的位置和姿态信息，其中所述用户的姿态信息包括手臂与身躯的夹角以及手臂的加速度；

[0166] S42：计算用户实时位置与公共安全体验三维场景中物品位置的距离，若距离小于预设位置阈值则表示用户处于物品附近；

[0167] S43：若监测到用户处于公共安全体验三维场景中物品的附近区域，则将用户的姿态信息输入到交互动作识别模型中，所述交互动作识别模型为二分类模型，输出结果为发生交互动作或未发生交互动作，在本发明实施例中，所述交互动作识别模型的结构为支持向量机模型。

[0168] S5：若监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染。

[0169] 所述S5中当监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染，包括：

[0170] 预设置所生成公共安全体验三维场景中不同物体的交互响应规则，当监测到用户与公共安全体验三维场景中的物品发生交互动作，则基于交互响应规则对交互物品进行实时交互渲染，所述交互渲染的方式包括基于交互响应规则的交互物品形状重构以及颜色重构。

[0171] 实施例2：

[0172] 如图2所示，是本发明一实施例提供的公共安全数字互动体验系统的功能模块图，其可以实现实施例1中的公共安全数字互动体验方法。

[0173] 本发明所述公共安全数字互动体验系统100可以安装于电子设备中。根据实现的功能，所述公共安全数字互动体验系统可以包括图像生成装置101、三维重建装置102及交互控制装置103。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

[0174] 图像生成装置101，用于接收公共安全体验场景文本，基于输入文本利用扩散模型生成公共安全体验场景图像；

[0175] 三维重建装置102，用于基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，对公共安全体验三维场景进行边缘结构增强；

[0176] 交互控制装置103，用于利用用户行为监测算法实时监测用户位置和用户动作，若监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染。

[0177] 详细地，本发明实施例中所述公共安全数字互动体验系统100中的所述各模块在使用时采用与上述的图1中所述的公共安全数字互动体验方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

[0178] 实施例3：

[0179] 如图3所示，是本发明一实施例提供的实现公共安全数字互动体验方法的电子设备的结构示意图。

[0180] 所述电子设备1可以包括处理器10、存储器11、通信接口13和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如程序12。

[0181] 其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡（Smart Media Card， SMC）、安全数字（Secure Digital， SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如程序12的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

[0182] 所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心（Control Unit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块（用于实现数字互动体验的程序12等），以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

[0183] 所述通信接口13可以包括有线接口和/或无线接口（如WI‑FI接口、蓝牙接口等），通常用于在该电子设备1与其他电子设备之间建立通信连接，并实现电子设备内部组件之间的连接通信。

[0184] 所述总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

[0185] 图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

[0186] 例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi‑Fi模块等，在此不再赘述。

[0187] 可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light‑Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

[0188] 应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

[0189] 所述电子设备1中的所述存储器11存储的程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

[0190] 接收公共安全体验场景文本，基于文本利用扩散模型生成公共安全体验场景图像；

[0191] 基于生成的公共安全体验场景图像进行三维公共安全体验场景重建，得到公共安全体验三维场景；

[0192] 对公共安全体验三维场景进行边缘结构增强；

[0193] 利用用户行为监测算法实时监测用户位置和用户动作；

[0194] 若监测到用户与公共安全体验三维场景中的物品发生交互动作，则对交互物品进行实时交互渲染。

[0195] 具体地，所述处理器10对上述指令的具体实现方法可参考图1至图3对应实施例中相关步骤的描述，在此不赘述。

[0196] 需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

[0197] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

[0198] 以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

一种公共安全数字互动体验方法及系统转让专利

申请号 : CN202211532510.4

文献号 : CN115543095B

文献日 : 2023-04-11

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 朱鹏

申请人 : 江苏冰谷数字科技有限公司

摘要 :

权利要求 :

说明书 :