基于图片的全语通的实现方法及相关产品转让专利

申请号 : CN201910173473.4

文献号 : CN110032934A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 廖德南

申请人 : 永德利硅橡胶科技(深圳)有限公司

摘要 :

本申请提供了一种基于图片的全语通的实现方法及相关产品,该方法包括:终端在会议中获取第一语言的第一图片,将第一图片输入AI文字识别模型得到第一语言的第一文字信息;终端将第一文字信息进行分词处理得到第二文字信息,调用翻译软件将该第二文字信息内的词语翻译成符合第二语言的第三文字信息;终端将该第三文字信息输入到神经网络模型中进行计算得到排列后的第四文字信息,将第四文字信息替换第一图片中的第一文字信息得到第二图片,将第二图片发送至会议中心服务器共享。本申请提供的技术方案具有用户体验度高的优点。

权利要求 :

1.一种基于图片的全语通的实现方法,其特征在于,所述方法包括如下步骤:终端在会议中获取第一语言的第一图片,将第一图片输入AI文字识别模型得到第一语言的第一文字信息;

终端将第一文字信息进行分词处理得到第二文字信息,调用翻译软件将该第二文字信息内的词语翻译成符合第二语言的第三文字信息;

终端将该第三文字信息输入到神经网络模型中进行计算得到排列后的第四文字信息,将第四文字信息替换第一图片中的第一文字信息得到第二图片,将第二图片发送至会议中心服务器共享。

2.根据权利要求1所述的方法,其特征在于,所述将第一图片输入AI文字识别模型得到第一语言的第一文字信息具体包括:将第一图片变换成灰度图片,获取灰度图片中每个像素点的灰度值,将每个像素点的灰度值按像素点的位置排列成输入矩阵【X】【Y】,将输入矩阵【X】【Y】输入到AI文字识别模型执行n层卷积层运算以及1层全连接层运算得到第一语言的第一文字信息。

3.根据权利要求2所述的方法,其特征在于,所述n层卷积运算中卷积核的基本尺寸为

3*3,所述方法在组成输入矩阵【X】【Y】之后,还包括:

如X不能整除3,将输入矩阵【X】【Y】沿行方向划分为m个输入数据块,m中前m-1个输入数据块为3行元素,最后一个输入数据块为r行元素,将前m-1个输入数据块先列后行方式存储,依据r的值确定最后一个输入数据块的存储方式;所述X,Y表示输入矩阵的行值,列值,r为X/3的余数。

4.根据权利要求3所述的方法,其特征在于,所述依据r的值确定最后一个输入数据块的存储方式具体包括:如r=1,将最后1行元素以及倒数第2、3行元素拼接成一个新的数据块存储,如r=2,将最后2行元素以及倒数第3行元素拼接成一个新的数据块存储。

5.一种终端,所述终端包括:摄像头、处理单元和通信单元;其特征在于,摄像头,用于采集第一语言的第一图片;

处理单元,用于将第一图片输入AI文字识别模型得到第一语言的第一文字信息;将第一文字信息进行分词处理得到第二文字信息,调用翻译软件将该第二文字信息内的词语翻译成符合第二语言的第三文字信息;将该第三文字信息输入到神经网络模型中进行计算得到排列后的第四文字信息,将第四文字信息替换第一图片中的第一文字信息得到第二图片,控制所述通信单元将第二图片发送至会议中心服务器共享。

6.根据权利要求5所述的终端,其特征在于,

所述处理单元,具体用于将第一图片变换成灰度图片,获取灰度图片中每个像素点的灰度值,将每个像素点的灰度值按像素点的位置排列成输入矩阵【X】【Y】,将输入矩阵【X】【Y】输入到AI文字识别模型执行n层卷积层运算以及1层全连接层运算得到第一语言的第一文字信息。

7.根据权利要求6所述的终端,其特征在于,如所述n层卷积运算中卷积核的基本尺寸为3*3;

所述处理单元,具体用于X不能整除3,将输入矩阵【X】【Y】沿行方向划分为m个输入数据块,m中前m-1个输入数据块为3行元素,最后一个输入数据块为r行元素,将前m-1个输入数据块先列后行方式存储,依据r的值确定最后一个输入数据块的存储方式;所述X,Y表示输入矩阵的行值,列值,r为X/3的余数。

8.根据权利要求7所述的终端,其特征在于,

所述处理单元,具体用于如r=1,将最后1行元素以及倒数第2、3行元素拼接成一个新的数据块存储,如r=2,将最后2行元素以及倒数第3行元素拼接成一个新的数据块存储。

9.根据权利要求5-8任意一项所述的终端,其特征在于,

所述终端为:智能手机或平板电脑。

10.一种计算机可读存储介质,其特征在于,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-4任意一项所述的方法。

说明书 :

基于图片的全语通的实现方法及相关产品

技术领域

[0001] 本申请涉及通信以及终端领域,具体涉及一种基于图片的全语通的实现方法及相关产品。

背景技术

[0002] 终端,例如平板电脑、智能手机等。这里以智能手机为例,智能手机,是指像个人电脑一样,具有独立的操作系统,独立的运行空间,可以由用户自行安装软件、游戏、导航等第三方服务商提供的程序,并可以通过移动通讯网络来实现无线网络接入手机类型的总称。
[0003] 目前的智能手机的通话仅仅只是通话的转发,随着网络的发展,越来越多的使用网络视频,对于技术交流来说,很多需要进行图片的显示,虽然语言可以翻译,但是图片无法进行翻译,这样影响了技术交流的效果,降低了用户体验度。
[0004] 申请内容
[0005] 本申请实施例提供了一种基于图片的全语通的实现方法及相关产品,实现图片的全语通,提高了用户体验度。
[0006] 第一方面,本申请实施例提供一种基于图片的全语通的实现方法,所述方法包括如下步骤:
[0007] 终端在会议中获取第一语言的第一图片,将第一图片输入AI文字识别模型得到第一语言的第一文字信息;
[0008] 终端将第一文字信息进行分词处理得到第二文字信息,调用翻译软件将该第二文字信息内的词语翻译成符合第二语言的第三文字信息;
[0009] 终端将该第三文字信息输入到神经网络模型中进行计算得到排列后的第四文字信息,将第四文字信息替换第一图片中的第一文字信息得到第二图片,将第二图片发送至会议中心服务器共享。
[0010] 可选的,所述将第一图片输入AI文字识别模型得到第一语言的第一文字信息具体包括:
[0011] 将第一图片变换成灰度图片,获取灰度图片中每个像素点的灰度值,将每个像素点的灰度值按像素点的位置排列成输入矩阵【X】【Y】,将输入矩阵【X】【Y】输入到AI文字识别模型执行n层卷积层运算以及1层全连接层运算得到第一语言的第一文字信息。
[0012] 可选的,所述n层卷积运算中卷积核的基本尺寸为3*3,所述方法在组成输入矩阵【X】【Y】之后,还包括:
[0013] 如X不能整除3,将输入矩阵【X】【Y】沿行方向划分为m个输入数据块,m中前m-1个输入数据块为3行元素,最后一个输入数据块为r行元素,将前m-1个输入数据块先列后行方式存储,依据r的值确定最后一个输入数据块的存储方式;所述X,Y表示输入矩阵的行值,列值,r为X/3的余数。
[0014] 可选的,所述依据r的值确定最后一个输入数据块的存储方式具体包括:
[0015] 如r=1,将最后1行元素以及倒数第2、3行元素拼接成一个新的数据块存储,如r=2,将最后2行元素以及倒数第3行元素拼接成一个新的数据块存储。
[0016] 第二方面,提供一种终端,所述终端包括:摄像头、处理单元和通信单元;
[0017] 摄像头,用于采集第一语言的第一图片;
[0018] 处理单元,用于将第一图片输入AI文字识别模型得到第一语言的第一文字信息;将第一文字信息进行分词处理得到第二文字信息,调用翻译软件将该第二文字信息内的词语翻译成符合第二语言的第三文字信息;将该第三文字信息输入到神经网络模型中进行计算得到排列后的第四文字信息,将第四文字信息替换第一图片中的第一文字信息得到第二图片,控制所述通信单元将第二图片发送至会议中心服务器共享。
[0019] 可选的,所述处理单元,具体用于将第一图片变换成灰度图片,获取灰度图片中每个像素点的灰度值,将每个像素点的灰度值按像素点的位置排列成输入矩阵【X】【Y】,将输入矩阵【X】【Y】输入到AI文字识别模型执行n层卷积层运算以及1层全连接层运算得到第一语言的第一文字信息。
[0020] 可选的,如所述n层卷积运算中卷积核的基本尺寸为3*3;
[0021] 所述处理单元,具体用于X不能整除3,将输入矩阵【X】【Y】沿行方向划分为m个输入数据块,m中前m-1个输入数据块为3行元素,最后一个输入数据块为r行元素,将前m-1个输入数据块先列后行方式存储,依据r的值确定最后一个输入数据块的存储方式;所述X,Y表示输入矩阵的行值,列值,r为X/3的余数。
[0022] 可选的,所述处理单元,具体用于如r=1,将最后1行元素以及倒数第2、3行元素拼接成一个新的数据块存储,如r=2,将最后2行元素以及倒数第3行元素拼接成一个新的数据块存储。
[0023] 可选的,所述终端为:智能手机或平板电脑。
[0024] 第三方面,提供一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行第一方面提供的所述的方法。
[0025] 第四方面,提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行第一方面提供的方法。
[0026] 实施本申请实施例,具有如下有益效果:
[0027] 可以看出,本申请提供的技术方案在实现全语通的方案时,通过AI文字识别模型得到了对应的第一文字信息,然后对第一文字信息进行分词处理得到包含多个词语的第二文字信息,然后将多个词语进行翻译得到多个词语对应的符合第二语言的第三文字信息,然后通过神经网络模型运算得到第三文字信息中符合第二语言的多个词语的组合方式,依据该组合方式得到第四文字信息,将第四文字信息替换第一文字信息得到第二图片,将第二图片发送至会议中心服务器共享,这样即能够实现图片的全语通,提高了用户的体验度。

附图说明

[0028] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029] 图1是本申请实施例提供的一种计算装置的结构示意图。
[0030] 图2是本申请实施例公开的一种基于图片的全语通的实现方法的流程示意图。
[0031] 图3为本申请实施例提供的一种终端的示意图。

具体实施方式

[0032] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0033] 本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0034] 在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0035] 参阅图1,图1为一种终端的结构示意图,如图1所示,该终端可以包括:处理器101、存储器102、显示屏103、音频部件104和摄像头105,其中,处理器101通过总线与存储器102、显示屏103、音频设备104和摄像头105连接。上述音频部件可以为麦克风,当然也可以包含耳麦。上述终端具体可以包括:智能手机、平板电脑、计算机等设备。
[0036] 本申请提供的一种基于图片的全语通的实现方法,该方法采用如图1所示的终端来实现,该方法如图2所示,包括如下步骤:
[0037] 步骤S201、终端在会议中获取第一语言的第一图片,将第一图片输入AI文字识别模型得到第一语言的第一文字信息;
[0038] 步骤S202、终端将第一文字信息进行分词处理得到第二文字信息,调用翻译软件将该第二文字信息内的词语翻译成符合第二语言的第三文字信息;
[0039] 步骤S203、终端将该第三文字信息输入到神经网络模型中进行计算得到排列后的第四文字信息,将第四文字信息替换第一图片中的第一文字信息得到第二图片,将第二图片发送至会议中心服务器共享。
[0040] 本申请提供的技术方案在实现全语通的方案时,通过AI文字识别模型得到了对应的第一文字信息,然后对第一文字信息进行分词处理得到包含多个词语的第二文字信息,然后将多个词语进行翻译得到多个词语对应的符合第二语言的第三文字信息,然后通过神经网络模型运算得到第三文字信息中符合第二语言的多个词语的组合方式,依据该组合方式得到第四文字信息,将第四文字信息替换第一文字信息得到第二图片,将第二图片发送至会议中心服务器共享,这样即能够实现图片的全语通,提高了用户的体验度。
[0041] 可选的,上述将第一图片输入AI文字识别模型得到第一语言的第一文字信息具体包括:
[0042] 将第一图片变换成灰度图片,获取灰度图片中每个像素点的灰度值,将每个像素点的灰度值按像素点的位置排列成输入矩阵【X】【Y】,将输入矩阵【X】【Y】输入到AI文字识别模型执行n层卷积层运算以及1层全连接层运算得到第一语言的第一文字信息,其中X为输入矩阵的行值,Y为输入矩阵的列值。
[0043] 上述n层卷积运算以及全连接的运算可以采用通用的神经网络运算,例如百度人工智能运算,华为AI运算,谷歌AI运算、阿里云等运算。
[0044] 如上述n层卷积运算中卷积核的基本尺寸为3*3,则上述方法在组成输入矩阵【X】【Y】之后,还可以包括:
[0045] 如X不能整除3,将输入矩阵【X】【Y】沿行方向划分为m个输入数据块,m中前m-1个输入数据块为3行元素,最后一个输入数据块为r行元素,将前m-1个输入数据块先列后行方式存储,依据r的值确定最后一个输入数据块的存储方式。上述X,Y为输入矩阵的行值,列值。
[0046] 上述依据r的值确定最后一个输入数据块的存储方式具体可以包括:
[0047] 如r=1,将最后1行元素以及倒数第2、3行元素拼接成一个新的数据块存储,如r=2,将最后2行元素以及倒数第3行元素拼接成一个新的数据块存储。上述r为X/3的余数。
[0048] 其中,
[0049] 本申请以基本尺寸进行存储以后,在执行卷积运算时,一次卷积滑动的数据均在一个数据块内,该数据块以先列后行方式存储,那么其对应一个滑动数据均相邻,这样提取的数据的效率大大增加,提高了运算的速度。
[0050] 参阅图3,图3提供了一种终端,所述终端包括:
[0051] 摄像头,用于采集第一语音;
[0052] 处理单元,用于对第一语音进行语意识别得到与第一语音匹配的第一文字信息,所述第一语音为第一语言;将第一文字信息进行分词处理得到第二文字信息,调用翻译软件将该第二文字信息内的词语翻译成符合第二语言的第三文字信息;将该第三文字信息输入到神经网络模型中进行计算得到排列后的第四文字信息,将第四文字信息转换成符合第二语言的第二语音,控制所述通信单元将第二语音发送至网络侧。
[0053] 上述终端具体可以为智能手机或平板电脑。
[0054] 本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种基于图片的全语通的实现方法的部分或全部步骤。
[0055] 本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于图片的全语通的实现方法的部分或全部步骤。
[0056] 需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
[0057] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0058] 在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0059] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0060] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
[0061] 所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0062] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
[0063] 以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。