彩色声像导盲方法及彩色声像导盲仪转让专利

申请号 : CN201210186424.2

文献号 : CN102688120B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 綦峰

申请人 : 綦峰

摘要 :

提供一种彩色声像导盲方法及彩色声像导盲仪,能够根据采集到的实时彩色图像数据,计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度,再转换为对应声素点声波主频、声波信噪比、以及响度,再结合彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号,并通过无壳双耳耳机将声像信息输出以进行导盲。本发明可以使得盲人无需经过训练便可以识别三维物体的颜色、形状和大小,识别分辨率高。

权利要求 :

1.一种彩色声像导盲方法,其特征在于:包括如下步骤:

A.采集实时彩色图像数据;

B.根据实时彩色图像数据计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度,采用线性映射方式将所述色彩光波主频对应转换为声素点声波主频,采用相关映射方式将所述亮度对应转换为声素点响度等级,然后通过标准ISO226:2003计算得出各声素点响度等级在对应声素点声波主频下的响度,采用比例映射方式将色彩饱和度转换为声音信噪比,再结合彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号;

C.将所述脉冲式双耳立体声声波信号通过无壳双耳耳机播放出来。

2.如权利要求1所述的方法,其特征在于:所述步骤B具体为:

B1.获得采集的实时彩色图像数据;

B2.计算出所述实时彩色图像数据中的每个彩色像素点的色彩光波主频、色彩饱和度以及亮度;采用线性映射方式将所述色彩光波主频对应转换为所述声素点声波主频,采用相关映射方式将所述亮度对应转换为所述声素点响度等级,然后通过标准ISO226:2003计算得出各声素点响度等级在对应声素点声波主频下的响度,采用比例映射方式将色彩饱和度转换为声音信噪比;

B3.根据转换后获得的所述声素点声波主频、信噪比、响度,以及所述彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号;

B4.将所述脉冲式双耳立体声声波信号转换为工业标准格式存储并输出。

3.如权利要求2所述的方法,其特征在于:所述步骤B3具体为:

B31.根据每个声素点的声波主频、信噪比、响度产生人造连续彩色声波;

B32.根据所述彩色像素点的三维位置信息,使用头相关传递函数方法产生左右耳人造连续彩色声波;

B33.通过填加随机间隔的方式切断所述左右耳人造连续彩色声波,获得脉冲声波信号,以消除相同主频声波干涉效应;

B34.对每个声素点产生的所述脉冲声波信号进行相加求和,产生所述脉冲式双耳立体声声波信号;

其中,所述头相关传递函数方法用于加载声素点位置信息。

4.一种彩色声像导盲仪,其特征在于:包括:

摄像模块,用于采集实时彩色图像数据;

主处理模块,用于接收摄像模块采集的实时彩色图像数据,根据实时彩色图像数据计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度,采用线性映射方式将所述色彩光波主频对应转换为声素点声波主频,采用相关映射方式将所述亮度对应转换为声素点响度等级,然后通过标准ISO226:2003计算得出各声素点响度等级在对应声素点声波主频下的响度,采用比例映射方式将色彩饱和度转换为声音信噪比,再结合彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号,并传递给无壳双耳耳机模块;无壳双耳耳机模块,用于接收主处理模块产生的脉冲式双耳立体声声波信号,将其转换成声音并播出。

5.如权利要求4所述的彩色声像导盲仪,其特征在于:所述主处理模块包括:图像采集模块,用于获得所述摄像模块所采集的实时彩色图像数据;

图像处理模块,用于接收图像采集模块获得的实时彩色图像数据,计算出所述实时彩色图像数据中的每个彩色像素点的色彩光波主频、色彩饱和度以及亮度;

图像声像转换模块,用于采用线性映射方式将所述色彩光波主频对应转换为所述声素点声波主频,采用相关映射方式将所述亮度对应转换为所述声素点响度等级,然后通过标准ISO226:2003计算得出各声素点响度等级在对应声素点声波主频下的响度,采用比例映射方式将色彩饱和度转换为声音信噪比;

声像处理模块,用于根据转换后获得的所述声波主频、信噪比、响度,以及彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号;

声像输出模块,用于将声像处理模块所产生的脉冲式双耳立体声声波信号转换为工业标准格式存储并输出给无壳双耳耳机模块播放。

6.如权利要求5所述的彩色声像导盲仪,其特征在于:所述声像处理模块包括:声素彩色连续声波合成模块,用于根据每个声素点的声波主频、信噪比、响度产生人造连续彩色声波;声素位置信息加载模块,用于根据所述彩色像素点的三维位置信息,使用头相关传递函数方法产生左右耳人造连续彩色声波;

声波脉冲去耦模块,用于通过填加随机间隔的方式切断所述左右耳人造连续彩色声波,获得声波脉冲信号,以消除相同频率声波干涉效应;

双耳声波合成模块,用于对每个声素点产生的所述声波脉冲信号进行相加求和,产生所述脉冲式双耳立体声声波信号;

其中,所述头相关传递函数方法用于加载声素点位置信息。

7.如权利要求4-6中任意一项所述的彩色声像导盲仪,其特征在于:所述摄像模块设置在盲人佩戴的盲人眼镜上,或者设置在手机上,或者设置在盲人所处房间的任何位置;所述摄像模块采用普通摄像头、核磁共振成像设备、X-ray成像设备、夜视设备、或者3D摄像设备采集实时彩色图像数据。

8.如权利要求6所述的彩色声像导盲仪,其特征在于,所述无壳双耳耳机模块不具有外壳,并进一步用于消除声波反射和衍射,保持脉冲式双耳立体声声波信号携带的所述声素点位置信息。

说明书 :

彩色声像导盲方法及彩色声像导盲仪

技术领域:

[0001] 涉及一种应用于导盲领域中的将图像信息转化为声音信息的方法和装置。背景技术:
[0002] 目前,本领域提出了两种方案为盲人提供周围物体信息,即导盲杖和视觉替代。
[0003] 导盲杖:其设备主要依靠红外或超声反射来向盲人报警附近物体,盲人通过导盲杖发出的声音和触觉信息来判断障碍物远近。这种方案依靠仪器识别障碍物然后表达给盲人,由于传达信息有限,盲人几乎无法直接识别物体形状大小颜色等信息。
[0004] 视觉替代:主要有触觉-视觉替代和音频-视觉替代两种。
[0005] 触觉-视觉替代通过电极阵列刺激指尖、舌头或皮肤等来间接传递视觉信息。由于感觉神经细胞的分辨率以及电极阵列面积的限制,该方法现在也只能达到识别盲文的作用。颜色差别是识别物体形状最主要因素,现阶段尚且没有能传递颜色的触觉-视觉替代系统。中国发明专利申请文件CN101390789公开了上述技术方案,该技术方案基于点刺激的触觉替代视觉系统,使用电极阵列刺激指尖或舌头产生触觉感受,并利用触点二维分布,传递有限但是十分重要的二维视觉信息。该方法主要存在如下缺点:
[0006] 1.该方法由于电极阵列刺激,会对手指或舌头产生不适的感觉,影响健康[0007] 2.由于舌头和指尖所容纳的阵列面积有限,以及感觉细胞的分辨率限制导致空间分辨率低。空间分辨率低导致该方法只能识别简单性状的物体,基本只能用于盲文识别。
[0008] 音频-视觉替代能够将图像像素信息转换为声音信息。目前,该种技术还停留在专利申请文件EP0410045A1和KR20110052824A所公开的技术方案的阶段。上述两个发明专利申请所公开的技术方案均需要通过对图像像素进行逐扫描的方法来递呈图像位置信息,这使得人脑难于适应声音-图像反变换机制,空间解析度低,时间分辨率低。因此尚没有成熟易用的产品占据市场。
[0009] 专利申请文件EP0410045A1是由Meijer提出的现在市面上唯一有产品的技术,其技术方案通过摄像头采集64x64的实时灰度图像,然后进行图像-声音转换,如图1所示。图像的灰度用声音响度表示,声音最大响度代表纯白色,响度为零代表纯黑色。图像的纵向定位用频率代表,高频代表位于图像上缘的像素,低频代表位于图像下缘的像素。图像横向定位通过快速时间扫描,第一个扫描时间块表达最左列像素条,最后一个扫描时间块代表最右列像素条。最后听者需要空间想象能力按频率时间块扫描以及响度合成要表达的图像。该方法的核心原理是图像到声音的3重对应,即“灰度对应响度,像素y坐标对应频率,像素x坐标对应扫描时间”。基于这种非自然地图像到声音转换原理,不可避免会遇到以下缺点:
[0010] 1.需要长期训练:“像素y坐标对应频率,像素x坐标对应扫描时间”是一种人为的对应转换。听者非常难于适应“频率编码y方向,时间块扫描编码x方向”的逻辑。事实上经过长期训练,盲人用该设备对简单形状物体的识别率仍低于30%,所以尚未被广泛应用。
[0011] 2.空间分辨率低:
[0012] a.听觉的频率分辨率限制了声像y方向的分辨率。
[0013] b.x方向不能做很多切分,否则扫描时间太长,动态图片更新率太低。
[0014] c.盲人很难同时分辨“频率编码的y方向和时间块扫描编码的x方向”,所以一般该方法声像分辨率只能做到64x64。
[0015] 3.时间分辨率低:x方向需要时间块扫描,为保正64块切分以及编码声音信号不失真,横向扫描时间要求大于1秒钟,即最低扫描时间为1秒/帧。
[0016] 4.由于方法原理限制,物体颜色是无法被识别的。
[0017] 5.该方法只能用于二维图像到声音转换,不能用于3D物体识别。
[0018] 6.需要人脑非常困难的做声音图像反变换,因此该方法少有应用。
[0019] 专利申请文献KR20110052824A公开了一种色彩发声设备,该设备将彩色图像分区块,计算每个区块的色彩参数(色彩,饱和度,亮度),通过色彩与声音转换表格,将12种颜色6种饱和度12种亮度映射到钢琴不同的按键上。顺序扫描图像区块,可以产生不同的音乐。盲人借此判断前方障碍物。该方法存在如下缺点:
[0020] 1.需要区块划分,导致空间分辨率低。一般只能做到10x10分辨率。
[0021] 2.需要区块逐点扫描,导致时间分辨率低。10x10区块,每块0.5秒钟表达,每幅图需要5秒钟扫描时间。
[0022] 3.仅限于乐器表达,也就是说只能是钢琴键盘有限个键所能表达的范围。
[0023] 4.色彩分辨率极低:只能区分12种颜色。颜色必须离散化到12中对应颜色。由于表格法以及钢琴键盘表达,该方法无法实现连续色彩表达。
[0024] 5.色彩饱和度分辨率极低:只有有限几个音高可供表达。
[0025] 6.盲人很难适应这种非自然声音转换。
[0026] 7.该方法无法识别3D物体。发明内容:
[0027] 本发明提供一种彩色图像信息到声音信息的转换方法和装置,使得盲人无需经过特殊训练便可以获得很好的三维物体识别效果。
[0028] 本发明提供的技术方案为:一种彩色声像导盲方法,包括如下步骤[0029] A.采集实时彩色图像数据;
[0030] B.根据实时彩色图像数据计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度,然后再转换为相应声素点声波主频、声波信噪比、以及响度,再结合彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号;
[0031] C.将所述脉冲式双耳立体声声波信号通过无壳双耳耳机播放出来。
[0032] 一种彩色声像导盲仪,包括
[0033] 摄像模块,用于采集实时彩色图像数据;
[0034] 主处理模块,用于接收摄像模块采集的实时彩色图像数据,通过实时彩色图像数据计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度,然后再转换为相应声素点声波主频、声波信噪比、以及响度,再结合彩色像素点的三维位置信息产生脉冲式双耳立体声声波信号,并传递给无壳双耳耳机模块;
[0035] 无壳双耳耳机模块,用于接收主处理模块产生的脉冲式双耳立体声声波信号,将其转换成声音并播出。
[0036] 本发明的有益效果是:
[0037] 1.帮助识别物体颜色。
[0038] 2.帮助识别物体形状。
[0039] 3.帮助识别物体大小,声像分辨率可与图像分辨率相同。
[0040] 4.明暗有助于盲人昼夜节律的生理调节。
[0041] 5.可将夜视仪图像、红外紫外等图像转化为声音。
[0042] 6.可将3D图像转化为立体声像。
[0043] 7.帮助识别被遮挡的物体。
[0044] 8.同时呈现全空间声像,而非扫描像素或阵列,再合成。
[0045] 9.全彩色变换,各种波长饱和度亮度颜色可连续变换,不影响色彩分辨率。附图说明:
[0046] 图1是现有技术的原理框图。
[0047] 图2是本发明提供的彩色声像导盲仪的原理框图。
[0048] 图3是标准彩色图像数据矩阵示意图。
[0049] 图4是RGB三色值与色彩主频、饱和度对应图。
[0050] 图5是本发明提供的图像声像转换模块原理框图。
[0051] 图6是本发明提供的声像处理模块原理框图。
[0052] 图7是连续声波脉冲化示意图。
[0053] 图8是本发明提供的图像到声音转换流程图。具体实施方式:
[0054] 如图2所示,本发明提供的彩色声像导盲仪包括:摄像模块1、主处理模块2、无壳双耳耳机模块3。
[0055] 摄像模块1:用于采集实时彩色图像,存储为标准彩色图像,并提供接口给主处理模块2进行后续处理。其具备的功能有:
[0056] a)可人工近远距离缩放,并自动对焦
[0057] b)可多摄像头用于3D声像的彩色图像采集
[0058] c)可开启微距模式用于读书等微距识别
[0059] 主处理模块2:接收摄像模块1提供的实时彩色图像数据,将其转化为双耳立体彩色声像信号,并传递给无壳双耳耳机模块用于导盲。所述主处理模块2包括图像采集模块2.1、图像处理模块2.2、图像声像转换模块2.3、声像处理模块2.4、以及声像输出模块2.5[0060] 图像采集模块2.1:获得摄像模块1所采集的实时彩色图像,将实时彩色图像转化成标准彩色图像数据矩阵(平面图像为2D矩阵,立体图像数据为3D矩阵),如可采用其中/代表横坐标分为/行像素,m代表纵坐标分为m列像素,n代
表纵深坐标分为n列像素(2D图像n取值1),×3彩色图像数据矩阵的红绿蓝三个分量,t代表动态时间。图像采集模块2.1将上述标准彩色图像矩阵传递给图像处理模块2.2。图
3示出了标准彩色图像数据矩阵,其中实时摄像信号的图像更新率为10帧/秒,每帧更新传递过来×3个数据块分别存储空间像素点的红绿蓝数据。每个数据块是3维,代表横纵深。
[0061] 图像处理模块2.2:接收图像采集模块2.1传递的标准彩色图像矩阵,并计算出每个彩色像素点的色彩光波主频、色彩饱和度以及亮度。计算过程如下:
[0062]
[0063]
[0064]
[0065]
[0066] 根据上述两个公式使用已知的RGB三色值求得x,y,Y三个分量,其中分量Y代表亮度,再根据x和y分量的值从图4中查得对应的色彩主频与饱和度。图像处理模块2.2构建彩色图像数据矩阵 其中/代表横坐标分为/行像素,m代表纵坐标分为m列像素,n代表纵深坐标分为n列像素(2D图像n取值1),×3代表彩色图像数据矩阵的色彩光波主频、色彩饱和度以及亮度三个分量。t代表动态时间。最后图像处理模块2.2将 矩阵实时传递给图像声像转换模块2.3
[0067] 图像声像转换模块2.3接收来自图像处理模块2.2传递的彩色图像数据矩阵 然后通过图像声像映射关系转换为彩色声像数据矩阵其中/代表横坐标分为/行像素,m代表纵坐标分为m列像素,n代
表纵深坐标分为n列像素(2D图像n取值1),×3代表彩色图像数据矩阵的色彩声素点声波主频、声波信噪比以及响度三个分量。如附图5所示,图像声像转换模块2.3包括三个子模块:频率转换模块2.3.1、饱和度信噪比转换模块2.3.2、亮度响度转换模块2.3.3。
[0068] 频率转换模块2.3.1:建立像素点色彩主频率到声素声波主频率的映射:正常人类视觉可见光范围(3.8x1014Hz,7.6x1014Hz),正常人听觉范围(20Hz,20000Hz)。定义:光波长WL1=800nm映射到声频Fs1=20Hz;光波长WL2=300nm映射到声频Fs2=12500Hz;光速c=3*108m/s,则使用下列公式光频fl可被映射到声频fs:
[0069] 线性映射:fs=Fs1+(Fs2-Fs1)/(c/WL2-c/WL1)*(fl-c/WL1);
[0070] 也可以映射到声音对数频率:
[0071] fs = 10^(log10(Fs1)+(log10(Fs2)-log10(Fs1))/(c/WL2-c/WL1) * (fl-c/WL1))。
[0072] 饱和度信噪比转换模块2.3.2:建立像素饱和度到声素信噪比映射。所述色彩饱和度是某一色彩相对于纯正色彩的偏差,反映色彩的饱满程度,这与某一音色的饱满程度相仿,本领域可以通过填加噪声的方式来反映音色的饱满程度。光饱和度Saturation与对应声音信噪SNR比都能够表达为噪声与纯正弦波的比例,两者做等比映射。等比映射公式为:
[0073] SNR=Saturation/(1-Saturation)。
[0074] 亮度响度转换模块2.3.3:建立像素亮度到声素响度的映射,亮度和响度都是与波幅度有关,两者可做相关映射。考虑到人耳对响度等级感觉随频率变化,标准ISO226:2003(Normalequal-loudness-level contours-ISO 226:2003acoustics international nd
organization forstandardization(ISO)2 edition.http://www.sengpielaudio.com/Acoustics226-2003.pdf(2003))可以用来求得响度等级在特定主频下对应的声音响度。具体可以采用如下过程进行亮度到响度的相关映射:定义亮度Y1=0映射到响度等级pho1=0;亮度Y2=1441映射到响度等级pho2=90;则用下列公式,亮度Ic可被映射到响度等级p:
[0075] p=pho1+(pho2-pho1)/(Y2-Y1)*(Ic-Y1);
[0076] 然后通过ISO 226:2003可求出各声素点响度等级p在该声素点声波主频fs下的响度。
[0077] 声像处理模块2.4:接收图像声像转换模块2.3传递的彩色声像数据矩阵对空间每个声素点产生双耳脉冲色彩声波。如附图6所示,声像处理模块2.4包括:声素彩色连续声波合成模块2.4.1、声素位置信息加载模块2.4.2、声波脉冲去耦模块2.4.3和双耳声波合成模块2.4.4。
[0078] 声素彩色连续声波合成模块2.4.1:通过声素彩色声像数据矩阵所提供的每个声素点声波主频、信噪比、响度,按照如下公式对每个
声素点产生相应的人造连续彩色声波:
[0079] Wave(t)=A*sin(2π*fs*t)+sqrt(1/SNR)*A*Noise(t)
[0080] 其中,Wave(t)为声波随时间变换波函数,t为时间参数,A为声波振幅,fs为声音频率,SNR为信噪比Noise(t)为单位噪声函数。
[0081] 声素位置信息加载模块2.4.2:根据彩色像素空间位置信息以及KEMAR头模型参数(Gardner,B.&Martin,K.HRTF measurements of a KEMAR dummy-head m icrophone.http://sound.media.mit.edu/resources/KEMAR.html(2000))或者雪人模型,查找出或计算出对应的卷积函数,进行如下式的卷积运算便可求出对应彩色声素在左右耳产生的人造连续彩色声波。即人耳听该声波可辨别声素位置。
[0082]
[0083] 其中:
[0084] 为声素点相对摄像头空间位置,f为时间参数,wave(r,t)为上述生成的声素位置对应的连续彩色声波,hl(r,t),hr(r,t)为左右耳头相关传递函数,el(r,t),er(r,t)为加载声素位置信息 后的左右耳声波函数。
[0085] 声波脉冲去耦模块2.4.3:由于相同色彩声素产生声波主频相同,所产生的声波干涉效应使人们无法分辨两声素点。声波脉冲去耦模块2.4.3通过切断连续彩色声波、加随机间隔的方式使声波脉冲化,从而相同色彩声素点对应声波去耦合化,人们可辨识相同色彩声素点。如图7所示,开始A和B两点重合,在A和B两点之间加入随机间隔脉冲化后,连续声波变成离散化的波包。
[0086] 双耳声波合成模块2.4.4:对应每个声素点产生的双耳彩色脉冲化声波信号进行相加求和,便得到可用于导盲的立体声双耳彩色脉冲化声波信号,并将其传递给声像输出模块2.5。该立体声双耳彩色脉冲化声波信号可以使得盲人辨识物体的位置。
[0087] 声像输出模块2.5:将声像处理模块2.4所产生的立体声双耳彩色脉冲化声波信号转变成工业标准格式存储并提供接口给无壳双耳耳机硬件模块用于播放。
[0088] 无壳双耳耳机模块3:接收主处理模块2产生的工业标准格式的立体声双耳彩色脉冲化声波信号,并将其转换成声音通过无壳双耳耳机播出。由于声波通过耳机外壳会产生反射衍射等影响,这种影响直接削弱头相关传递函数所加载的声素位置信息。而无壳双耳耳机模块不具有外壳,能够消除声波反射和衍射,从而保持脉冲式双耳立体声声波信号携带的所述位置信息,有助于盲人对声素位置的识别。
[0089] 在实施时,盲人所佩戴墨镜上设置的摄像头,或手机摄像头,或盲人所处房间中的摄像头采集实时彩色图像数据,图像数据按照图8所示的流程被转换成双耳声像信号供给两耳。以使高频光波转变成对应低频声波来给盲人提供信息。如红色大门可视为有许多红色铃铛布满在门上,绿色的墙壁挂有绿色的铃铛在响。盲人转头带动摄像头旋转,摄像头视野从绿色墙壁划过红色大门时,耳机声音传出的声音由绿色响声逐渐加入大门的红色响声。从而盲人可以轻松定位大门的位置。上述摄像头可以是普通摄像头,核磁共振成像设备,X-ray成像设备,夜视设备,3D摄像设备等。