观众情绪识别方法、装置及系统专利检索-语音分析或合成语音识别语音或声音处理语音或音频编码或解码专利检索查询-专利查询网

IPRDB

API 数据接口

专利申请

使用指引 chat嘟嘟

会员体验

联系我们

交流群

现在联系顾问~

观众情绪识别方法、装置及系统
申请号	CN202010163550.0	申请日	2020-03-10	公开(公告)号	CN111401198B	公开(公告)日	2024-04-23
申请人	广东九联科技股份有限公司;			发明人	肖俊海; 詹启军; 郑广平;
摘要	本发明涉及情绪识别技术领域，提供一种观众情绪识别方法、装置及系统，所述方法包括：提取包含多个观众的视频图像的每一帧图像；对每一帧图像进行人脸表情识别，获得每一帧图像的表情类别；对所有帧的表情类别进行综合判定，获得综合判定后的表情类别，将综合判定后的表情类别作为视频图像的情绪类别；对与所述视频图像对应的音频进行声音情绪识别，获得所述音频的情绪类别；对所述视频图像的情绪类别和所述音频的情绪类别进行综合判定，获得观众情绪识别结果。本发明提供的技术方案，能够全面、准确地识别观众在观看节目过程中的整体情绪。
权利要求	1.一种观众情绪识别方法，其特征在于，所述方法包括：提取包含多个观众的视频图像的每一帧图像；对所述每一帧图像进行人脸表情识别，获得所述每一帧图像的表情类别；对所有帧的表情类别进行综合判定，获得综合判定后的表情类别，将所述综合判定后的表情类别作为所述视频图像的情绪类别；对与所述视频图像对应的音频进行声音情绪识别，获得所述音频的情绪类别；对所述视频图像的情绪类别和所述音频的情绪类别进行综合判定，获得观众情绪识别结果；其中，所述对所述每一帧图像进行人脸表情识别，获得所述每一帧图像的表情类别，包括：对所述每一帧图像均进行以下操作：对一帧图像进行人脸识别，获得多张人脸识别图像，其中，每张人脸识别图像中均包括人脸特征点；对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别；对所有的人脸识别图像的表情类别进行综合判定，获得该帧图像的表情类别；其中，在对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别之后，对所述每一帧图像还进行以下操作：根据一张人脸识别图像中的所述人脸特征点计算该张人脸识别图像的表情变化程度；根据一帧图像中每张人脸识别图像的表情变化程度，计算该帧图像的表情变化程度；根据所述该帧图像的表情变化程度计算该帧图像的情绪得分；所述方法还包括：根据每一帧图像的情绪得分计算所述视频图像的情绪得分；其中，所述人脸特征点包括：眼睛特征点、嘴巴特征点和脸部特征点，所述根据一张人脸识别图像中的所述人脸特征点计算该张人脸识别图像的表情变化程度，包括：计算所述眼睛特征点与预设的无表情人脸图像的眼睛特征点之间的偏离程度，获得眼睛变化程度；计算所述嘴巴特征点与预设的无表情人脸图像的嘴巴特征点之间的偏离程度，获得嘴巴变化程度；计算所述脸部特征点与预设的无表情人脸图像的脸部特征点之间的偏离程度，获得脸部变化程度；对所述眼睛变化程度、所述嘴巴变化程度和所述脸部变化程度进行加权平均，获得所述该张人脸识别图像的表情变化程度；其中，所述眼睛变化程度、嘴巴变化程度和脸部变化程度均采用方差值来表示，具体地，将无表情人脸图像及其特征点进行预先存储，假设某一张人脸识别图像的眼睛特征点为s1、s2、s3、s4，分别计算s1和s2、s2和s3、s3和s4之间的归一化距离d1、d2和d3；假设无表情人脸图像的眼睛特征点为S1、S2、S3、S4，分别计算S1和S2、S2和S3、S3和S4之间的归一化距离D1、D2和D3；然后分别计算上述归一化距离之间的差值：dD1＝d1‑D1，dD2＝d2‑D2，dD3＝d3‑D3，再采用方差公式求dD1、dD2和dD3的方差，即得到人脸识别图像的眼睛特征点与无表情人脸图像的眼睛特征点之间的方差δe；按照上述方法分别计算出人脸识别图像的嘴巴特征点与无表情人脸图像的嘴巴特征点之间的方差δm，以及人脸识别图像的脸部特征点与无表情人脸图像的脸部特征点之间的方差δf。 2.根据权利要求1所述的观众情绪识别方法，其特征在于，所述对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别，包括：对每张人脸识别图像均进行以下操作：采用KNN 算法将一张人脸识别图像中的所述人脸特征点与预设表情类别的特征点进行比较，将与所述人脸特征点匹配度最高的特征点所对应的预设表情类别作为该张人脸识别图像对应的表情类别。 3.根据权利要求1所述的观众情绪识别方法，其特征在于，所述对与所述视频图像对应的音频进行声音情绪识别，获得所述音频的情绪类别，包括：对所述音频进行声源提取，获得至少一个声源；对每个声源进行情绪识别，获得所述每个声源的情绪类别；对所有声源的情绪类别进行综合判定，获得所述音频的情绪类别。 4.根据权利要求3所述的观众情绪识别方法，其特征在于，所述对每个声源进行情绪识别，获得所述每个声源的情绪类别，包括：对每个声源均进行以下操作：将一个声源转化为频谱图；从所述频谱图中提取该声源的声音特征点；采用KNN算法将所述声音特征点与预设声音情绪类别的特征点进行比较，将与所述声音特征点匹配度最高的特征点所对应的预设声音情绪类别作为该声源的情绪类别。 5.根据权利要求4所述的观众情绪识别方法，其特征在于，对每个声源还进行以下操作：在所述将一个声源转化为频谱图之后，根据所述频谱图获取该声源的音量信息；根据该声源的音量信息计算该声源的情绪得分；所述方法还包括：根据每个声源的情绪得分计算所述音频的情绪得分。 6.根据权利要求5所述的观众情绪识别方法，其特征在于，所述方法还包括：根据所述视频图像的情绪得分和所述音频的情绪得分对所述观众所观看的节目效果进行评分。 7.一种观众情绪识别装置，其特征在于，所述装置包括：提取单元，用于提取包含多个观众的视频图像的每一帧图像；人脸表情识别单元，用于对所述每一帧图像进行人脸表情识别，获得所述每一帧图像的表情类别；包括：对所述每一帧图像均进行以下操作：对一帧图像进行人脸识别，获得多张人脸识别图像，其中，每张人脸识别图像中均包括人脸特征点；对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别；对所有的人脸识别图像的表情类别进行综合判定，获得该帧图像的表情类别；其中，在对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别之后，对所述每一帧图像还进行以下操作：根据一张人脸识别图像中的所述人脸特征点计算该张人脸识别图像的表情变化程度；根据一帧图像中每张人脸识别图像的表情变化程度，计算该帧图像的表情变化程度；根据所述该帧图像的表情变化程度计算该帧图像的情绪得分；还包括：根据每一帧图像的情绪得分计算所述视频图像的情绪得分；其中，所述人脸特征点包括：眼睛特征点、嘴巴特征点和脸部特征点，所述根据一张人脸识别图像中的所述人脸特征点计算该张人脸识别图像的表情变化程度，包括：计算所述眼睛特征点与预设的无表情人脸图像的眼睛特征点之间的偏离程度，获得眼睛变化程度；计算所述嘴巴特征点与预设的无表情人脸图像的嘴巴特征点之间的偏离程度，获得嘴巴变化程度；计算所述脸部特征点与预设的无表情人脸图像的脸部特征点之间的偏离程度，获得脸部变化程度；对所述眼睛变化程度、所述嘴巴变化程度和所述脸部变化程度进行加权平均，获得所述该张人脸识别图像的表情变化程度；其中，所述眼睛变化程度、嘴巴变化程度和脸部变化程度均采用方差值来表示，具体地，将无表情人脸图像及其特征点进行预先存储，假设某一张人脸识别图像的眼睛特征点为s1、s2、s3、s4，分别计算s1和s2、s2和s3、s3和s4之间的归一化距离d1、d2和d3；假设无表情人脸图像的眼睛特征点为S1、S2、S3、S4，分别计算S1和S2、S2和S3、S3和S4之间的归一化距离D1、D2和D3；然后分别计算上述归一化距离之间的差值：dD1＝d1‑D1，dD2＝d2‑D2，dD3＝d3‑D3，再采用方差公式求dD1、dD2和dD3的方差，即得到人脸识别图像的眼睛特征点与无表情人脸图像的眼睛特征点之间的方差δe；按照上述方法分别计算出人脸识别图像的嘴巴特征点与无表情人脸图像的嘴巴特征点之间的方差δm，以及人脸识别图像的脸部特征点与无表情人脸图像的脸部特征点之间的方差δf；第一综合判定单元，用于对所有帧的表情类别进行综合判定，获得综合判定后的表情类别，将所述综合判定后的表情类别作为所述视频图像的情绪类别；声音情绪识别单元，用于对与所述视频图像对应的音频进行声音情绪识别，获得所述音频的情绪类别；第二综合判定单元，用于对所述视频图像的情绪类别和所述音频的情绪类别进行综合判定，获得观众情绪识别结果。 8.一种观众情绪识别系统，其特征在于，所述系统包括：权利要求7所述的观众情绪识别装置，还包括：连接至所述观众情绪识别装置的机顶盒和移动终端，以及与所述观众情绪识别装置连接的服务器。 9.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任意一项所述的观众情绪识别方法。
说明书全文	观众情绪识别方法、装置及系统技术领域 [0001] 本发明涉及情绪识别技术领域，特别涉及一种观众情绪识别方法、一种观众情绪识别装置及一种观众情绪识别系统。背景技术 [0002] 情绪是综合了人的感觉、思想和行为的一种状态，在人与人的交流中发挥着重要作用。情绪识别现多指AI(Artificial Intelligence，人工智能)通过获取个体的生理或非生理信号对个体的情绪状态进行自动辨别，是情感计算的一个重要组成部分。 [0003] 现有的情绪识别方法大多用于对单张人脸进行情绪识别，在同时识别多张人脸时，其结果并不准确。且现有的情绪识别方法在情绪识别过程中仅考虑了单一的影响因素，例如，人的面部表情因素，而人的情绪的展现往往是很复杂的，因此，仅考虑单一因素无法对人的情绪进行全面、准确地识别。此外，现有技术中还未出现过对观看节目的观众进行情绪识别，从而判断观众在观看节目过程中的整体情绪的技术方案。发明内容 [0004] 有鉴于此，本发明旨在提出一种观众情绪识别方法、装置及系统，能够全面、准确地识别观众在观看节目过程中的整体情绪。 [0005] 为达到上述目的，本发明的技术方案是这样实现的： [0006] 一种观众情绪识别方法，所述方法包括： [0007] 提取包含多个观众的视频图像的每一帧图像； [0008] 对所述每一帧图像进行人脸表情识别，获得所述每一帧图像的表情类别； [0009] 对所有帧的表情类别进行综合判定，获得综合判定后的表情类别，将所述综合判定后的表情类别作为所述视频图像的情绪类别； [0010] 对与所述视频图像对应的音频进行声音情绪识别，获得所述音频的情绪类别； [0011] 对所述视频图像的情绪类别和所述音频的情绪类别进行综合判定，获得观众情绪识别结果。 [0012] 优选地，所述对所述每一帧图像进行人脸表情识别，获得所述每一帧图像的表情类别，包括： [0013] 对所述每一帧图像均进行以下操作： [0014] 对一帧图像进行人脸识别，获得多张人脸识别图像，其中，每张人脸识别图像中均包括人脸特征点； [0015] 对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别； [0016] 对所有的人脸识别图像的表情类别进行综合判定，获得该帧图像的表情类别。 [0017] 优选地，所述对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别，包括： [0018] 对每张人脸识别图像均进行以下操作： [0019] 采用KNN 算法将一张人脸识别图像中的所述人脸特征点与预设表情类别的特征点进行比较，将与所述人脸特征点匹配度最高的特征点所对应的预设表情类别作为该张人脸识别图像对应的表情类别。 [0020] 进一步地，在对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别之后，对所述每一帧图像还进行以下操作： [0021] 根据一张人脸识别图像中的所述人脸特征点计算该张人脸识别图像的表情变化程度； [0022] 根据一帧图像中每张人脸识别图像的表情变化程度，计算该帧图像的表情变化程度； [0023] 根据所述该帧图像的表情变化程度计算该帧图像的情绪得分； [0024] 所述方法还包括： [0025] 根据每一帧图像的情绪得分计算所述视频图像的情绪得分。 [0026] 优选地，所述人脸特征点包括：眼睛特征点、嘴巴特征点和脸部特征点，所述根据一张人脸识别图像中的所述人脸特征点计算该张人脸识别图像的表情变化程度，包括： [0027] 计算所述眼睛特征点与预设的无表情人脸图像的眼睛特征点之间的偏离程度，获得眼睛变化程度； [0028] 计算所述嘴巴特征点与预设的无表情人脸图像的嘴巴特征点之间的偏离程度，获得嘴巴变化程度； [0029] 计算所述脸部特征点与预设的无表情人脸图像的脸部特征点之间的偏离程度，获得脸部变化程度； [0030] 对所述眼睛变化程度、所述嘴巴变化程度和所述脸部变化程度进行加权平均，获得所述该张人脸识别图像的表情变化程度。 [0031] 优选地，所述对与所述视频图像对应的音频进行声音情绪识别，获得所述音频的情绪类别，包括： [0032] 对所述音频进行声源提取，获得至少一个声源； [0033] 对每个声源进行情绪识别，获得所述每个声源的情绪类别； [0034] 对所有声源的情绪类别进行综合判定，获得所述音频的情绪类别。 [0035] 优选地，所述对每个声源进行情绪识别，获得所述每个声源的情绪类别，包括： [0036] 对每个声源均进行以下操作： [0037] 将一个声源转化为频谱图； [0038] 从所述频谱图中提取该声源的声音特征点； [0039] 采用KNN算法将所述声音特征点与预设声音情绪类别的特征点进行比较，将与所述声音特征点匹配度最高的特征点所对应的预设声音情绪类别作为该声源的情绪类别。 [0040] 进一步地，对每个声源还进行以下操作： [0041] 在所述将一个声源转化为频谱图之后，根据所述频谱图获取该声源的音量信息； [0042] 根据该声源的音量信息计算该声源的情绪得分； [0043] 所述方法还包括： [0044] 根据每个声源的情绪得分计算所述音频的情绪得分。 [0045] 进一步地，所述方法还包括： [0046] 根据所述视频图像的情绪得分和所述音频的情绪得分对所述观众所观看的节目效果进行评分。 [0047] 本发明的另一目的在于提出一种观众情绪识别装置，能够全面、准确地识别观众在观看节目过程中的整体情绪。 [0048] 为达到上述目的，本发明的技术方案是这样实现的： [0049] 一种观众情绪识别装置，所述装置包括： [0050] 提取单元，用于提取包含多个观众的视频图像的每一帧图像； [0051] 人脸表情识别单元，用于对所述每一帧图像进行人脸表情识别，获得所述每一帧图像的表情类别； [0052] 第一综合判定单元，用于对所有帧的表情类别进行综合判定，获得综合判定后的表情类别，将所述综合判定后的表情类别作为所述视频图像的情绪类别； [0053] 声音情绪识别单元，用于对与所述视频图像对应的音频进行声音情绪识别，获得所述音频的情绪类别； [0054] 第二综合判定单元，用于对所述视频图像的情绪类别和所述音频的情绪类别进行综合判定，获得观众情绪识别结果。 [0055] 本发明还提供一种观众情绪识别系统，所述系统包括：上述观众情绪识别装置，还包括：连接至所述观众情绪识别装置的机顶盒和移动终端，以及与所述观众情绪识别装置连接的服务器。 [0056] 本发明还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项观众情绪识别方法。 [0057] 本发明所述的观众情绪识别方法、装置及系统，通过对采集到的观众的视频图像的每一帧图像进行人脸表情识别，能够获得每一帧图像的表情类别，进而获得该视频图像的表情类别，即该视频图像所传达出的观众整体的面部情绪。同时，对采集到的上述视频图像所对应的音频进行声音情绪识别，以获得该音频的情绪类别，即该音频所传达出的观众整体的声音情绪。将上述视频图像的情绪类别和音频的情绪类别进行综合判定，即从观众的面部情绪和声音情绪两方面来综合判定观众的整体情绪，避免了仅考虑单一因素而造成的识别结果不准确的情况。本发明提供的技术方案，由于在情绪判定过程中综合了视频图像和与该视频图像对应的音频两方面的因素，因此，能够全面、准确地识别观众在观看节目过程中的整体情绪。 [0058] 本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明 [0059] 构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施方式及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中： [0060] 图1为本发明实施例的方法流程图； [0061] 图2为本发明实施例中对每一帧图像进行人脸表情识别的方法流程图； [0062] 图3为本发明实施例中表情类别为“快乐”的人脸识别图像及其特征点； [0063] 图4为本发明实施例中预设的无表情人脸图像及其特征点； [0064] 图5为本发明实施例的装置结构图一； [0065] 图6为本发明实施例的装置结构图二； [0066] 图7为本发明实施例的系统结构图。 [0067] 附图标记说明 [0068] 1‑观众 2‑麦克风 3‑摄像头 4‑通讯连接线 5‑SD卡具体实施方式 [0069] 以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。 [0070] 本发明实施例提供的观众情绪识别方法如图1所示，包括以下步骤： [0071] 步骤S101，提取包含多个观众的视频图像的每一帧图像。 [0072] 如图6所示，本实施例中，用摄像头采集观众的视频图像，用麦克风采集观众的音频，且该音频为上述视频图像对应的音频。为了确保在节目演出的前方(例如，电视机或电影屏幕或演出舞台的前方)可视角范围内的观众均能被采集到，本实施例优选地采用广角摄像头进行视频图像采集。同时，提取上述视频图像的每一帧图像用于后续的图像处理操作。 [0073] 步骤S102，对所述每一帧图像进行人脸表情识别，获得所述每一帧图像的表情类别。 [0074] 具体地，本步骤优选地采用以下方法实现： [0075] 对上述视频图像的每一帧图像均进行以下操作： [0076] 步骤S1021，对一帧图像进行人脸识别，获得多张人脸识别图像，其中，每张人脸识别图像中均包括人脸特征点； [0077] 由于采集的是观众的视频图像，因此，一帧图像中有多个人脸。对该帧图像进行人脸识别，能够获取到该帧图像中所有人脸的位置信息及每个人脸的人脸框。根据人脸框对人脸进行截取，以获得该人脸的人脸识别图像，且该人脸识别图像中包括识别出的人脸特征点，如图3所示。一帧图像中有多个人脸即可获得多张人脸识别图像。 [0078] 步骤S1022，对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别； [0079] 步骤S1023，对所有的人脸识别图像的表情类别进行综合判定，获得该帧图像的表情类别； [0080] 本实施例中，对每张人脸识别图像进行人脸表情识别具体采用如下方法实现： [0081] 对每张人脸识别图像均进行以下操作： [0082] 采用KNN算法将某一张人脸识别图像中的人脸特征点与预设表情类别的特征点进行比较，将与所述人脸特征点匹配度最高的特征点所对应的预设表情类别作为该张人脸识别图像对应的表情类别。 [0083] 上述预设表情类别包括：快乐、伤心、恐惧、愤怒、惊讶和厌恶，且每一种预设表情类别均有对应的特征点，将该预设表情类别及其对应的特征点预先存储。在进行人脸表情识别时，提取待识别的人脸识别图像中的人脸特征点分别与预设表情类别的特征点进行比较，得出多个匹配值，将匹配值最大的那个表情类别作为待识别的人脸识别图像的表情类别。 [0084] 本实施例采用SIFT特征提取算法来提取人脸识别图像中的人脸特征点。上述匹配值可采用特征点的匹配数量来进行计算，即，特征点匹配数量最多的匹配值最大。具体地，在进行特征点匹配的过程中，人脸将匹配到多个相近的表情特征，按照实验得到的经验数据剔除掉特征点之间的距离超过预设值的匹配，然后按照特征点匹配的数量进行排序，将匹配数量最多即匹配值最大的预设表情类别作为表情识别结果。 [0085] 本实施例中，在对每张人脸识别图像进行人脸表情识别，获得每张人脸识别图像对应的表情类别之后，对每一帧图像还进行以下操作： [0086] (1)根据一张人脸识别图像中的人脸特征点计算该张人脸识别图像的表情变化程度； [0087] 本实施例中，人脸特征点包括：眼睛特征点、嘴巴特征点和脸部特征点，并将人脸识别图像划分为三个区域：眼部区域、嘴部区域和脸部区域，所述根据一张人脸识别图像中的人脸特征点计算该张人脸识别图像的表情变化程度，包括： [0088] 计算所述眼睛特征点与预设的无表情人脸图像的眼睛特征点之间的偏离程度，获得眼睛变化程度；计算所述嘴巴特征点与预设的无表情人脸图像的嘴巴特征点之间的偏离程度，获得嘴巴变化程度；计算所述脸部特征点与预设的无表情人脸图像的脸部特征点之间的偏离程度，获得脸部变化程度；对所述眼睛变化程度、所述嘴巴变化程度和所述脸部变化程度进行加权平均，获得所述该张人脸识别图像的表情变化程度。本实施例中的预设的无表情人脸图像及其特征点如图4所示。 [0089] 上述眼睛变化程度、嘴巴变化程度和脸部变化程度均采用方差值来表示。具体地，将无表情人脸图像及其特征点进行预先存储，假设某一张人脸识别图像的眼睛特征点为s1、s2、s3、s4，分别计算s1和s2、s2和s3、s3和s4之间的归一化距离d1、d2和d3；假设无表情人脸图像的眼睛特征点为S1、S2、S3、S4，分别计算S1和S2、S2和S3、S3和S4之间的归一化距离D1、D2和D3。 [0090] 然后分别计算上述归一化距离之间的差值： [0091] dD1＝d1‑D1，dD2＝d2‑D2，dD3＝d3‑D3 [0092] 再采用方差公式求dD1、dD2和dD3的方差，即得到人脸识别图像的眼睛特征点与无表情人脸图像的眼睛特征点之间的方差δe。 [0093] 按照上述方法分别计算出人脸识别图像的嘴巴特征点与无表情人脸图像的嘴巴特征点之间的方差δm，以及人脸识别图像的脸部特征点与无表情人脸图像的脸部特征点之间的方差δf。 [0094] 对上述三个方差值进行加权平均可获得该张人脸识别图像的表情变化程度。其中，加权平均的系数为实验得到的经验数据。本实施例中，δe、δm和δf各自的加权评价系数分别为0.4、0.4和0.2。 [0095] (2)根据一帧图像中每张人脸识别图像的表情变化程度，计算该帧图像的表情变化程度； [0096] 本实施例中，计算每张人脸识别图像的表情变化程度之和，得到该帧图像的表情变化程度。 [0097] (3)根据所述该帧图像的表情变化程度计算该帧图像的情绪得分； [0098] 本实施例中，可以对每一种预设表情类别预先制定情绪评分表，例如，对于表情类别“快乐”，可制定与其对应的“快乐程度”的评分表，根据计算出的“快乐程度”(即上述该帧图像的表情变化程度)，上述评分表中找到对应的分数，作为该帧图像的情绪得分。 [0099] 需要说明的是，在一帧图像中由于存在多个人脸，即有多张人脸识别图像，而对这多张人脸识别图像进行表情识别时，有时候并不会识别出完全相同的表情类别。但在实际应用中，由于这些观众观看的是同一个节目，对于节目的情绪反应应该大致相同，因此，一帧图像的表情类别应该取大多数人的表情识别结果，而对于少部分不一致的表情识别结果，可不予考虑。 [0100] 本实施例中，在得到每一帧图像的情绪得分后，还可以进一步根据每一帧图像的情绪得分计算所述视频图像的情绪得分。 [0101] 具体地，计算每一帧图像的情绪得分之和，得到视频图像的情绪得分。该视频图像的情绪得分反映出观众在面部表情上对观看的节目的反应程度。 [0102] 需要说明的是，每一帧图像的表情类别可能并不相同，但由于情绪得分反应的是表情变化程度，与表情类别无关，因此可直接采用每一帧图像的情绪得分之和来获得视频图像的情绪得分。 [0103] 步骤S103，对所有帧的表情类别进行综合判定，获得综合判定后的表情类别，将所述综合判定后的表情类别作为所述视频图像的情绪类别； [0104] 本实施例中，每一帧图像的表情类别虽然不尽相同，但对于某一个特定节目，其传达出的整体情绪氛围是一定的，因此，大多数帧图像所对应的表情类别是一样的，对于少部分不一样的表情类别，可能只是节目中偶尔出现的穿插渲染情节，因此，对于这部分内容，可以不予考虑，或者，采用与其它部分加权平均的方式来计算整体的表情类别，其中，加权平均系数预先设定。 [0105] 步骤S104，对与所述视频图像对应的音频进行声音情绪识别，获得所述音频的情绪类别； [0106] 本实施例中，采用以下方式对音频进行声音情绪识别： [0107] (1)对音频进行声源提取，获得至少一个声源； [0108] 本实施例中，采用FastICA算法对音频进行声源提取，获得至少一个声源。由于音频中观众的声音都是混合在一起的，因此，需要将每一个声源单独提取出来，再进行分析处理。在声源提取过程中，对于音量小于预设值的混合声源可不予考虑。 [0109] (2)对每个声源进行情绪识别，获得所述每个声源的情绪类别； [0110] 本实施例中，采用以下方式对每个声源进行情绪识别： [0111] 对每个声源均进行以下操作：将某一个声源转化为频谱图；以2秒时长的窗口截取频谱图，并采用SIFT算法从频谱图中提取该声源的声音特征点；采用KNN算法将所述声音特征点与预设声音情绪类别的特征点进行比较，将与所述声音特征点匹配度最高的特征点所对应的预设声音情绪类别作为该声源的情绪类别。 [0112] 上述预设声音情绪类别包括：快乐、伤心、恐惧、愤怒、惊讶和厌恶，且每一种预设声音情绪类别均有对应的特征点，将该预设声音情绪类别及其对应的特征点预先存储。在进行声源情绪识别时，提取待识别的声源中的声音特征点分别与预设声音情绪类别的特征点进行比较，得出多个匹配值，将匹配值最大的那个声音情绪类别作为待识别的声源的情绪类别。 [0113] (3)对所有声源的情绪类别进行综合判定，获得所述音频的情绪类别。 [0114] 本实施例中，由于在一段音频中一般有多个观众发声，即有多个声源，而对这多个声源进行情绪识别时，有时候并不会识别出完全相同的情绪类别。但在实际应用中，由于这些观众观看的是同一个节目，对于节目的情绪反应应该大致相同，因此，音频的情绪类别应该取大多数声源的情绪识别结果，而对于少部分不一致的情绪识别结果，可不予考虑。 [0115] 步骤S105，对所述视频图像的情绪类别和所述音频的情绪类别进行综合判定，获得观众情绪识别结果。 [0116] 通常来说，视频图像的情绪类别与音频的情绪类别应该一致，当出现不一致的情况时，可以进行多次重复识别以核验识别结果的准确性，重复识别后上述情绪类别仍然不一致的，采用视频图像的情绪类别作为观众情绪识别结果。 [0117] 本实施例中，与对上述视频帧图像处理相对应地，对每个声源还进行以下操作：在将某一个声源转化为频谱图之后，根据所述频谱图获取该声源的音量信息；根据该声源的音量信息计算该声源的情绪得分。具体地，将该声源的音量首先进行归一化，并根据预设的情绪评分表对该声源的情绪进行评分。例如，归一化音量范围为0—0.25时，情绪得分为1；归一化音量范围为0.25—0.5时，情绪得分为2；归一化音量范围为0.5—0.75时，情绪得分为3；归一化音量范围为0.75—1时，情绪得分为4。 [0118] 本实施例中，在得到每一声源的情绪得分后，还可以进一步根据每一声源的情绪得分计算所述音频的情绪得分。 [0119] 具体地，计算每一声源的情绪得分之和获得音频的情绪得分。该音频的情绪得分反映出观众在声音情绪上对观看的节目的反应程度。 [0120] 在得到视频图像的情绪得分和音频的情绪得分之后，本实施例所述的方法还包括：根据视频图像的情绪得分和音频的情绪得分对观众所观看的节目效果进行评分。具体地，计算视频图像的情绪得分和音频的情绪得分的加权平均值，该加权平均值的结果反映了节目效果。其中，视频图像的情绪得分的加权平均系数设置为0.8，音频的情绪得分的加权平均系数设置为0.2，上述系数值是通过实验获取的经验数据，其被预制于程序中。这种通过对观众情绪进行评分，进而对节目效果进行评分的方式，能够达到实时、准确、及时地进行节目评价的目的。 [0121] 本实施例中，可以将上述对节目的评分数据存储于SD卡等存储介质，在事后对评分进行分析。 [0122] 与上述实施方式相对应地，本发明还提供一种观众情绪识别装置，如图5所示，本实施例提供的装置包括： [0123] 提取单元，用于提取包含多个观众的视频图像的每一帧图像； [0124] 人脸表情识别单元，用于对所述每一帧图像进行人脸表情识别，获得所述每一帧图像的表情类别； [0125] 第一综合判定单元，用于对所有帧的表情类别进行综合判定，获得综合判定后的表情类别，将所述综合判定后的表情类别作为所述视频图像的情绪类别； [0126] 声音情绪识别单元，用于对与所述视频图像对应的音频进行声音情绪识别，获得所述音频的情绪类别； [0127] 第二综合判定单元，用于对所述视频图像的情绪类别和所述音频的情绪类别进行综合判定，获得观众情绪识别结果。 [0128] 优选地，所述人脸表情识别单元包括： [0129] 人脸识别单元，用于对一帧图像进行人脸识别，获得多张人脸识别图像，其中，每张人脸识别图像中均包括人脸特征点； [0130] 表情识别子单元，用于对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别； [0131] 第三综合判定单元，用于对所有的人脸识别图像的表情类别进行综合判定，获得该帧图像的表情类别。 [0132] 优选地，所述表情识别子单元采用以下方法对每张人脸识别图像进行人脸表情识别，获得所述每张人脸识别图像对应的表情类别： [0133] 对每张人脸识别图像均进行以下操作： [0134] 采用KNN算法将一张人脸识别图像中的所述人脸特征点与预设表情类别的特征点进行比较，将与所述人脸特征点匹配度最高的特征点所对应的预设表情类别作为该张人脸识别图像对应的表情类别。 [0135] 进一步地，所述人脸表情识别单元还包括： [0136] 第一表情变化计算单元，用于根据一张人脸识别图像中的所述人脸特征点计算该张人脸识别图像的表情变化程度； [0137] 第二表情变化计算单元，用于根据一帧图像中每张人脸识别图像的表情变化程度，计算该帧图像的表情变化程度； [0138] 第一情绪得分计算单元，用于根据所述该帧图像的表情变化程度计算该帧图像的情绪得分； [0139] 所述装置还包括： [0140] 第二情绪得分计算单元，用于根据每一帧图像的情绪得分计算所述视频图像的情绪得分。 [0141] 优选地，所述人脸特征点包括：眼睛特征点、嘴巴特征点和脸部特征点，所述第一表情变化计算单元包括： [0142] 眼睛变化程度计算单元，用于计算所述眼睛特征点与预设的无表情人脸图像的眼睛特征点之间的偏离程度，获得眼睛变化程度； [0143] 嘴巴变化程度计算单元，用于计算所述嘴巴特征点与预设的无表情人脸图像的嘴巴特征点之间的偏离程度，获得嘴巴变化程度； [0144] 脸部变化程度计算单元，用于计算所述脸部特征点与预设的无表情人脸图像的脸部特征点之间的偏离程度，获得脸部变化程度； [0145] 加权平均计算单元，用于对所述眼睛变化程度、所述嘴巴变化程度和所述脸部变化程度进行加权平均，获得所述该张人脸识别图像的表情变化程度。 [0146] 优选地，所述声音情绪识别单元包括： [0147] 声源提取单元，用于对所述音频进行声源提取，获得至少一个声源； [0148] 声音情绪识别单元，用于对每个声源进行情绪识别，获得所述每个声源的情绪类别； [0149] 第四综合判定单元，用于对所有声源的情绪类别进行综合判定，获得所述音频的情绪类别。 [0150] 优选地，所述声音情绪识别单元采用以下方法对每个声源进行情绪识别，获得所述每个声源的情绪类别： [0151] 对每个声源均进行以下操作： [0152] 将一个声源转化为频谱图；从所述频谱图中提取该声源的声音特征点；采用KNN算法将所述声音特征点与预设声音情绪类别的特征点进行比较，将与所述声音特征点匹配度最高的特征点所对应的预设声音情绪类别作为该声源的情绪类别。 [0153] 进一步地，所述声音情绪识别单元还用于在所述将一个声源转化为频谱图之后，根据所述频谱图获取该声源的音量信息；根据该声源的音量信息计算该声源的情绪得分。 [0154] 进一步地，所述装置还包括： [0155] 音频情绪计算单元，用于根据每个声源的情绪得分计算所述音频的情绪得分。 [0156] 进一步地，所述装置还包括： [0157] 节目评分单元，用于根据所述视频图像的情绪得分和所述音频的情绪得分对所述观众所观看的节目效果进行评分。 [0158] 上述装置的工作原理、工作流程等涉及具体实施方式的内容可参见本发明所提供的观众情绪识别方法的具体实施方式，此处不再对相同的技术内容进行详细描述。 [0159] 本发明还提供一种观众情绪识别系统，所述系统包括：上述任意一项所述的观众情绪识别装置，还包括：连接至所述观众情绪识别装置的机顶盒和移动终端，以及与所述观众情绪识别装置连接的服务器。 [0160] 本实施例中，所述机顶盒、移动终端和服务器均用于接收并存储由所述观众情绪识别装置发送的观众情绪识别结果，以及对观众所观看的节目效果的评分。观众情绪识别装置可通过USB通讯连接线与机顶盒连接，可通过无线通信的方式与移动终端和服务器连接。 [0161] 本发明还提供一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本实施例所述的观众情绪识别方法。 [0162] 本发明还提供一种终端设备，包括处理器，该处理器用于执行本实施例所述的观众情绪识别方法。 [0163] 本发明所述的观众情绪识别方法、装置及系统，通过对采集到的观众的视频图像的每一帧图像进行人脸表情识别，能够获得每一帧图像的表情类别，进而获得该视频图像的表情类别，即该视频图像所传达出的观众整体的面部情绪。同时，对采集到的上述视频图像所对应的音频进行声音情绪识别，以获得该音频的情绪类别，即该音频所传达出的观众整体的声音情绪。将上述视频图像的情绪类别和音频的情绪类别进行综合判定，即从观众的面部情绪和声音情绪两方面来综合判定观众的整体情绪，避免了仅考虑单一因素而造成的识别结果不准确的情况。本发明提供的技术方案，由于在情绪判定过程中综合了视频图像和与该视频图像对应的音频两方面的因素，因此，能够全面、准确地识别观众在观看节目过程中的整体情绪。 [0164] 此外，本发明还进一步计算了视频图像的情绪得分和音频的情绪得分，并根据视频图像的情绪得分和音频的情绪得分对观众所观看的节目效果进行了评分，能够达到实时、准确、及时地进行节目评价的目的。 [0165] 以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。 [0166] 另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。 [0167] 本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。 [0168] 此外，本发明实施例的不同实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。