一种用于视频中情绪一致性可视化分析的系统及方法转让专利

申请号 : CN202010936156.6

文献号 : CN112565899B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 曾海鹏王星博伍翱宇王勇李权屈华民

申请人 : 蓝星球培训

摘要 :

提供了一种计算机实现的处理视频信号的方法和系统。该方法包括以下步骤:检测视频信号中显示的人脸,并以视频信号的第一粒度级别从所显示的脸中提取生理、生物或行为状态信息;处理以下两项或多项:(i)从所述视频信号导出或与之相关联的脚本,以脚本的第一粒度级别从所述脚本中提取语言音调信息;(ii)从所述视频信号导出或与之相关联的音频信号,以在所述音频信号的第一粒度级别上从所述音频信号导出行为状态信息;(iii)从所述视频信号导出的视频图像,以检测在所述视频信号中显示其面部的人的一个或多个人的姿态。

权利要求 :

1.一种计算机实现的用于分析视频信号中的情绪一致性的方法,其特征在于,包括以下步骤:

从所述视频信号检测人脸,并以所述视频信号的第一粒度级别从检测到的脸中提取生理、生物或行为状态信息;

处理以下两项或多项:

从所述视频信号导出或与之相关联的脚本,以该脚本的第一粒度级别从所述脚本中提取语言音调信息;

从所述视频信号导出或与之相关联的音频信号,以在所述音频信号的第一粒度级别上从所述音频信号导出行为状态信息;

从所述视频信号导出的视频图像,以检测在所述视频信号中检测到其面部的人的一个或多个人的姿态;

其中,所述视频信号的所述第一粒度级别包括所述视频信号的帧;所述脚本的所述第一粒度级别包括脚本片段,所述脚本片段包括所述脚本的句子;所述音频信号的所述第一粒度级别包括所述脚本的脚本片段;所述视频图像的所述第一粒度级别包括所述视频信号的所述第一粒度级别;

将从在视频信号中检测到的脸中所提取的该生理、生物或行为状态信息与包含从所述脚本中所提取的所述语言音调信息、从所述音频信号中导出的所述行为状态信息,以及从所述视频图像中导出的一个或多个人的姿态中的两项或多项合并及可视化呈现,其中,合并步骤基于行为状态类别和/或粒度级别;

其中,所述合并步骤包括:从所述视频信号中确定所述脚本在所述第一粒度级别下的最频繁的面部情绪,并选择所述最频繁的面部情绪作为所述视频在所述脚本的所述第一粒度级别下的所述视频信号各个片段的代表情绪,并将所述视频信号各个片段的代表情绪,与在所述脚本的所述第一粒度级别下从所述脚本导出的情绪信息和在所述脚本的所述第一粒度级别下从所述音频信号导出的所述情绪信息进行分组。

2.根据权利要求1所述的方法,其中,从所述视频信号导出以检测一个或多个人的姿态的所述视频图像包括从所述视频信号导出的单帧静止图像中的任何一个、所述视频信号中的多个帧、所述视频信号的一部分、以及整个所述视频信号。

3.根据权利要求1所述的方法,其中,所述音频信号的所述第一粒度级别包括所述脚本的所述第一粒度级别,并且其中,根据基于所述脚本的所述第一粒度级别的所述脚本的之前的分段,对所述音频信号进行初始处理以对所述音频信号进行分段。

4.根据权利要求1所述的方法,其中处理所述音频信号以导出行为状态信息的步骤包括:在所述音频信号的所述第一粒度级别下提取功率谱信息,并使用所述功率谱信息来导出所述行为状态信息。

5.根据权利要求1所述的方法,其中,从所述视频信号中的所检测到的面部提取的生理、生物或行为状态信息包括在所述视频信号的所述第一粒度级别下,从所述所检测到的面部导出的情绪信息,以及以下任意两项或多项:从所述脚本提取的语言音调信息包括在所述脚本的所述第一粒度级别下,从所述脚本中导出的情绪信息;从所述音频信号导出的所述行为状态信息包括在所述音频信号的所述第一粒度级别下,从所述音频信号导出的情绪信息;从所述视频图像导出的所述一个或多个人的姿态包括在所述视频信号的所述第一粒度级别下的情绪信息。

6.根据权利要求5所述的方法,其中,所述合并步骤包括:将来自所检测到的面部的情绪信息与以下任意两项或多项分组:从所述脚本导出的所述情绪信息、跨越多个不同级别的粒度,从所述音频信号导出到多个情绪类别的情绪信息、以及从所述一个或多个人的姿态导出的情绪信息。

7.根据权利要求6所述的方法,其中,从所述视频信号中选择的用于检测一个或多个人的姿态的视频图像被选择为与所述脚本的所述第一粒度级别下,所检测到的最频繁的面部情绪的发生之一相一致;以及选择最频繁的面部表情。

8.根据权利要求6所述的方法,其中,所述多个不同的粒度级别包括:(i)所述视频信号的帧;(ii)所述脚本的句子;以及(iii)所述脚本的单词。

9.根据权利要求8所述的方法,其中,基于与所述脚本相关联的时间线,将所述多个不同级别的粒度彼此映射。

10.根据权利要求8所述的方法,其中,在所述视频信号的所述第一粒度级别下,从所检测到的面部导出的情绪信息,在所述脚本的所述第一粒度级别下,从所述脚本导出的情绪信息,在所述音频信号的所述第一粒度级别下,从所述音频信号导出的情绪信息,或在所述视频信号的所述第一粒度级别下,从一个或多个人的姿态导出的情绪信息中的任意一个包括多个预定义的情绪。

11.根据权利要求1所述的方法,其中,从所述视频信号中提取的所述生理、生物或行为状态信息,从所述脚本中提取的所述语言音调信息,从所述音频信号导出的所述行为状态信息以及从所述视频图像导出的所述行为状态信息是彼此独立地导出。

12.根据权利要求1所述的方法,其中,在所述视频信号的所述第一粒度级别下,从所显示的面部提取生理、生物或行为状态信息的步骤基于在所述视频信号的所述第一粒度级别下,所述视频信号中检测到的突出的面部。

13.根据权利要求1所述的方法,其中,在处理所述音频信号以导出行为状态信息之前,对所述音频信号进行处理以滤除所述音频信号中包含指示人类笑声的行为状态的部分。

14.一种用于分析视频信号中情绪一致性的系统,其特征在于,包括:

面部检测模块,用于检测视频信号中显示的人脸,并以所述视频信号的第一粒度级别从所显示的面部中提取生理、生物或行为状态信息;以及以下两项或多项:(i)音调分析器模块,用于处理从所述视频信号导出或与之相关联的脚本,以在所述脚本的第一粒度级别下从所述脚本中提取语言音调信息;

(ii)音频信号分析模块,用于处理从所述视频信号导出或与之相关联的音频信号,以所述音频信号的第一粒度级别从所述音频信号导出行为状态信息;以及(iii)视频图像分析模块,用于处理从视频信号中提取的视频图像,以检测其面部被显示在所述视频信号中的人的一个或多个人的姿态;

其中,所述视频信号的所述第一粒度级别包括所述视频信号的帧;所述脚本的所述第一粒度级别包括脚本片段,所述脚本片段包括所述脚本的句子;所述音频信号的所述第一粒度级别包括所述脚本的脚本片段;所述视频图像的所述第一粒度级别包括所述视频信号的所述第一粒度级别;以及数据处理器和数据可视化系统,分别用于将从所述视频信号中提取的所述生理、生物或行为状态信息与从所述脚本中提取的所述语言音调信息,从所述音频信号中导出的所述行为状态信息以及从所述视频图像中导出的所述一个或多个人的姿态中的两项或多项进行合并和可视化呈现;其中,所述数据处理器被配置为基于行为状态类别和/或粒度级别来合并所述信息;

所述数据处理器从所述视频信号中确定所述脚本在所述第一粒度级别下的最频繁的面部情绪,并选择所述最频繁的面部情绪作为所述视频在所述脚本的所述第一粒度级别下的所述视频信号各个片段的代表情绪,并将所述视频信号各个片段的代表情绪,与在所述脚本的所述第一粒度级别下从所述脚本导出的情绪信息和在所述脚本的所述第一粒度级别下从所述音频信号导出的所述情绪信息进行分组。

15.根据权利要求14所述的系统,其中,所述音调分析器模块被配置为利用梅尔频率倒谱系数MFCC,基于改进的神经网络的音频‑文本情绪识别的内容,基于多情态情绪识别和情绪分析的卷积MKL的内容,音频情绪识别的新方法的内容的其中之一,或在野外的多情态语言分析的内容:CMU‑MOSEI数据集和可解释的动态融合图,用于处理所述音频信号以提取在所述音频信号的所述第一粒度级别的功率谱信息,并将所提取的功率谱信息馈入用于语音情绪识别的预训练基线模型,以在所述音频信号的所述第一粒度级别下,从所述音频信号导出所述行为状态信息。

16.根据权利要求15所述的系统,其中,用于语音情绪识别的所述预训练基线模型使用RAVDESS数据集、IEMOCAP数据集、AIBO数据集或CMU‑MultimodalSDK数据集,以在所述音频信号的所述第一粒度级别下,从所述音频信号导出所述行为状态信息。

说明书 :

一种用于视频中情绪一致性可视化分析的系统及方法

技术领域

[0001] 本发明涉及一种用于视频中的情绪一致性的可视化分析的系统和可计算机实现的方法,特别是,但非排他地,涉及演讲视频。

背景技术

[0002] 情绪在人类交流和包括公众演讲在内的公众演示中起着关键作用。如参考文献(C.Gallo.Talk like TED:the 9public‑speaking secrets of the world’s top minds.St.Martin’s Press,2014)所讨论的那样,许多最近的文献提倡情绪表达,这些情绪表达可以改善听众的参与并获得成功的传递。当人类通过多种行为方式(例如面部和声音变化和姿态)表达情绪时,跨越这些方式的情绪一致性会对听众的感知和态度产生重大影响,如后附参考文献(C.Darwin and K.Lorenz.The Expression of the Emotions in Man and Animals.Phoenix Books.University of Chicago Press,1965)所述。因此,探索多情态情绪及其一致性对于理解例如演讲文稿中的情绪表达并提高演讲技能具有重要价值。然而,如参考文献(T.Pfister and P.Robinson.Speech emotion classification and public speaking skill assessment.In International Workshop on Human Behavior Understanding,pp.151–162.Springer,2010),(T.Pfister and P.Robinson.Real‑time recognition of affective states from nonverbal features of speech and its application for public speaking skill analysis.IEEE Transactions on Affective Computing,2(2):66–78,2011)以及(V.Ramanarayanan,C.W.Leong,L.Chen,G.Feng,and D.Suendermann‑Oeft.Evaluating speech,face,emotion and body movement time‑series features for automated multimodal presentation scoring.In Proceedings of the 2015ACM on International Conference on Multimodal Interaction,pp.23–30.ACM,2015)中所述,多媒体的现有研究主要集中于集成多情态特征以识别和分析演讲中的整体情绪。因此,它们不足以捕捉具有通过每个情态表达的不连贯情绪的场景,这可以如参考文献(R.Reisenzein,M.Studtmann,and G.Horstmann.Coherence between emotion and facial expression:Evidence from laboratory experiments.Emotion Review,5(1):16–23,2013)及(P.‑w.Yeh,E.Geangu,and V.Reid.Coherent emotional perception from body expressions and the voice.Neuropsychologia,91:99–108,2016)中所讨论的那样无意地发生,或者有意地发生,例如无聊的幽默。手动检查和浏览演讲视频通常很繁琐且耗时,且用来帮助用户进行有效且深入的多层次分析的有效的工具仍然缺乏。
[0003] 在情绪形态的主题上,情绪理论的一个中心宗旨是情绪表达涉及不同的情态,例如面部表情和声音行为,如后文参考文献(C.Darwin and K.Lorenz)所述。在此框架内,这些频道之间的情绪一致性在人类交流中起着重要作用。如所附参考文献(V.I.Muller,U.Habel,B.Derntl,F.Schneider,K.Zilles ,B.I.Turetsky,and S.B.Eickhoff.Incongruence effects in crossmodal emotional integration),(C.Tsiourti,A.Weiss,K.Wac,and M.Vincze.Multimodal integration of emotional signals from voice,body,and context:Effects of(in)congruence on emotion recognition and attitudes towards robots.International Journal of Social Robotics,pp.1–19,2019)以及(M.Weisbuch,N.Ambady,A.L.Clarke,S.Achor,and J.V.‑V.Weele.On being consistent:The role of verbal–nonverbal consistency in first impressions.Basic and Applied Social Psychology,32(3):261–268,2010)中所讨论的,许多心理学实验已经证明了不连贯的表达对他人的情绪感知和识别的阻碍作用。相应地,关注比仅基本面部表情更多的情态可以使得能够发现潜在的情绪状态,如参考文献(H.Aviezer,Y.Trope,and A.Todorov.Body cues,not facial expressions,
discriminate between intense positive and negative emotions.Science,338(6111):1225–1229,2012)中所述。尽管有这些令人鼓舞的好处,但最近的心理学研究认为,针对如参考文献(J.‑M.Ferna′ndez‑Dols and C.Crivelli.Emotion and expression:
Naturalis‑tic studies.Emotion Review,5(1):24–29,2013)以及(R.Reisenzein,M.Studtmann,and G.Horstmann.Coherence between emotion and facial expression:
Evidence from laboratory experiments.Emotion Review,5(1):16–23,2013)所述的情绪的某些情态,跨情绪模式的一致性不一定很高,并且出乎意料地弱。例如,Reisenzein等人公开的内容发现面部表情可能不会与经历的惊讶和厌恶同时发生。这些正在进行的研究激发了本发明在多情态情绪分析中的新发展。
[0004] 与心理实验研究相一致,计算情绪分析的研究已从传统的单情态前瞻性观点发展为更复杂的多情态观点,如参考文献(S.Poria,E.Cambria,R.Bajpai,and A.Hussain.A review of affective computing:From unimodal analysis to multimodal fusion.Information Fusion,37:98–125,2017)所述。由参考文献(S.Poria,E.Cambria,A.Hussain,and G.‑B.Huang.Towards an intelligent framework for multimodal affective data analysis.Neural Networks,63:104–116,2015)以及(M.Soleymani,M.Pantic,and T.Pun.Multimodal emotion recognition in response to videos.IEEE Transactions on Affective Computing,3(2):211–223,2012)为例说明的大量工作集中于利用多情态特征来增强情绪识别。该工作研究了特征情态的不同组合,并确定了那些对识别性能无贡献的组合。参考文献(H.Ranganathan,S.Chakraborty,and 
S.Panchanathan.Multimodal emotion  recognition  using deep learning 
architectures.In 2016IEEE Winter Conference on Applications of Computer Vision(WACV),pp.1–9.IEEE,2016)以及(P.Tzirakis,G.Trigeorgis,M.A.Nicolaou,B.W.Schuller,and S.Zafeiriou.End‑to‑end multimodal emotion recognition using deep neural networks.IEEE Journal of Selected Topics in Signal Processing,11(8):1301–1309,2017)中描述的一些工作采用了深层架构来捕获多情态特征之间的复杂关系。但是,它们并没有明确说明其一致性,因此在详细探索中还显不够。
[0005] 在过去的十年中,情绪可视化已成为研究的重要课题。大部分精力都集中在分析从文本数据(例如参考文献(M.L.Gregory,N.Chinchor,P.Whitney,R.Carter,E.Hetzler,and A Turner.User‑directed sentiment analysis:Visualizing the affective content of documents.In Proceedings of the Workshop on Sentiment and Subjectivity in Text,pp.23–30.Association for Computational Linguistics,2006)中所述的文档,参考文献(R.Kempter,V.Sintsova,C.Musat,and P.Pu.Emotionwatch:
Visualizing fine‑grained emotions in event‑related tweets.In Eighth 
International AAAI Conference on Weblogs and Social Media,2014)以及(J.Zhao,L.Gou,F.Wang,and M.Zhou.Pearl:An interactive visual analytic tool for 
understanding personal emotion style derived from social media.In Proceedings of IEEE Conference on Visual Analytics Science and Technology,pp.203–
212.IEEE,2014)中讨论的社交媒体帖子以及参考文献(C.Chen,F.Ibekwe‑SanJuan,E.SanJuan,and C.Weaver.Visual analysis of conflicting opinions.In 2006IEEE Symposium On Visual Analytics Science And Technology,pp.59–66.IEEE,2006),(D.Oelke,M.Hao,C.Rohrdantz,D.A.Keim,U.Dayal,L.‑E.Haug,and H.Janetzko.Visual opinion analysis of customer feedback data.In 2009IEEE Symposium on Visual Analytics Science and Technology,pp.187–194.IEEE,2009)和(Y.Wu,F.Wei,S.Liu,N.Au,W.Cui,H.Zhou,and H.Qu.Opinionseer:interactive visualization of hotel customer feedback.IEEE transactions on visualization and computer graphics,16(6):1109–1118,2010)中讨论的在线评论)中提取的情绪上。例如,Zhao等人通过提取和可视化情绪信息来分析个人情绪风格。Kempter等人在更大范围内,提出了“情绪观察”(EmotionWatch),它总结并形象化了公众的情绪反应。较少的研究涉及面部和听觉的情绪表达,这通常涉及更快的进化和更小的时间粒度。参考文献(G.K.Tam,H.Fang,A.J.Aubrey,P.W.Grant,P.L.Rosin,D.Marshall,and M.Chen.Visualization of time‑series data in parameter space for understanding facial dynamics.In Computer Graphics Forum,vol.30,pp.901–910.Wiley Online Library,2011)利用平行坐标来探索测量空间中的面部表情,从而支持分析算法的设计。这些系统主要集中在单情态情绪上,而不考虑其他情态的信息。
[0006] 很少有人提出从多情态的角度来协助情绪分析的系统,参考文献(A.Zadeh,R.Zellers,E.Pincus,and L.‑P.Morency.Multimodal sentiment intensity analysis in videos:Facial gestures and verbal messages.IEEE Intelligent Systems,31(6):82–88,2016)中Zadeh等人利用直方图来可视化视频中姿态和口头表达之间的情绪强度关系。最近,参考文献(A.Hu and S.Flaxman.Multimodal sentiment analysis to explore the structure of emotions.In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining,pp.350–358.ACM,2018)中Hu等人推断出了潜在的表情社交媒体帖子的文字和图像中的所有状态,并可视化它们之间的相关性。然而,他们的视觉方法仅对总体统计数据进行编码,缺乏对情绪状态和不同细节级别的变化的深入分析和可视化。
[0007] 考虑到多媒体视觉分析,许多视觉分析系统已被提出来辅助视频分析和知识发现。一个主要的挑战是粒度级别,该级别从视频和片段级别到词和帧级别不等。一方面,许多系统将视频内容汇总为时间变量,并按参考文献(M.Hoeferlin,B.Hoeferlin,G.Heidemann,and D.Weiskopf.Interactive schematic summaries for faceted exploration of surveillance video.IEEE transactions on multimedia,15(4):908–
920,2013)以及(A.H.Meghdadi and P.Irani.Interactive exploration of 
surveillance video through action shot summarization and trajectory 
visualization.IEEE Transactions on Visualization and Computer Graphics,19(12):2119–2128,2013)中所讨论的通过基于行的形式表示,或如参考文献(K.Higuchi,R.Yonetani,and Y.Sato.Egoscanning:quickly scanning first‑person videos with egocentric elastic timelines.In Proceedings of the 2017CHI Conference on Human Factors in Computing Systems,pp.6536–6546.ACM,2017)以及(D.Ponceleon and A.Dieberger.Hierarchical brushing in a collection of video data.In 
Proceedings of the 34th Annual Hawaii International Conference on System Sciences,pp.8–pp.IEEE,2001)中讨论的表格化图表来实现视频级别的分析。如参考文献(K.Kurzhals,M.John,F.Heimerl,P.Kuznecov,and D.Weiskopf.Visual movie 
analytics.IEEE Transactions on Multimedia,18(11):2149–2160,2016)所述,分层刷洗经常被引入以将分析扩展到更精细的级别。尽管它们支持对时间概览和动态进行有效的可视化探索,但它们对执行诸如聚类分析之类的分析任务却缺乏支持。另一方面,参考文献(J.Matejka,T.Grossman,and G.Fitzmaurice.Video lens:rapid playback and 
exploration of large video collections and associated metadata.In Proceedings of the 27th annual ACM symposium on User interface software and technology,pp.541–550.ACM,2014)以及(B.Renoust,D.‑D.Le,and S.Satoh.Visual analytics of political networks from face‑tracking of news video.IEEE Transactions on Multimedia,18(11):2184–2195,2016)所述的某些方法会丢弃时间信息,并将短片段或帧视为基本分析单位。例如,Renoust等人统一了图形设计,以可视化视频中人们的并发性。
[0008] 如参考文献(V.Vijayakumar and R.Nedunchezhian.A study on video data mining.International journal of multimedia information retrieval,1(3):153–172,2012.S.Vijayarani and A.Sakila.Multimedia mining research‑an overview)以及(S.Vijayarani  and  A.Sakila.Multimedia  mining  research‑an 
overview.International Journal of Computer Graphics&Animation,5(1):69,2015)所述,情态对多媒体挖掘提出了另一个挑战。如参考文献(P.Barros  and 
S.Wermter.Developing crossmodal expression recognition based on a deep neural model.Adaptive behavior,24(5):373–396,2016)所述,探索情态之间的协同作用可能会揭示更高级别的语义信息。虽然已经提出了许多计算方法来支持跨情态分析,但是很少有研究专门研究可视化方法。参考文献(M.Stein,H.Janetzko,A.Lamprecht,T.Breitkreutz,P.Zimmermann,B.Goldlu¨cke,T.Schreck,G.Andrienko,M.Grossniklaus,and 
D.A.Keim.Bring it to the pitch:Combining video and movement data to enhance team sport analysis.IEEE transactions on visualization and computer graphics,
24(1):13–22,2018)中Stein等人提出了一种基于计算机视觉的方法,将数据抽象映射到足球视频的帧上。参考文献(X.Xie,X.Cai,J.Zhou,N.Cao,and Y.Wu.A semantic‑based method for visualizing large image collections.IEEE transactions on 
visualization and computer graphics,2018)中Xie等人提出了一种将图像和相关的语义关键字投影到2D空间的共嵌入方法。参考文献(A.Wu and H.Qu.Multimodal analysis of video collections:Visual exploration of presentation techniques in ted talks.IEEE transactions on visualization and computer graphics,2018)中Wu和Qu提出了一种视觉分析系统,以探索视觉和语言模式中事件的并发性。这些系统仅捕获不同情态之间的隐式或简单关系,因此不足以促进深入分析。
[0009] 因此,需要一种用于系统地探索和解释跨行为情态的情绪一致性的分析工具和方法,以获得对情绪表达的更深刻的理解。为此,需要提供一种如所附权利要求所限定的改进的数据处理系统和方法。
[0010] 发明目的
[0011] 本发明的一个目的是在某种程度上减轻或消除与探索和解释视频和相关数据中的行为方式的情绪一致性的已知方法有关的一个或多个问题。
[0012] 通过结合主要权利要求的特征来实现上述目的。从属权利要求公开了本发明的其他有利实施例。
[0013] 本发明的另一个目的是提供一种用于处理视频信号的改进的数据处理系统和方法。
[0014] 本发明的另一个目的是提供一种用于选择视频的改进的数据处理系统和方法。
[0015] 本发明的另一个目的是提供一种用于搜索视频库的改进的数据处理系统和方法。
[0016] 本领域技术人员将从以下描述中得出本发明的其他目的。因此,上述目的的陈述不是穷举性的,仅用于说明本发明的许多目的中的一些。

发明内容

[0017] 本发明在至少两个方面与先前的工作不同。第一,根据心理学研究的最新证据,没有假定情绪对不同的行为方式具有一致性。取而代之的是,采用最先进的方法从不同的方式中提取情绪并明确检查其一致性。第二,使用视觉和基于机器的分析来引入人类的专业知识,以解释和分析视频中的真实情绪,从而提供更详细的分析。
[0018] 在第一主要方面,本发明提供一种计算机实现的处理视频信号的方法,包括以下步骤:检测在视频信号中显示的人脸,并在视频信号第一粒度级别从所显示的脸中提取生理、生物或行为状态信息;处理以下两个或多个:(i)从视频信号导出或与视频信号相关联的脚本,以在脚本的第一粒度级别上从所述脚本中提取语言音调信息;(ii)从视频信号导出或与视频信号相关联的音频信号,以在音频信号的第一粒度级别上从所述音频信号导出行为状态信息;(iii)从视频信号中导出的视频图像,以检测其面部显示在视频信号中该人的一个或多个人的姿态;将从视频信号中提取的所述生理、生物或行为状态信息与以下两项或多项合并:(i)从脚本中提取的语言音调信息;(ii)从音频信号导出的行为状态信息;(iii)从视频图像中导出的一个或多个人的姿态;其中,所述合并步骤基于行为状态类别和/或粒度级别。
[0019] 在第二主要方面,本发明提供一种用于处理视频信号的系统,该系统包括:面部检测模块,用于检测在视频信号中显示的人脸,以及在视频信号的第一粒度级别从所显示的面部提取生理、生物或行为状态信息;以及以下两个或多个:(i)音调分析器模块,用于处理从视频信号导出或与视频信号相关联的脚本,以脚本的第一粒度级别从所述脚本中提取语言音调信息;(ii)音频信号分析模块,用于处理从所述视频信号导出或与之相关联的音频信号,以所述音频信号的第一粒度级别从所述音频信号导出行为状态信息;(iii)视频图像分析模块,用于处理从视频信号中导出的视频图像,以检测其面部显示在视频信号中的该人的一个或多个人的姿态;以及数据处理器,用于将从视频信号中提取的所述生理,生物或行为状态信息与以下两项或多项合并:(i)从脚本中提取的语言信息;(ii)从音频信号导出的行为状态信息;(iii)从视频图像中导出的一个或多个人的姿态;其中,数据处理器被配置为基于行为状态类别和/或粒度级别来合并所述信息。
[0020] 在第三主要方面,本发明提供一种非暂时性计算机可读介质,用于存储可由处理器执行以配置信号处理系统来执行本发明第一主要方面的方法的机器可读指令。
[0021] 在第四主要方面,本发明提供一种选择视频的方法,该方法包括:显示多个视频中的每个视频的数据,每个视频的所述数据包括指示所述视频的多个情态之间的情绪不连贯程度的数据;接收用户对所显示的视频之一的选择;对于用户选择的视频,执行以下一项或多项:响应用户输入播放所述视频;和/或以所述多个情态之一的第一粒度级别显示呈现所述视频的多个情态之间连接的数据。
[0022] 在第五主要方面,本发明提供一种用于选择视频的系统,包括屏幕,用于显示多个视频中的每个视频的数据,每个视频的所述数据包括指示所述视频的多个情态之间的情绪不连贯程度的数据;界面,接收用户对所显示的视频之一的选择;数据处理其,其配置为响应于接收到用户选择,执行以下一项或多项:播放所述视频;和/或以所述多个情态之一的第一粒度级别显示呈现所述视频的多个情态之间连接的数据。
[0023] 在第六主要方面,本发明提供了一种非暂时性计算机可读介质,用于存储可由处理器执行以配置信号处理系统来执行本发明第四主要方面的方法的机器可读指令。
[0024] 在第七主要方面,本发明提供了一种搜索视频库的计算机实现的方法,该方法包括:存储多个视频中的每个视频的数据,每个视频的所述数据包括指示所述视频的多个情态之间的情绪不连贯程度的数据;接收用户搜索输入;对于用户选择的视频;基于用户搜索输入,识别匹配或紧密匹配所述用户搜索结果的一个或多个视频;显示定义被识别为与所述用户搜索输入匹配或紧密匹配的视频列表的数据。
[0025] 在第八主要方面,本发明提供了一种用于搜索视频存储库的系统,该系统包括存储库,用于存储多个视频中的每个视频的数据,每个视频的所述数据包括指示所述视频的多个情态之间的情绪不连贯程度的数据;设备,可通信地连接到所述存储库,以接收用户搜索输入;数据处理器,被配置为在接收到所述用户搜索输入时,识别匹配或紧密匹配所述用户搜索输入的一个或多个视频;显示器,用于显示定义被识别为匹配或紧密匹配所述用户搜索输入的视频列表的数据。
[0026] 在第九主要方面,本发明提供一种非暂时性计算机可读介质,用于存储可由处理器执行以配置信号处理系统来执行本发明第七主要方面的方法的机器可读指令。

附图说明

[0027] 从以下优选实施例的描述中,本发明的前述和其他特征将变得显而易见,所述优选实施例仅通过示例的方式结合附图提供,其中:
[0028] 图1是根据本发明的信号处理系统的示意框图;
[0029] 图2是示出至少根据本发明第一主要方面的方法的分析流水线的示意框图;
[0030] 图3示出了包括根据本发明系统的显示器的多个视图;
[0031] 图4提供了图3的“视频视图”部分的放大且更详细的视图;
[0032] 图5示出了图3中用于“视频视图”部分中“视频列表”部分的折线图和条形码图的放大图;
[0033] 图6示出了图5的折线图和条形码图的替代方案;
[0034] 图7提供了图3的“频道视图”部分的放大且更详细的视图;
[0035] 图8示出了图7的桑基图部分的替代方案;
[0036] 图9提供了图3的“细节视图”部分的放大且更详细的视图;
[0037] 图10提供了图3的“投影视图”部分的替代方案的放大且更详细的视图;
[0038] 图11提供了图3的“单词视图”部分的放大且更详细的视图;以及
[0039] 图12提供了“细节视图”的条形码图的加强且更详细的视图。

具体实施方式

[0040] 以下描述仅通过示例的方式对优选实施例进行描述,并且不限于实施本发明所必需的特征的组合。
[0041] 在本说明书中,对“一个实施例”或“一实施例”的引用是指结合该实施例描述的特定特征,结构或特性包括在本发明的至少一个实施例中。说明书中各个地方出现的短语“在一个实施例中”不一定全都指同一实施例,也不是与其他实施例互斥的单独或替代的实施例。而且,描述可以由一些实施例而不是其他实施例展现的各种特征。类似地,描述了可能是某些实施例但不是其他实施例要求的各种要求。
[0042] 应当理解,附图中所示的元件可以以各种形式的硬件,软件或其组合来实现。这些元件可以在一个或多个适当编程的通用设备上以硬件和软件的组合来实现,该通用设备可以包括处理器,存储器和输入/输出接口。
[0043] 本说明书说明了本发明的原理。因此,要理解的是,本领域技术人员将能够设计出尽管未在本文中明确描述或示出但体现本发明的原理并且包括在其精神和范围内的各种装置。
[0044] 此外,本文中引用本发明的原理,方面和实施例及其特定示例的所有陈述旨在涵盖其结构和功能上的等同物。另外,旨在这样的等同物包括当前已知的等同物以及将来开发的等同物,即,开发的执行相同功能的任何元件,而与结构无关。
[0045] 因此,例如,本领域技术人员将认识到,本文呈现的框图表示体现本发明原理的系统和设备的概念图。
[0046] 附图中所示的各种元件的功能可以通过使用专用硬件以及能够与适当的软件相关联地处理软件的硬件来提供。当由处理器提供时,可以由单个专用处理器,单个共享处理器或多个单独的处理器(其中一些可以共享)提供功能。而且,术语“处理器”或“控制器”的明确使用不应解释为专门指代能够执行软件的硬件,并且可以隐含地包括但不限于数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)和非易失性存储器。
[0047] 在本文的权利要求中,表达为用于执行特定功能的装置的任何元件旨在涵盖执行该功能的任何方式,例如包括a)执行该功能的电路元件的组合,或b)任何形式的软件,因此,包括固件、微码或等等,并结合适当的电路来执行该软件以执行该功能。由这样的权利要求书所限定的本发明在于以下事实:由各种所述装置提供的功能以权利要求书所要求的方式被组合在一起。因此认为可以提供那些功能的任何手段都等同于本文所示的手段。
[0048] 视觉分析已被引入情绪分析中,以简化对复杂和多维情绪数据的探索。很多工作都集中在分析单一形式的情绪上,例如参考文献(C.Chen,F.Ibekwe‑SanJuan,E.SanJuan,and C.Weaver,D.Oelke,M.Hao,C.Rohrdantz,D.A.Keim,U.Dayal,L.‑E.Haug,and H.Janetzko,Y.Wu,F.Wei,S.Liu,N.Au,W.Cui,H.Zhou,and H.Qu和J.Zhao,L.Gou,F.Wang,and M.Zhou)中讨论的文本数据,而参考文献Tam等人中讨论的视频则更少,或参考文献(C.‑H.Chen,M.‑F.Weng,S.‑K.Jeng,and Y.‑Y.Chuang.Emotion‑based music visualization using photos.In International Conference on Multi‑media Modeling,pp.358–368.Springer,2008)中讨论的音频。尽管它们的可视化方法在分析相应的情绪情态方面显示出成功,但由于它们的时间粒度和动态变化不同,很难将它们集成到多情态分析中。此外,现有的用于多情态情绪分析的系统(例如参考文献A.Hu and S.Flaxman和A.Zadeh,R.Zellers,E.Pincus,and L.‑P.Morency)仅对总体统计数据进行编码,为深入分析,如从视频中识别情绪一致性的动态变化并推断潜在的情绪状态(如无聊的幽默))提供的支持很少。而且,这些系统没有考虑细节的不同级别,这可能导致忽略重要的情绪模式。总而言之,由于视频中情绪行为的多种形式和变化的粒度,因此跨不同情态进行同时的情绪分析并探索情绪一致性具有挑战性。
[0049] 为了解决上述挑战,已经由两个专业的演讲教练进行了获得本发明的工作,以创新新颖和有效的自动视觉分析技术来分析视频中的多情态情绪,尤其是演讲视频。在以用户为中心的设计过程之后,本发明基于与专家的访谈和讨论得出一组可视化任务。然后,本发明提出了一种交互式可视化系统,以在三个细节级别上自动分析从文本、面部和音频情态得出的情绪状态和一致性。频道视图汇总了一致性统计信息,而投影视图则提供了其在选定或预定级别(例如句子级别)的动态变化的概述。一旦选择了感兴趣的句子,细节视图就可以探索情绪状态及其时间变化以及诸如音高之类的补充信息。提供丰富的交互作用,以方便浏览视频并推断说话者的情绪状态。TED演讲和专家访谈的两种使用场景证明了这种新颖方法的有效性和实用性。
[0050] 图1示出了根据本发明概念的信号处理系统100的示例性实施例。在所示的实施例中,信号处理系统100包括计算机处理设备,诸如通信设备(例如,智能电话)、平板计算机、膝上型计算机、个人计算机(PC)等,尽管任何合适的数据可以利用处理设备或系统。信号处理系统100可以经由通信网络连接到服务器和/或数据库106等,尽管这对于实现本发明不是必需的。该通信网络可以包括诸如无线蜂窝网络的无线网络、有线网络、互联网或上述各项的任意组合。
[0051] 信号处理系统100可以包括用于执行其各种功能的多个功能块。例如,信号处理系统100可以包括接收器模块110,其提供接收信号处理和/或被配置为将接收到的信号和/或从其提取的信息提供给功能块模块120,诸如可以包括各种数据接收器、控制元件、用户界面等。尽管接收器模块110被描述为提供接收信号处理,但应理解,此功能块可以实现为收发器,通过天线105和/或另一种类型的系统输入,提供发送和接收信号处理,尽管可以理解,可以通过本领域技术人员熟悉的适当方式将视频片段形式的视频信号接收或输入到信号处理系统100的接收器模块110。此外,将理解,对于本发明的各方面的实施,信号处理系统100能够接收和/或发送信号不是必需的。信号处理系统100可以包括独立设备或系统。不管接收器模块110的存在或特定配置,实施例可以包括:面部检测模块130,用于检测在视频信号中显示的人脸,以在视频信号的第一粒度级别上从所显示的面部中提取生理、生物或行为状态信息;音调分析器模块140,用于处理从所述视频信号导出或与视频信号相关联的脚本,以脚本的第一粒度从所述脚本中提取语言音调信息;音频信号分析模块150,用于处理从所述视频信号导出或与之相关联的音频信号,以所述音频信号的第一粒度级别从所述音频信号导出行为状态信息;视频图像分析模块155,用于处理从视频信号中提取的视频图像,以检测其面部显示在视频信号中该人的人的姿态;数据处理器180,用于将从视频信号中提取的所述生理、生物或行为状态信息与以下两个或多个进行合并:(i)从脚本中提取的语言音调信息;(ii)从音频信号导出的行为状态信息;以及(iii)从视频图像中导出的一个或多个人的姿态;其中,数据处理器180被配置为基于行为状态类别和/或粒度级别来合并所述信息。
[0052] 尽管面部检测模块130、音调分析器模块140、音频信号分析模块150、视频图像分析模块155和数据处理器180被示作部署为接收器模块110的一部分(例如,包括接收器模块控制和逻辑电路的一部分),对根据本发明概念的这种部署配置没有限制。例如,面部检测模块130、音调分析器模块140、音频信号分析模块150、视频图像分析模块155和数据处理器180中的每一个可以被部署为信号处理系统100的相应功能块,即如果存在,则与接收器模块110不同但连接到接收器模块110。面部检测模块130、音调分析器模块140、音频信号分析模块150、视频图像分析模块155和数据处理器180中的每一个,例如,可以使用逻辑电路和/或可执行代码/存储在信号处理系统100的存储器160中的机器可读指令分别实现,以便由处理器170执行以执行本文所述的功能。例如,可执行代码/机器可读指令可以被存储在适合于存储一个或多个指令集(例如,应用软件、固件、操作系统、小程序等),数据(例如,配置参数、操作参数和/或阈值、收集的数据、已处理的数据等)的一个或多个存储器160(例如,随机存取存储器(RAM)、只读存储器(ROM)、闪存、磁存储器、光存储器等)中。一个或多个存储器160可以包括处理器可读存储器,以用于一个或多个处理器170,所述处理器可操作为执行面部检测模块130、音调分析器模块140、音频信号分析模块150、视频图像分析模块155和数据处理器180中的任何一个的代码段,和/或利用由此提供的数据来执行如本文所述的信号处理系统100的功能。附加地或替代地,面部检测模块130、音调分析器模块140、音频信号分析模块150、视频图像分析模块155和数据处理器180中的每一个可包括一个或多个专用处理器,例如,专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)等,配置为执行此处所述的信号处理系统100的功能。
[0053] 为了实现根据本发明主要方面的方法,执行一系列数据处理步骤以从视频信号的视觉,音频和文本情态中提取行为状态信息,例如并且优选地包括情绪信息。应用方法从每个情态中独立提取此类信息。然后,包括从所述情态中提取的信息的数据基于它们的语义含义进行融合,并在不同的时间粒度级别上对齐。
[0054] 更具体地,在根据本发明的第一主要方面的视频信号处理方法中,第一步骤是使用面部检测模块130检测显示在视频信号中的人脸并从显示的面部在第一级粒度级别(如接收或输入的视频信号的视频帧级别)提取生理、生物或行为状态信息。优选地,待处理的视频信号包括人类语音的数字视频片段,优选地以数字格式,但对于某些实施例,可以包括合成语音,例如从与视频信号关联或从视频信号导出的文本生成的语音。因此优选地,面部检测模块130包括语音合成或语音分析模块。在一些实施例中,面部检测模块130可以包括TM现有的面部检测模块,例如Microsoft   Azure Face API,以在视频信号中执行面部检测、分组、认证和情绪识别。视频信号中突出的面部组被认为是说话者,并且在进行面部认证时会与其他面部组合并,因为同一说话者可能会分成几组。优选地,面部检测模块130的数据输出包括一组情绪(即,愤怒、轻蔑、厌恶、恐惧、幸福、中立、悲伤和惊讶),其具有针对每个视频帧中的说话者的置信度值,即在视频信号的第一粒度级别处。
[0055] 然后,该方法包括以下步骤中的两个或多个,即步骤(i)、(ii)和(iii):
[0056] (i)使用音调分析器模块140来处理从视频信号导出或与视频信号相关联的脚本或文本,以在脚本的第一粒度级别从所述脚本中提取语言音调信息。从视频信号导出或与之相关联的脚本或文本可以包括可从TED网站(https://www.ted.com/talks)获得的预定义的、人类标记的文本段,作为以每种形式输入的脚本/文本数据一个小的语义单元,直到包含一些具有相似情绪的句子。在一些实施例中,音调分析器模块140可以包括现有的音调TM分析器模块,例如IBM  Watson Tone Analyzer API,其被配置为提取包括愤怒、厌恶、恐惧、幸福、悲伤和分析性的情绪音调。最后一个音调被标记为“中性”以保持一致性。
[0057] (ii)使用音频信号分析模块150来处理从视频信号导出或与视频信号相关联的音频信号,以在音频信号的第一粒度级别上从所述音频信号导出行为状态信息。优选地,这包括按照上述字幕分段对音频信号进行分段的初始步骤,以使音频信号的第一粒度级别包括脚本的第一粒度级别。参考文献(K.Ryokai,E.Dura′n Lo′pez,N.Howell,J.Gillick,and D.Bamman.Capturing,representing,and interacting with laughter.In Proceedings of the 2018CHI Conference on Human Factors in Computing Systems,p.358.ACM,2018)中描述的神经网络可用于过滤掉任何包含笑声的音频片段,因为已经发现此类片段会严重影响情绪识别结果。优选地,从提取的片段中计算出梅尔频率倒谱系数(MFCC),通常用于音频情绪识别的特征,但是可以使用其他技术从音频信号中提取功率谱数据,例如,音频文本。基于改进的神经网络的音频‑文本情绪识别(https://doi.org/10.1155/2019/
2593036或https://www.hindawi.com/journals/mpe/2019/2593036/),基于的多情态式情绪识别和情绪分析(10.1109/ICDM.2016.0055或https://ieeexplore.ieee.org/
document/7837868)卷积MKL,一种音频情绪识别的新方法(http://dx.doi.org/10.1016/j.eswa.2014.03.026或https://www.sciencedirect.com/science/article/abs/pii/S0957417414001638?via%3Dih ub),或在野外进行多情态语言分析:CMU‑MOSEI数据集和可解释的动态融合图(10.18653/v1/P18‑1208或https://www.aclweb.org/anthology/P18‑1208/)。然后,将它们馈入诸如在参考文献(P.Barros and S.Wermter.Developing crossmodal expression recognition based on a deep neural model.Adaptive behavior,24(5):373–396,2016)中描述的,针对参考文献(S.R.Livingstone and F.A.Russo.The ryerson audio‑visual database of emotional speech and song(ravdess):A dynamic,multimodal set of facial and vocal expressions in north american  english.PLOS  ONE,13(5):1–35,05  2018.doi:10.1371/
journal.pone.0196391)中讨论的RAVDESS数据集上的语音情绪识别而实现的预训练基准模型,尽管也可以利用其他数据集,例如,IEMOCAP数据集(https://sail.usc.edu/iemocap/)、AIBO数据集(https://www5.cs.fau.de/en/our‑team/steidl‑stefan/fau‑aibo‑emotion‑corpus/)或CMU‑Multimodal SDK数据集(https://github.com/A2Zadeh/CMU‑MultimodalSDK)。优选地,输出包括七个检测到的情绪,包括愤怒、厌恶、恐惧、幸福、中立、悲伤和惊讶。
[0058] 下表1中提供了可以利用的其他数据集:
[0059]
[0060] 表1:CMU‑MOSEI数据集与之前的情感分析和情绪识别数据集的比较。
[0061] #S表示带注释数据点的数量。#Sp是不同的说话者的数量。Mod表示从{(l)anguage,(v)ision,(a)udio}中呈现的情态子集。Sent和Emo列表示情感和情绪标签。TL为总视频小时数。
[0062] (iii)使用视频图像分析模块155来处理从视频信号导出的视频图像,以检测其面部被显示在视频信号中的人的一个或多个人的姿态。从视频图像中检测一个或多个人的姿态,优选地包括从检测到的一个或多个人的姿态中提取生理、生物或行为状态信息。检测一个或多个人的姿态的步骤可以包括检测其面部被显示在视频信号中的人的一个或多个身体姿态。从视频信号导出以检测一个或多个人的姿态的视频图像可以包括从视频信号导出的单帧静止图像中的任何一个;视频信号中的多个帧;视频信号的一部分;以及整个视频信号。
[0063] 在第一主要方面的方法的最后步骤中,数据处理器180用于将从视频信号中提取的所述生理、生物或行为状态信息与以下两项或多项合并:(i)从脚本中提取的语言音调信息;(ii)从音频信号导出的行为状态信息;(iii)从视频图像中导出的一个或多个人的姿态;其中,数据处理器180被配置为基于行为状态类别和/或粒度级别来合并所述信息。优选地,从视频信号提取的生理、生物或行为状态信息,从脚本提出的语言音调信息,从音频信号导出的行为状态信息以及从视频图像导出的行为状态信息包括情绪数据。
[0064] 更具体地,数据处理器180基于它们的类别并且根据不同的时间粒度来融合一些提取的情绪数据。多情态情绪类别优选地被映射到统一类别中以促进数据分析。类别是每种形式的所有情绪类别的并集,该类别包含八种情绪(即愤怒、轻蔑、厌恶、恐惧、幸福、中立、悲伤和惊讶)。对于多级融合,根据我们与领域专家的讨论,考虑了三级时间粒度(即句子级、单词级和视频信号帧级)。在前面的步骤中,文本和音频情绪已在句子级别对齐,而面部情绪已逐帧提取,而人的姿态则从一个或多个视频图像或视频信号的一部分中提取。为了进行句子级融合,计算每个句子中最频繁的面部表情以表示其主要情绪。对于单词级对齐,由于已经通过使用音调分析器模块140检测到每个单词的开始时间和结束时间,因此可以基于它检测到的时间段,容易地将面部、文本、音频情绪和/或人的姿态情绪映射到每个单词。优选地,人的姿态情绪是身体的姿态情绪。
[0065] 为了利用真实数据探索本发明的方法,收集了30TEDTMTalk视频以探索这些演讲视频的情绪一致性。每个视频长约10分钟,质量高,在线评论超过一百万。
[0066] 在以下描述中的一些示例中,数据处理器180将从视频信号中的显示的面部提取的所有生理、生物或行为状态信息与从脚本提取的所有语言音调信息,从音频信号导出的状态信息进行,以及从视频图像导出的一个或多个人的姿态进行合并。但是应该理解,在一些实施例中,数据处理器180被配置为将从视频信号中显示的人脸提取的所述生理、生物或行为状态信息,与从脚本中提取的两种或多种语言音调信息,从音频信号中导出的行为状态信息以及从视频图像中导出的一个或多个人的姿态进行合并。
[0067] 在如上所述的数据处理之后,每个TED Talk由以下内容描述或包括:1)原始视频及其关联或导出的字幕;2)每帧提取的面部表情,例如视频信号的第一级时间粒度,即脚本和音频的第一级时间粒度;3)提取每个字幕片段的音频和文本情绪;4)提取人体姿态情绪;5)对齐每个句子,每个单词和每帧的面部、音频、文本和姿态情态的情绪。每个频道的情绪,即每个情态,与对应模型输出的任何置信度值相关联,并可能由具有最高置信度的优势情绪进一步概括。
[0068] 为了进行任务分析,在演讲培训公司与两名教练(分别为E1和E2)密切合作,遵循了以用户为中心的设计过程,历时约四个月。两位教练在演讲培训方面都有五年以上的经验。他们目前的教练做法是基于录像演示来分析和提供有关表现的反馈,这既繁琐又费时。因此,迭代地开发和完善了本发明的系统,以基于他们的反馈来帮助他们进行视频分析。根据粒度级别,以下是概括的可视化任务,如下所示:
[0069] 视频级探索旨在总结每个视频的情绪,并为视频探索提供上下文,具体表示如下:
[0070] T1,用于总结视频中的情绪信息。有必要总结情绪信息以提供一个整个视频集的预览,可帮助用户识别感兴趣的视频,从而指导有效的探索。情绪信息应包括每个情态的情绪状态及其一致性,以代表整体模式。
[0071] T2,用于为分析提供视频上下文。领域专家建议,除了摘要信息外,浏览原始视频进行情境探索仍然至关重要。由于数据的复杂性,可视化应以屏幕空间有效且响应迅速的方式支持视频的快速回放和引导式导航。
[0072] 句子级别的探索着重于总结句子的情绪一致性,以及每个句子的详细信息,如下所示:
[0073] T3,用于总结每个句子在不同形式上的情绪一致性。在我们的模型中,每个字幕片段中的句子形成具有相同文本情绪的基本语义单元。用面部和听觉情绪表达他们的一致性可能是理解演讲中情绪表达的重要先决条件。例如,说话者的面部印象是否会根据诸如笑话之类的欢乐信息做出反应?
[0074] T4,用于支持快速定位感兴趣的句子。我们的专家有兴趣检查某种情绪是如何表达的,这要求快速定位带有感兴趣情绪的句子。另外,他们希望搜索具有相似情绪表达的句子,以便在整体情况下理解这种行为。
[0075] T5,用于显示情绪信息以及其他说明功能。专家建议提供其他信息,例如面部图像、韵律特征和关键词,以验证和更好地理解情绪表达。该信息应与情绪信息一起显示,以指导探索。
[0076] 单词/帧级别的探索显示了每个单词/帧的情绪,并且可以揭示说话者表达情绪的方式的变化,如下所示:
[0077] T6,用于可以在单词级别检查情绪表达的细节。在更详细的级别上,专家们希望探索情绪表达是否与单词相关联。例如,某种单词是否可能会随面部表情的变化而变化?[0078] T7,用于显示情绪状态的时间分布及其一致性。情绪状态和一致性的时间分布代表了最详细和最基本的特征。由于这些信息的规模很大,因此应该对其进行详细且及时的介绍。
[0079] T8,用于揭示情绪行为的过渡点。我们的专家对探索情绪状态的过渡表现出兴趣,因为它们可能有助于揭示有趣的发现和模式。因此,从算法上提取那些过渡点并抑制不相关的细节以促进更集中的分析非常重要。
[0080] 图2示出了根据本发明第一主要方面的方法的分析流水线。如图2所示,系统从数据处理阶段开始。在从诸如TED Talks数据库之类的数据库或视频片段存储库106收集原始视频数据之后,使用独立的方法从视频片段的面部、文本和音频情态(在此也称为频道)中提取情绪信息。所提取的数据被存储在一个或多个存储器160中,所述存储器160优选地被TM配置为根据MongoDB  存储这样的数据,以促进顺畅的数据探索。
[0081] 在视觉探索短语中,用户可以在数据可视化系统200上执行三级或四级探索,如图2的“显示器210‑视觉探索系统200”框所示,这也是信号处理系统100(图1)的屏幕形成部分的示意图。在视频级窗口220处,用户可以掌握每个视频的基本概览并识别感兴趣的视频以用于进一步探索。之后,提供基于句子的情绪一致性总结,以帮助用户进一步探索他们感兴趣的句子。这些用户还可以探索一些关键字和过渡点,以进一步理解后者。还提供了句子级别230探索窗口230,单词/帧级别探索窗口240和视频图像级别探索窗口250。三级或四级探索取决于从脚本中提取的语言音调信息中的哪两个或多个,可视化系统200的用户选择从音频信号导出的行为状态信息以及从视频图像导出的一个或多个人的姿态。
[0082] 可视化系统200优选地具有至少五个如图3所示的视图。视频视图a呈现了视频列表,该列表为每个视频(T1)提供了三个或四个情态/频道的情绪状态的快速概览。用户可根据他们的观察轻松地选择感兴趣的视频以进行进一步的探索。视频视图a在该视图的底部显示了选定的视频,以帮助用户直接从该视频(T2)中观察原始信息。
[0083] 频道视图b通过使用增强的桑基图设计(Sankey diagram design)(T3‑T4)呈现了三个或四个频道的情绪一致性信息。然后将从不同频道提取的一些相应特征嵌入到此视图中,以在不同频道上给出一些提示以供解释(T5)。细节视图c呈现所选句子及其上下文的详细信息,以帮助用户分析特定句子(T7‑T8)。投影视图d揭示了在脚本的第一级粒度(例如句子级别)或在视频信号的第一级粒度,三个或四个频道上情绪相似性的时间分布。单词视图e提供了视频字幕中每个单词的频率,并允许用户将不同的单词与面部信息进行比较,并在句子和视频中找到特定的单词(T6)。
[0084] 基于上述分析任务,我们的合作者确定了一组设计原理,以更好地设计可视化系统,如下所示:
[0085] 多级别视觉探索。参考文献(B.Shneiderman.The eyes have it:A task by data type taxonomy for information visualizations.In The Craft of Information Visualization,pp.364–371.Elsevier,2003)中讨论的“首先概览,缩放和过滤,然后按需详细信息”这一口号已被广泛用于提供视频集的摘要信息,从而为用户提供一些提示,帮助他们识别感兴趣的视频。选择视频后,用户可以在句子级别进一步探索情绪一致性。选择了感兴趣的句子后,用户可以向下钻取单词/帧级别。
[0086] 多角度联合分析。为了便于从视频中的三个频道详细分析情绪一致性,应提供各种类型的信息。为了更好地解释,将从这些频道中提取特征并嵌入到相应的视图中。显示不同数据透视图的多个链接视图已集成到系统中,用户可以结合使用这些视图以实现多角度的联合分析。
[0087] 互动模式展开。鉴于演讲视频中的情绪一致性分析包含许多隐藏的知识,因此要求用户进行反复试验。用户直接与数据进行交互非常有帮助,因此他们可以基于知识来观察和解释结果。
[0088] 图3中视频视图a的顶部显示,为了实现统一的颜色编码,我们根据最终用户的建议,利用了基于Plutchik情绪轮的颜色方案,如参考文献(R.Plutchik.The nature of emotions:Human emotions have deep evolu‑tionary roots,a fact that may explain their complexity and provide tools for clinical practice.American Scientist,89(4):344–350,2001)中所述。情绪的配色方案由[O1,O2,O3..O4……On]表示,尽管以灰度显示,但在图4中可以更清楚地看到。
[0089] 应当注意的是,图4示出了三种情态,因为其不包括人的姿态情态,但是可以从图4的描述中理解本发明的原理,当它们被选择时它们应用于人的姿态情态。
[0090] 如图3所示,以及更清晰,更广泛地在图4中显示,视频视图a分为三个部分。此视图的顶部包括一个图例,其中显示了采用的配色方案,可以帮助用户观察我们系统中包含的每种情绪的颜色。中间部分显示了视频信息列表。视频列表中有三列,即“名称”,“类别”和“摘要”。每行为列出的每个视频提供这三种信息。前两列表示视频的名称及其相应的类别,很容易理解。如图5所示,摘要列使用折线图和条形码图的组合来显示三个频道信息的非一致性,这为用户提供了快速概览,可帮助他们选择视频(T1)。折线图用于明确显示三个频道之间的情绪非一致性。线的值越高,对应的非一致性越高,如以下公式所示。具体地,“0”表示三个频道的情绪相同,而“2”表示这些频道的情绪不同。还包括一个条形码图表,用于显示三个频道的情绪信息,其中x轴表示视频的长度,y轴表示面部、文本和音频频道的排列。每个矩形的颜色(在图中以灰度表示)表示三个频道中的情绪混合。
[0091] 要理解的是,在一些实施例中,可以仅提供折线图和条形码图之一,或者可以选择用于表示数据的其他形式和形式的组合。但是,最好至少包含折线图,因为已经发现,它可以使用户更有效、更直观地选择用户想要的、需要的或渴望得到的混杂着情绪不连贯的视频。因此,用户可以快速精读每个视频的折线图,并通过最适合该用户对情绪不连贯要求的折线图模式选择视频。可以通过以已知方式使用显示的光标来实现用户选择。
[0092] 可以采用显示自动生成的相干信息的其他方式,但是关键是,无论选择哪种方式,可视化系统200的用户都可以从显示的相干信息或模式中选择视频,而无需观看视频以进行初步评估和/或无需了解其主题或内容。实际上,甚至不需要在视频视图a中显示列出的视频的名称和/或类别或其他标识信息,因为这是不连贯或相反的一致性数据的显示,其使用户能够选择视频进行回顾和/或进一步分析等。
[0093] 用户可以通过在搜索功能中键入一些关键字来搜索或过滤视频列表。他们还可以根据特定标准(例如一种类型的情绪的一致性、多样性和百分比)对列出的视频进行排序。用户单击一行后,即使用显示的光标单击列出的视频之一,就会选择感兴趣的视频。
[0094] 面部、脚本和音频的三种情态/频道之间的非一致性的度量(最好根据以下方法确定):
[0095]
[0096] 其中Dincoherence表示非一致性的程度,Eface,Etext和Eaudio表示面部、文本和音频频道中的一种情绪类型。因此,每个列出的视频的折线图包括一折线表示值在“0”、“1”和“2”之间变化,该折线图表示在脚本的多个粒度级别中可取的一個,例如句子级别或单词级别,三个频道的情绪状态数据之间的情绪不连贯级别。
[0097] 将理解的是,可以在存在用于“面部”、“文本”、“音频”和“姿态”的四个频道的地方调整Dincoherence公式。
[0098] 要理解的是,如果对于列出的视频,折线图的线在“0”级别相对平坦,则视频在面部、脚本和音频行为状态(例如,提取的情绪)之间具有较高且相当连续的一致性。相反,如果折线图的线在“2”级相对平坦,则所选视频在面部、脚本和音频行为状态(例如,提取的情绪)之间具有较高且相当连续的非一致性。这些可以包括视频的不同类型或类型的度量或指示符,该视频显示在视频列表中或存储在数据库106或另一个视频存储库中并且因此可被用户搜索到。
[0099] 折线图上级别“0”、“1”和“2”之间与平线的偏差的程度和/或频率是度量三个频道在存储、选择或列出视频的行为状态非一致性方面差异的量度。可以测量偏差的程度和/或频率,并且可以数字形式提供结果,该结果可以用于对存储或列出的视频进行排名。因此,搜索功能可以使用户能够输入一个或多个搜索标准,包括不一致性和/或不一致性的数值水平,并在数据库106中搜索视频或在视频视图a中列出匹配或紧密匹配所输入搜索值的视频。输入的搜索值可以包括用于增加响应于用户搜索而返回的视频量的范围。
[0100] 选择感兴趣的视频后,原始视频会显示在视频视图a的底部,以允许用户浏览详细信息(T2)。最终用户在浏览提取的信息时要参考原始视频,以方便他们的浏览。尽管从视频中提取的信息很有用,但有时参考原始视频可以提供更好的解释。在这种视图下,允许用户以慢速、常速或快速的速度播放视频。暂停视频后,检测到的面部将以矩形突出显示,并且来自三个频道的检测到的情绪信息将同时显示在视频上,优选地,与显示的矩形相邻。当浏览其他视图时,用户可以通过一些提供的交互轻松找到相应的视频帧,下面将对此进行更全面的介绍。
[0101] 将理解的是,视频视图a可以被简化为视频列表,以及在整个应用范围上的预定粒度级别上,选定的一个或每个列出的视频的情态之间的行为状态非一致性随时间变化的视觉呈现方式。
[0102] 图5和图6包含了人的姿态情态。
[0103] 如上所述,可以显示列出的或存储的视频的情态之间的非一致性。例如,图6示出了图5的替代方案,其中在图6(a)中,在背景处的八个不同颜色的带(在附图中以灰度示出)表示不同的情绪类别。来自四个频道的情绪信息,包括“面部”、“音频”、“文本”和“姿态”,由覆盖背景色带的四个不同曲线编码而成。然后,这表明了情绪状态在每个相应频道中的变化。可替代地,在图6(b)中,直线被用来表示具有每个色点的每个频道,每个色点指示在特定时间的情绪。这种设计使用户可以轻松观察情绪如何沿不同频道变化。然而,发现图5紧凑的四行条形码图直观地向用户更容易和快速地提供信息,以供用户阅读条形码图。已经发现,图5的条形码图与同一张图的折线图一致,为用户提供了根据他们的喜好或要求快速而直观地识别或选择视频的能力。
[0104] 图3的频道视图b在图7中被更清楚和放大地示出,其再次示出了三个频道,但是所描述的原理适用于四个可能的频道。为了显示所选视频中三个频道之间的连接,以及显示从相应频道中提取的一些特征,提供了如图7(b)所示的增强桑基图。频道视图b包含三个部分,即频道视图b左侧的面部频道(图7(a)),频道视图中心的文本频道(图7(b)),以及位于频道视图b右侧的音频频道(图7(c))。图7(b)的增强型桑基图将面部、文本和音频频道(T3)之间的连接可视化。基于视频中的每个句子来检测情绪信息。以这种方式,桑基图中的每个节点表示一种类型的情绪,并且每个链接表示具有这些情绪的句子的集合,优选地,在两个频道之间,面部和文本频道或者文本和音频频道之间,尽管可以采用其他排列。每个链接的高度代表相应句子的总持续时间。因此,这些链接可以为用户提供一些有关说话者在说出这些句子时如何从不同频道传达情绪的相关信息。例如,从左侧中性节点到中间幸福节点的链接表明说话者在保持中性表情的同时正在谈论快乐的事情,而从中间悲伤节点到右侧中性节点的链接表明说话者用中立的声音说些悲伤的事情。我们添加了悬停互动功能,以更好地说明这些频道之间的联系。在图7中,当用户将鼠标悬停在左侧节点和中间节点之间的链接上时,中间节点和右侧节点之间的相应链接也将被突出显示,从而突出显示三个频道之间的情绪联系。
[0105] 为了从这些频道提供更多信息,我们将这些频道的功能嵌入到桑基图(T5)中。对于面部频道中的每个节点(面部情绪),我们采用基于树状图的设计来呈现检测到的面部的概览。树状图中的每个矩形(图7(a))代表一个聚类(一个链接),而矩形的大小代表特定聚类中的面部数。如图7(a)所示,链接的相应矩形区域(中性脸,幸福文本和中性音频)被突出显示。然后,我们在每个矩形上覆盖一个代表性图像。当前,每个聚类的代表图像是指最接近聚类中心点的图像。其他策略也可以轻松采用。对于文本信息,我们将词云嵌入到中间节点中。在计算他们的频率和情感后,我们计算每个单词的重要性。因此,词云被用来在相应的句子中显示重要的词并为用户提供一些上下文。对于音频信息(图7(c)),我们使用直方图可视化相应句子的平均分布。用户可以配置不同的音频功能,包括音调、强度和幅度,然后制定相应的直方图。
[0106] 图8示出了图7的替代方案,其中在基于和弦的图表(图8(a))中,每个频道都由一个圆弧表示,不同圆弧之间的链接表示它们的连接。使用这种设计,我们可以观察到不同频道的情绪一致性信息。图8(b)示出了图7(b)的替代桑基图,但是用户表达了对图7(b)的图的偏好,发现它在观看时更直观地揭示了更多信息。
[0107] 图9是图3细节视图c的放大图。细节视图c包含两个部分。顶部的条形码图表在帧级别显示了面部情绪,在句子级别显示了文本和音频情绪,与视频视图a(图3和图4)中相应的条形码相比,它提供了更详细的概览。一旦用户在频道视图c中选择节点或链接(图3和图7),这些选定的句子将在此条形码图中突出显示。然后,使用户能够选择感兴趣的句子以进行进一步的探索。相应的句子上下文将显示在细节视图c的底部。特别地,正在探索的句子显示在中间,前面两个句子和后面两个句子最好也显示为提供更多上下文。优选地,将所选择的句子的三个音频特征,即音调、强度和幅度,明确地可视化为折线图和河流模型,其揭示了所选择的句子的音频特征的时间变化。用户可以刷上,即选择或突出显示部分句子,然后突出显示相应的单词。此外,为了更好地可视化面部表情的变化,我们使用两个倒置的直角三角形表示每个过渡点。左边的代表变化前的情绪,右边的代表变化后的情绪。为避免视觉混乱,虚线用于指示过渡的位置。另外,当发生过渡时,根据面部情绪的变化,相应的单词也会以颜色(在图中为灰度)突出显示。
[0108] 图3的投影视图d探索说话者如何改变其在不同频道上随着时间的推移传达情绪的策略。图10提供了投影视图d的放大图。投影视图d可视化了不同频道的情绪一致性信息的时间分布。如图10(b)所示,受参考文献(B.Bach,C.Shi,N.Heulot,T.Madhyastha,T.Grabowski,and P.Dragice‑vic.Time curves:Folding time to visualize patterns of temporal evolution in data.IEEE Transactions on Visualization and Computer Graphics,22(1):559–568,2016)的时间曲线设计的启发,我们通过使用T分布随机相邻嵌入(t‑SNE)投影算法,我们将每个句子的情绪信息作为一个字形指向一个二维平面,其中矢量构造为以下公式。点按照时间顺序与曲线链接。为了更清楚地显示每个句子的信息,我们设计了一个基于饼图的字形。圆的三个等分扇区分别用于编码面部、文本和音频频道的情绪信息。具体而言,左上方显示音频情绪,右上方显示面部情绪,而底部显示文本情绪。各个颜色(图中的灰度)用于编码各种类型的情绪,半径用于编码情绪概率(确定性)。半径值越大,情绪概率越大。为了显示这些句子的时间信息,字形中间的颜色和句子ID均用于编码时间顺序。较浅的颜色表示较早的时间,而较深的颜色表示较晚的时间。
[0109] 向量Vector=[Pr(Eface),Pr(Etext),Pr(Eaudio)]
[0110] 其中Pr(·)表示对应情绪类别中每种情绪的检测概率(不确定性),E(.)表示不同频道中一种情绪的类型。
[0111] 对于四个频道,公式为:
[0112] 向量Vector=[Pr(Eface),Pr(Etext),Pr(Eaudio),Pr(Egesture)]
[0113] 情绪概率的自动生成以及这种信息再次显示的方式使用户能够选择视频以供可视化系统200进行评估或进一步分析,而无需观看视频进行初步评估和/或无需了解其主题或内容。
[0114] 图10(a)示出了图10(b)的替代方案,其基于帧水平投影情绪信息,但是用户更喜欢图10(b)的投影视图。
[0115] 最终用户表示,他们希望进一步进行单词级别的探索,尤其是说出这些单词时所用单词的频率和相应的情绪。在图3的单词视图e中,以及如图11中的放大图所示,为视频中使用的每个单词提供了详细信息。显示了三个属性,即单词、频率和面部信息。对于每一行,单词栏直接显示视频中使用的单词;频率栏指示该单词在视频中使用了多少次;面部信息栏使用堆叠的条形图可视化说出该单词的持续时间和面部表情的情绪百分比。堆叠条形图中每个组件的长度表示表达一种类型情绪的持续时间。对于未检测到的面部,我们使用虚线区域表示它们。为了专注于检测到的情绪,允许用户通过关闭开关按钮隐藏这些虚线区域。此外,允许用户按特定标准(例如频率)对单词视图进行排序,以及按关键字进行搜索。
[0116] 本发明中的系统附图所示的图形支持各种用户交互并赋予用户强大的视觉分析能力。系统中提供的五个视图链接如下:
[0117] 单击。用户在视频视图a中单击感兴趣的视频后,将选择该视频,并相应地更新其他视图。在频道视图b中,用户可以单击感兴趣的节点或链接,然后将在细节视图c中选择并突出显示相应的句子。在细节视图c中,用户可以单击一个句子以浏览其上下文信息。类似地,用户可以单击单词视图e中的单词以在细节视图中突出显示句子。此外,允许用户单击细节视图c中的时间轴以在视频中查找相应的位置。
[0118] 刷新。用户可以在细节视图c中刷条形码以选择相应的句子,然后在投影视图d中突出显示相应的句子。相反,用户可以在投影视图d中刷一些点,相应的句子将在细节视图c的条形码中突出显示。而且,一旦用户选择了一个句子,他们就可以刷选择的句子区域并识别其单词。
[0119] 搜索和排序。在视频视图a和细节视图c中,为了支持用户快速发现感兴趣的行,我们添加了搜索和排序交互。允许用户搜索一些关键字,并按一个或多个特定条件对列表进行排序。
[0120] 在下文中,仅通过示例的方式描述了本发明的系统的一些用途。
[0121] 如何情绪化——在这种情况下,我们描述了专业的演讲教练凯文(Kevin)如何找到示例来教他的学生更有效地表达情绪。他的教学基于主讲人Carmine Gallo的参考文献(C.Gallo.Talk like TED)所著的《像TED一样说话》(Talk like TED),作者将最好的演讲归因于情绪。为了加强教学,凯文(Kevin)想找到更多具有相当情绪表达的例子。但是,浏览大量视频集并识别代表性片段非常耗时。因此,他使用本发明的系统来探索视频并找到用于教学的证据。
[0122] 加载或访问视频集之后,凯文直接在视频视图a中记录视频列表。他希望找到最多情绪的视频。因此,他按照情绪的多样性对视频进行分类,标题为“这是当您回复垃圾邮件时发生的事情”的视频显示在顶部。他在相应的条形码图中观察到许多颜色,这表明此演讲文稿包含多种情绪(T1)。他还注意到其折线图的频繁波动,这表明说话者的情绪一致性变化很大。因此,他认为此演讲文稿可以代表情绪表达,并单击它可以进行进一步的探索。
[0123] 为了理解整体情绪表达(T3),他将注意力转移到了频道视图中的桑基图上(图3和图7)。他立即注意到,三个桑基条形具有非常不同的颜色分布,并且相同颜色之间的桑基链接占一小部分宽度。这些表明情绪表达在每种情态中是不连贯的。他决定探索每种方式以进行详细了解。他从最左边的桑基条集开始,找到最主要的灰色,这表示最中性的面部表情。同样,他观察到一些快乐和惊讶的面部表情。在左侧的面部缩略图之后,他发现说话者的面部动作丰富(T5)。例如,说话者倾向于用快乐的表情抬起嘴角,而在惊讶时,他的嘴巴则倾向于打开。因此,凯文认为面部识别是可靠的。与最左边的条集相反,凯文观察到更多的情绪,包括恐惧、中立、幸福、愤怒、悲伤和对其他两个条集的厌恶。然后,他检查了其右侧的直方图,其中他发现愤怒和惊讶会产生更高的音调。根据他的经验,他认为这些结果是合理的。
[0124] 接下来,凯文决定检查愤怒中的具体表情,这是演讲中一种不寻常的情绪。通过检查和比较传递红色节点(愤怒)的桑基链接,他确定了最大的链接,该链接将文本和音频情态以及中性的面部表情中的愤怒联系起来。单击该链接后,两个相应的句子将在条形码视图中突出显示(图3和图5)。他选择第一个句子以显示其详细信息。遵循中间的折线图,凯文注意到黑线和许多字形的波动,这表示音高和面部表情(T8)的快速发展。通过浏览视频片段,凯文了解到说话者表达了一个愤怒的信息,即回复垃圾电子邮件并不吝惜愤怒(T4)。他情绪化和表演戏剧性的面部和音频表情,使他的演讲引人入胜。接下来,他返回到条形码视图(图5)以分析其上下文。他指出,前一句话和下一句话都与当前句子有不同的情绪。凯文很好奇说话者如何在如此短的时间内传达出各种情绪。
[0125] 他观察到这两个句子之间存在间隙,并进一步发现条形码倾向于不连续。类似地,他在投影视图d中注意到两个连续句子之间的距离很大(图10(b)),这表明情绪的快速变化(T7)。有趣的是,他发现面部表情的行为与其他两种行为截然不同。面部信息通常不伴随文本和音频信息,反之亦然。为了找出视频中发生的情况,凯文快速浏览了条形码(T2)中不连续的部分。最后,他发现说话者的演讲风格很可能缺少文本和音频信息。说话者通常会暂停一会儿以等待听众的反应,这是一种听众互动策略。
[0126] 总体而言,凯文认为该视频演讲了情绪表达的风格,这是他教学的一个很好的例子。说话者采用了丰富的情绪,并且在戏剧上倾向于不连贯,这使他的演讲具有感染力和吸引力。在改变情绪时,说话者可以暂停一会儿以引起听众的反应,从而与听众互动。
[0127] 如何讲笑话——在这种情况下,另一位演讲教练爱德华(Edward)希望教学生将幽默融入演讲中。由于学生主要采用中性的面部表情,因此爱德华想找到一些例子,在这些例子中讲笑话与中性的面部表情相伴,以促进个性化学习。
[0128] 加载或访问视频集之后,爱德华按中性情绪的百分比降序对它们进行排序。通过比较摘要栏中的条形码(图3和图4),他发现名为“我如何学会与阿斯伯格(Asperger)的内心交流”的视频在中间行包含了主要的黄色网格,这意味着文本情态中的快乐情绪。因此,他觉得这部影片很有趣,点击它可以查看其他视图中的详细信息。
[0129] 从频道视图c(图7),他首先观察到每个频道中性表达占主导地位的情绪很少。如图7中较暗的桑基链接中突出显示的那样,说话者倾向于传递带有中性面部和听觉情绪的快乐消息。因为爱德华想找到讲笑话的例子,所以他点击了快乐文本和音频情绪之间的桑基链接。在图10(b)的投影视图中突出显示了对应的句子(字形1和27)。为了找到其他具有类似情绪表达方式的句子,他只需要刷到突出显示的字形(T7)的附近区域,即可在条形码视图中找到它们(图9和图12)。然后,他想探讨说话者如何详细传达这些快乐的信息。
[0130] 为了进行进一步的探索,他单击了其中的一些句子,然后观察上下文或回溯到原始视频(T2)。在检查了这些句子之后,他发现说话者确实讲了一些带有表达风格的笑话,例如,图12d‑1的条形码中的句子一。音调趋于平坦(T5),几乎没有面部过渡点(T8),这表明说话者说这句话时,音频变化不大,面部也没有变化。这句话里的说话者告诉听众她是一个非常视觉化的思想家,并且不擅长语言,就像谷歌翻译(Google Translate)的测试版一样。听到这些之后,听众笑了。说话者最后笑了。至于图12d‑2中的句子二,说话者告诉听众她由于过敏而拒绝洗澡,现在她确保自己的卫生习惯符合标准。在那一刻,听众笑了起来,她又笑了。至于图12d‑3中的句子三,说话者告诉听众她喜欢做清醒的梦,因为她可以做任何想做的事。最终,爱德华意识到这是她在视频中的演讲风格。说话者讲出有趣或荒谬的话而不会表现出太多的情绪。而且,爱德华想检查说话者在视频中使用的单词,这可能会给他带来更多提示(T6)。因此,他直接在图11的单词视图中按频率对单词进行排序。他发现说话者使用的大多数单词都是一些通用单词,例如“你”、“这”和“有”。有趣的是,他发现,即使说话者说出“坏的”这个词“自闭症”,她的表情也是中性的,如图12d‑3所示,与先前的发现相对应。说话者大部分时间在面部和音频频道中不会表现出太多的情绪。从她的面部表情来看,听众可能对演讲感到枯燥。但是,结合另外两个频道,她的演讲非常有趣。
[0131] 总体而言,爱德华认为这是他学生学习的好例子。他认为该视频的演讲风格是无聊的幽默,是一种喜剧表达方式,与主题的可笑性形成对比,而又不表达太多情绪。
[0132] 为了进一步评估我们的系统,我们与上述合作领域的专家(E1,E2)进行了半结构化访谈。E1和E2都熟悉基本的可视化技术,例如条形图和曲线。分为两节的访谈以下表2中所示的一系列问题为指导。
[0133] 表2:用户面试问题。
[0134] 目的 问题Q1视觉设计 学习阅读视频视图容易/困难吗?为什么?
Q2视觉设计 学习阅读频道视图容易/困难吗?为什么?
Q3视觉设计 学习阅读细节视图容易/困难吗?为什么?
Q4视觉设计 学习阅读投影视图容易/困难吗?为什么?
Q5视觉设计 学习阅读单词视图容易/困难吗?为什么?
Q6互动设计 找到感兴趣的视频以进一步探索容易/困难吗?为什么?
Q7互动设计 识别感兴趣的句子/单词容易/困难吗?为什么?
Q8互动设计 在视频中找到类似演讲风格容易/困难吗?为什么?
Q9一般 您认为可视界面的哪一部分可以进一步改进?如何改进?
Q10一般 您认为该系统对探索演讲视频有帮助吗?
[0135] 专家被允许提供开放式答案。每次面试时间约一个小时。在向他们介绍了我们系统的功能,视觉编码和基本视图之后,专家们被允许以二十分钟的思考方式自由浏览我们的系统。总体而言,我们收到了专家们对该系统的积极反馈。两位专家都赞赏利用视觉分析技术来支持以新颖编码对演讲视频进行交互式浏览的想法。
[0136] 两位专家都评论说,只需浏览视频视图中显示的每个视频的简要概览,就可以轻松找到感兴趣的视频。E1分享说:“快速概览为我提供了有关视频风格的视觉提示,这极大地方便了我查找我感兴趣的视频。”同时,E2还提到,在浏览演讲视频时,视频视图中的交互(包括搜索和排序)非常有用。两位专家都赞赏我们系统识别感兴趣的句子和单词的能力。E2评论说,当前的系统提供了详细的信息,可帮助他检测异常的情绪一致性和情绪变化,“通常,我倾向于注意那些意想不到的句子,例如用快乐情绪说一些悲伤的事情,我会仔细检查是否真实情况或由于某些有问题的情绪检测引起的。这些视图对我进行检查非常有帮助。”E1对那些情绪过渡点更感兴趣,“这些过渡点通常表示谈话中的不同内容。单词视图显示了上下文中的关键字,使说话者能够理解如何通过使用适当的单词来提高其演讲技巧。”[0137] 两位领域专家都表示有兴趣在日常工作中使用该系统来处理实际问题。以前,为了提高演讲技巧,他们会要求说话者进行多次实践演讲并进行记录,以备日后分析。此过程很耗时,无法提供任何定量分析。E1表示,该系统是我见过的第一个用于情绪分析和演讲培训的计算机辅助可视化系统,它绝对可以帮助我分析演讲演讲视频并以清晰的视觉证据训练说话者。”E2特别赞赏“人工介入”,他分享道:“与系统的协作过程在情绪分析中非常有用,因为该系统提供了情绪一致性水平的定量度量,我们可以确定它是否有意义。”[0138] 要理解的是,可以对所描述的系统进行修改以改进各个方面,包括使用更广泛的情绪类别来量化情绪一致性的定量度量,设计跨不同方式标记情绪的新方式以及分割和采样较长持续时间的视频以避免混乱。
[0139] 因此,本发明提供了一种交互式视觉分析系统,以分析跨不同行为方式的情绪一致性。在演讲视频中。在如上所述的特定实施例中,系统包括五个链接的视图,其允许用户以三个细节级别(即,视频,句子,单词级别)进行对情绪的深入探索。它集成了完善的可视化技术和新颖的设计,以支持视频的视觉分析。特别是,它利用增强的桑基图设计来分析情绪一致性,并利用基于聚类的投影设计来跟踪时间演变,从而促进对多情态情绪及其在视频中的关系的探索。
[0140] 该系统可以被修改为包括诸如手势之类的附加模式。此外,可以结合使用高级数据挖掘技术来增强数据分析。
[0141] 本发明的可视化方法将所描述的可视化方法集成和调整为各种级别的粒度。
[0142] 总之,本发明提供了一种系统,该系统可以帮助用户探索和比较多个频道的情绪一致性,包括来自面部表情,音频和文本的情绪,并具有多个细节级别。本发明还提供了新颖的设计以促进对情绪一致性的容易探索,例如具有增强的桑基图设计的频道视图以支持对每个频道中的详细情绪信息分布的快速探索,以及基于聚类的投影视图以跟踪时间演变。
[0143] 上述装置可以至少部分地以软件实现。本领域技术人员将理解,可以至少部分地使用通用计算机设备或使用定制设备来实现上述装置。
[0144] 这里,本文描述的方法和装置的各方面可以在包括通信系统的任何装置上执行。可以将技术的程序方面视为通常以可执行代码和/或在某种类型的机器可读介质中体现的可执行代码和/或相关数据的形式的“产品”或“制品”。“存储”类型的介质包括移动台、计算机、处理器等的任何或全部存储器,或其相关模块,例如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以提供存储以随时进行软件编程。软件的全部或部分有时可能会通过Internet或各种其他电信网络进行通信。例如,这种通信可以使得能够将软件从一个计算机或处理器加载到另一计算机或处理器中。因此,可以承载软件元件的另一种类型的介质包括光波、电波和电磁波,例如通过有线和光学座机网络并通过各种空中链路跨本地设备之间的物理接口使用的光波。诸如有线或无线链路,光链路等之类的携带这种波的物理元件也可以被视为承载软件的介质。如本文所使用,除非限于有形的非暂时性“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
[0145] 尽管已经在附图和前面的描述中详细示出和描述了本发明,但是本发明应被认为是示例性的,而不是限制性的,应理解,仅示出和描述了示例性实施例,并不以任何方式限制本发明的范围。可以理解,本文描述的任何特征可以与任何实施例一起使用。说明性实施例并不彼此排斥,也不排斥本文未列举的其他实施例。因此,本发明还提供了包括上述一个或多个说明性实施例的组合的实施例。在不脱离本发明的精神和范围的情况下,可以对本发明进行修改和变型,因此,仅应施加如所附权利要求书所示的限制。
[0146] 在所附权利要求和本发明的先前描述中,除非上下文由于表达语言或必要的暗示而另外需要,否则词语“包括”或诸如“包括”或“包含”的变体以包括性含义使用。即,在本发明的各个实施例中,即指定所陈述的特征的存在但不排除其他特征的存在或增加。
[0147] 应当理解,如果在本文中引用了任何现有技术出版物,则这种引用并不意味着承认该出版物构成了本领域公知常识的一部分。