会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~

表示动作的数据的信息处理装置

申请号 CN201980056121.9 申请日 2019-09-02 公开(公告)号 CN112912951B 公开(公告)日 2024-03-29
申请人 雅马哈株式会社; 发明人 前泽阳;
摘要 本 发明 提供对多个动作间的时间上的关系发生变化的过程进行推定的信息处理装置(100)。信息处理装置(100)具有推定处理部(22),该推定处理部(22)通过将表示第1动作的内容的第1时间序列数据和表示与第1动作并行的第2动作的内容的第2时间序列数据输入至训练好的模型(M),从而生成与第1动作和第2动作之间的时间上的关系变化的过程相关的变化参数(C)。
权利要求

1.一种信息处理方法,其是通过计算机实现的,包含下述步骤:
将表示第1动作的内容的第1时间序列数据和表示与所述第1动作并行的第2动作的内容的第2时间序列数据输入至训练好的模型,由此生成与所述第1动作和所述第2动作之间的时间上的关系变化的过程相关的变化参数,其中,所述第1动作是乐曲的多个演奏声部中的第1演奏声部的演奏,所述第2动作是所述多个演奏声部中的所述第1演奏声部以外的第2演奏声部的演奏。
2.根据权利要求1所述的信息处理方法,其中,
所述变化参数包含:
第1参数,其与所述第2动作相对于所述第1动作的时间上的误差变化的过程相关;以及第2参数,其与所述第1动作相对于所述第2动作的时间上的误差变化的过程相关。
3.根据权利要求2所述的信息处理方法,其中,
所述第1参数是表示所述第2动作相对于所述第1动作的时间上的误差变化的过程的自回归过程的参数,
所述第2参数是表示所述第1动作相对于所述第2动作的时间上的误差变化的过程的自回归过程的参数。
4.根据权利要求1至3中任一项所述的信息处理方法,其中,
所述第1动作和所述第2动作之间的时间上的关系是通过所述第1动作演奏的演奏时刻和通过所述第2动作演奏的演奏时刻之间的时间上的误差。
5.根据权利要求1至3中任一项所述的信息处理方法,其中,
所述训练好的模型包含:
第1卷积神经网络,其生成第1特征数据,该第1特征数据表示所述第1时间序列数据的特征;
第2卷积神经网络,其具有与所述第1卷积神经网络共通的结构,生成第2特征数据,该第2特征数据表示所述第2时间序列数据的特征;以及
全连接层,其输出与所述第1特征数据和所述第2特征数据对应的所述变化参数。
6.根据权利要求1至3中任一项所述的信息处理方法,其中,
还包含下述步骤:基于所述变化参数,将所述第2动作的实际表演控制为,使其与所述第1动作的实际表演并行。
7.一种信息处理装置,其具有推定处理部,
该推定处理部通过将表示第1动作的内容的第1时间序列数据和表示与所述第1动作并行的第2动作的内容的第2时间序列数据输入至训练好的模型,从而生成与所述第1动作和所述第2动作之间的时间上的关系变化的过程相关的变化参数,其中,所述第1动作是乐曲的多个演奏声部中的第1演奏声部的演奏,所述第2动作是所述多个演奏声部中的所述第1演奏声部以外的第2演奏声部的演奏。
8.一种记录介质,其存储有信息处理程序,该程序使计算机执行下述步骤:
将表示第1动作的内容的第1时间序列数据和表示与所述第1动作并行的第2动作的内容的第2时间序列数据输入至训练好的模型,由此生成与所述第1动作和所述第2动作之间的时间上的关系变化的过程相关的变化参数,其中,所述第1动作是乐曲的多个演奏声部中的第1演奏声部的演奏,所述第2动作是所述多个演奏声部中的所述第1演奏声部以外的第2演奏声部的演奏。

说明书全文

表示动作的数据的信息处理装置

技术领域

[0001] 本发明涉及对表示乐曲的演奏等动作的数据进行处理的技术。

背景技术

[0002] 设想到很多由多个演奏者合奏乐曲的场景等、由多个实际表演者一边相互协调一边并行地进行实际表演的场景。在非专利文献1中,公开了下述技术,即,通过演奏者间的非语言的互动,从而由多个演奏者进行的演奏相互同步地进行下去。
[0003] 非专利文献1:片平建史,《合奏场景下的非语言交流的对人的效果》,对人社会心理学研究12,p.51‑58,2012

发明内容

[0004] 如果能够对由多个实际表演者进行的实际表演之间的时间上的关系(例如时间差)发生变化的过程进行推定,则会便利。例如,在与由演奏者进行的乐曲的实际演奏并行地使自动演奏乐器执行该乐曲的自动演奏的场景中,如上述的推定结果能够使自动演奏自然地追随实际演奏(或者特意使其不追随)。此外,在上面的说明中,为了方便而着眼于自动演奏的控制,但是,就多个实际表演的相互间的时间上的关系发生变化的过程的推定结果而言,在除了自动演奏的控制以外的场景中也有效地利用。考虑上述的情况,本发明的目的在于,对多个动作之间的时间上的关系发生变化的过程进行推定。
[0005] 为了解决上述的课题,本发明的优选方式涉及的信息处理方法包含下述步骤:将表示第1动作的内容的第1时间序列数据和表示与所述第1动作并行的第2动作的内容的第2时间序列数据输入至训练好的模型,由此生成与所述第1动作和所述第2动作之间的时间上的关系变化的过程相关的变化参数。
[0006] 本发明的优选方式涉及的信息处理装置具有推定处理部,该推定处理部通过将表示第1动作的内容的第1时间序列数据和表示与所述第1动作并行的第2动作的内容的第2时间序列数据输入至训练好的模型,从而生成与所述第1动作和所述第2动作之间的时间上的关系变化的过程相关的变化参数。附图说明
[0007] 图1是例示实施方式涉及的信息处理装置的结构的框图
[0008] 图2是例示信息处理装置的功能性结构的框图。
[0009] 图3是第1演奏声部的演奏时刻和第2演奏声部的演奏时刻之间的时间上的误差的说明图。
[0010] 图4是例示训练好的模型的结构的框图。
[0011] 图5是例示推定处理的具体顺序的流程图
[0012] 图6是例示学习处理的具体顺序的流程图。

具体实施方式

[0013] 图1是例示本发明的优选方式涉及的信息处理装置100的结构的框图。如图1所例示那样,本实施方式的信息处理装置100由具有控制装置11、存储装置12和拾音装置13的计算机系统实现。例如移动电话机、智能手机或者个人计算机等信息终端适合被利用为信息处理装置100。
[0014] 图1的演奏者P演奏乐器。拾音装置13对通过由演奏者P进行的演奏而从乐器发音出的音响进行拾音,生成表示该音响的音响信号。演奏者P对构成乐曲的多个演奏声部(part)中的第1演奏声部进行演奏。因此,拾音装置13生成表示乐曲的第1演奏声部的演奏音的音响信号。此外,为了方便而省略图示了将由拾音装置13生成的音响信号从模拟变换为数字的A/D变换器。
[0015] 也可以将由电弦乐器等电动乐器生成的音响信号供给至信息处理装置100。在由电动乐器生成音响信号的结构中,省略拾音装置13。也可以由拾音装置13生成表示由演奏者P歌唱出歌唱曲的第1演奏声部的声音的音响信号。另外,在图1中例示出拾音装置13搭载于信息处理装置100的结构,但也可以是将与信息处理装置100分体的拾音装置13通过有线或无线而与信息处理装置100连接。
[0016] 控制装置11例如为CPU(Central Processing Unit)等处理电路,集中地对信息处理装置100的各要素进行控制。存储装置12对由控制装置11执行的程序和由控制装置11使用的各种数据进行存储。将例如磁记录介质或者半导体记录介质等公知的记录介质利用为存储装置12。此外,也可以通过多种记录介质的组合而构成存储装置12。另外,也可以将相对于信息处理装置100能够装卸的移动型的记录介质、或者信息处理装置100经由通信网能够通信的外部记录介质(例如在线储存器)利用为存储装置12。
[0017] 本实施方式的存储装置12对演奏数据X1以及演奏数据X2进行存储。演奏数据X1是表示乐曲的第1演奏声部涉及的演奏的内容的数据。即,演奏数据X1是表示由演奏者P进行的演奏的内容的数据。但是,在由演奏者P进行的实际的演奏中,反映有该演奏者P所特有的音乐性意图,因此,演奏数据X1所表示的演奏并不会与演奏者P所表现的演奏严密地一致。另外,演奏数据X2是表示乐曲的第2演奏声部涉及的演奏的内容的数据。第1演奏声部和第2演奏声部是乐曲的不同的演奏声部。例如,第1演奏声部是旋律声部,第2演奏声部是伴奏声部。例如依照MIDI(Musical Instrument Digital Interface)标准的MIDI数据作为演奏数据X1以及演奏数据X2是适合的。具体而言,演奏数据X1以及演奏数据X2分别是针对各演奏声部的多个音符的各个音符而指定音高以及音量、指示发音或消音的数据(例如MIDI事件数据)的时间序列。
[0018] 演奏装置15基于由信息处理装置100进行的控制而执行乐曲的自动演奏。具体而言,演奏装置15是具有发音机构和驱动机构的自动演奏乐器(例如自动演奏琴),该发音机构使例如弦等发音体进行发音,该驱动机构驱动发音机构。对应于来自信息处理装置100的指示,驱动机构驱动发音机构,由此实现自动演奏。本实施方式的演奏装置15针对演奏数据X2所表示第2演奏声部,执行自动演奏。此外,也可以将信息处理装置100搭载于演奏装置15。
[0019] 图2是例示信息处理装置100的功能性结构的框图。如图2所例示那样,控制装置11通过执行在存储装置12中存储的程序而实现多个功能(演奏控制部21、推定处理部22以及学习处理部23)。此外,也可以通过相互分体地构成的多个装置实现控制装置11的功能。也可以将控制装置11的功能的一部分或者全部由专用的电子电路实现。
[0020] 演奏控制部21与由演奏者P进行的第1演奏声部的演奏并行地,使演奏装置15执行演奏数据X2所表示的第2演奏声部的自动演奏。本实施方式的演奏控制部21将由演奏装置15进行的自动演奏控制为,使其追随由演奏者P进行的第1演奏声部的演奏。具体而言,演奏控制部21通过对由拾音装置13生成的音响信号A进行解析,从而对在乐曲内由演奏者P正在演奏的时刻(下面称为“演奏时刻”)进行推定,将由演奏装置15进行的第2演奏声部的自动演奏控制为,使其追随该演奏时刻的行进。由此,能够营造犹如演奏者P和演奏装置15相互配合而协调地进行合奏这样的气氛。此外,在演奏时刻的推定中可任意地采用公知的解析技术(乐谱对位(Score alignment)技术)。例如能够采用使用卡尔曼滤波器的乐谱中的演奏时刻的跟踪技术、被称为节拍跟踪(Beat tracking)的技术等。
[0021] 在这里,对由多个演奏者进行的实际的合奏的倾向进行说明。图3是第1演奏声部的各发音点Ba(Ba1、Ba2、…)和第2演奏声部的各发音点Bb(Bb1、Bb2、…)之间的时间上的关系的说明图。
[0022] 假定为各发音点Ba和各发音点Bb在乐曲的乐谱中被规定为同时发音。即,在按照乐谱进行了演奏的情况下,各发音点Ba和各发音点Bb在时间轴上一致。但是,反映有各演奏者的音乐性意图或嗜好等而在实际的演奏中,第1演奏声部的各发音点Ba和第2演奏声部的各发音点Bb在时间轴上不会完全地一致。在第1演奏声部的演奏时刻和第2演奏声部的演奏时刻之间产生时间上的误差(即,时间差)E。误差E是第1演奏声部的演奏和第2演奏声部的演奏之间的时间上的关系。误差E区分为第1演奏声部相对于第2演奏声部的误差Ea、和第2演奏声部相对于第1演奏声部的误差Eb。
[0023] 在实际的合奏的场景中,第1演奏声部和第2演奏声部之间的时间上的关系(即,误差E)根据乐曲的内容而时时刻刻变动。例如,
[0024] ·在第1演奏声部和第2演奏声部之间是否发生追随,
[0025] ·是第1演奏声部以及第2演奏声部中的哪一方追随另一方(追随的方向),[0026] ·在演奏声部间发生何种程度的追随,等倾向依赖于乐曲内的音符的排列模式等内容(即,音乐语境(Musical context))。例如,设想到下述等各种各样的倾向:在乐曲中的第1演奏声部的音数多的区间,第2演奏声部追随第1演奏声部;或者在乐曲中的第2演奏声部的音符以规定的节奏发音的区间,第1演奏声部追随第2演奏声部。
[0027] 在此,将演奏声部间的演奏时刻的误差E的时间上的变化,以自回归过程(AR(autoregressive)模型)进行近似。具体而言,误差Ea以及误差Eb通过由下述的公式表现的2阶的自回归过程而表现。符号t是时间轴上的任意时刻。
[0028] Ea(t)=Ca1·Ea(t‑1)+Ca2·Ea(t‑2)…(1)
[0029] Eb(t)=Cb1·Eb(t‑1)+Cb2·Eb(t‑2)…(2)
[0030] 公式(1)的符号Ca1及Ca2和公式(2)的符号Cb1及符号Cb2是对误差E的变化进行近似的自回归过程的参数。在下面的说明中,将公式(1)的符号Ca1及Ca2和公式(2)的符号Cb1及符号Cb2的集合标记为“变化参数C”。变化参数C包含与误差Ea对应的第1参数Ca(Ca1及Ca2)和与误差Eb对应的第2参数Cb(Cb1及Cb2)。
[0031] 如以上说明的那样,演奏声部间的演奏时刻的误差E依赖于乐曲的内容,且误差E通过由变化参数C规定的自回归过程进行近似。因此,误差E的变化参数C存在依赖于乐曲的内容这样的倾向。为了将以上说明的倾向在自动演奏中进行再现,本实施方式的演奏控制部21将由演奏装置15进行的演奏时刻控制为,使由演奏者P进行的第1演奏声部的演奏时刻和由演奏装置15进行的第2演奏声部的演奏时刻之间的误差E与乐曲的内容对应地经时变化。为了实现通过演奏控制部21进行的上述控制,图2的推定处理部22根据在存储装置12中存储的演奏数据X1以及演奏数据X2生成变化参数C的时间序列。
[0032] 如图2所例示那样,本实施方式的推定处理部22将乐曲的演奏数据X1和演奏数据X2输入至训练好的模型M,由此生成与该乐曲的第1演奏声部和第2演奏声部之间的误差E的时间上的变化相关的变化参数C的时间序列。变化参数C包含表示第1演奏声部相对于第2演奏声部的误差Ea的第1参数Ca(Ca1及Ca2)、和表示第2演奏声部相对于第1演奏声部的误差Eb的第2参数Cb(Cb1及Cb2)。
[0033] 演奏控制部21与推定处理部22生成的变化参数C对应地控制由演奏装置15进行的自动演奏。具体而言,演奏控制部21例如将由演奏装置15进行的自动演奏控制为,由演奏者P进行的第1演奏声部的演奏和由演奏装置15进行的第2演奏声部的自动演奏之间的误差Ea以及误差Eb通过以变化参数C进行规定的自回归过程而经时变化。因此,能够使演奏装置15执行在与由演奏者P进行的第1演奏声部的演奏之间追随的程度以及方向在听觉上自然地变化的自动演奏。
[0034] 图4是例示训练好的模型M的具体的结构的框图。推定处理部22将时间轴上的多个时刻的各个时刻按照时间序列的顺序作为处理时刻τ而依次选择,如图4所例示那样,将与该处理时刻τ对应的处理数据U输入至训练好的模型M。处理数据U包含单位数据U1以及单位数据U2。单位数据U1(第1时间序列数据的例示)是演奏数据X1中的包含处理时刻τ的单位区间Q内的部分。同样地,单位数据U2(第2时间序列数据的例示)是演奏数据X2中的包含处理时刻τ的单位区间Q内的部分。单位区间Q例如是在时间轴上以处理时刻τ为中心的规定长度(例如是乐曲的1小节对应量)的区间。根据以上的说明所理解那样,单位数据U1是表示乐曲的第1演奏声部中的单位区间Q内的演奏内容的时间序列数据,单位数据U2是表示乐曲的第2演奏声部中的单位区间Q内的演奏内容的时间序列数据。训练好的模型M针对每个处理数据U而输出变化参数C。
[0035] 训练好的模型M是对处理数据U和变化参数C之间的关系进行了学习(训练)的统计预测模型。具体而言,训练好的模型M是由使控制装置11执行根据处理数据U生成变化参数C的运算的程序(例如构成人工智能软件的程序模)和应用于该运算的多个系数K的组合实现的。对训练好的模型M进行规定的多个系数K通过利用多个学习数据的机器学习(特别是深度学习)进行设定而保存于存储装置12。关于训练好的模型M的机器学习在后面叙述。
[0036] 如图4所例示那样,本实施方式的训练好的模型M包含第1卷积神经网络(CNN:Convolutional Neural Network)N1、第2卷积神经网络(CNN)N2和全连接层Nf。第1卷积神经网络N1以及第2卷积神经网络N2各自是将卷积层和池化层遍及多层而层叠的神经网络。
第1卷积神经网络N1的结构和第2卷积神经网络N2的结构是共通的。单位数据U1输入至第1卷积神经网络N1,单位数据U2输入至第2卷积神经网络N2。
[0037] 第1卷积神经网络N1生成表示单位数据U1的特征的特征数据F1(第1特征数据的例示)。第2卷积神经网络N2生成表示单位数据U2的特征的特征数据F2(第2特征数据的例示)。特征数据F1所表示的特征是有助于处理数据U和变化参数C之间的关联性的第1演奏声部的音乐性特征。同样地,特征数据F2所表示的特征是有助于处理数据U和变化参数C之间的关联性的第2演奏声部的音乐性特征。全连接层Nf生成与由第1卷积神经网络N1生成的特征数据F1和由第2卷积神经网络N2生成的特征数据F2对应的变化参数C。
[0038] 图5是例示推定处理部22生成变化参数C的处理(下面称为“推定处理”)的具体顺序的流程图。针对时间轴上的多个时刻的各个时刻,将该时刻作为处理时刻τ而执行图5的推定处理。
[0039] 如果推定处理开始,则推定处理部22将与处理时刻τ对应的单位数据U1以及单位数据U2作为处理数据U而从存储装置12取得(Sa1)。推定处理部22通过将单位数据U1以及单位数据U2输入至训练好的模型M,从而生成变化参数C(Sa2~Sa4)。具体而言,推定处理部22通过对第1卷积神经网络N1输入单位数据U1而生成特征数据F1(Sa2),通过对第2卷积神经网络N2输入单位数据U2而生成特征数据F2(Sa3)。特征数据F1的生成(Sa2)和特征数据F2的生成(Sa3)的顺序也可以相反。然后,推定处理部22通过将特征数据F1以及特征数据F2输入至全连接层Nf而生成变化参数C(Sa4)。将上述的处理针对每个处理时刻τ而反复进行,由此生成遍及乐曲的全区间的变化参数C的时间序列。
[0040] 图2的学习处理部23生成在推定处理中利用的训练好的模型M。具体而言,学习处理部23通过利用多组的学习数据L而反复地更新多个系数K的处理(下面称为“学习处理”)而对训练好的模型M的多个系数K进行设定。各组的学习数据L是包含处理数据U和变化参数C的数据。各组的学习数据L所包含的变化参数C是根据第1演奏声部和第2演奏声部之间的时间上的误差观测到的已知的正确值。即,各组的学习数据L的变化参数C是根据将对应学习数据L的处理数据U所表示的单位区间Q实际进行了演奏而得到的结果,对第1演奏声部和第2演奏声部之间的演奏时刻的误差的时间上的变化进行解析而观测到的。与任意的多个乐曲对应的学习数据L为了学习处理而存储于存储装置12。
[0041] 图6是例示学习处理部23生成训练好的模型M的学习处理的具体顺序的流程图。在执行由推定处理部22进行的推定处理之前执行图5的学习处理。
[0042] 如果开始学习处理,则学习处理部23通过将学习数据L的处理数据U输入至将多个系数K设定为暂定数值的模型(下面称为“暂定模型”),从而生成变化参数C(Sb1)。暂定模型与在图4例示的训练好的模型M同样地,包含第1卷积神经网络N1、第2卷积神经网络N2和全连接层Nf。学习处理部23对评价函数进行计算,该评价函数表示由暂定模型生成的变化参数C与对应学习数据L的变化参数C之间的差异(Sb2)。学习处理部23以使评价函数接近规定值(典型的是零)的方式对暂定模型的多个系数K进行更新(Sb3)。在与评价函数对应的各系数K的更新中,例如适合利用误差反向传播算法。将以上说明的处理(Sb1~Sb3)针对多组的学习数据L的各个反复进行。将多个系数K的更新完成阶段的暂定模型作为确定的训练好的模型M而利用于推定处理。
[0043] 根据以上的说明所理解那样,根据本实施方式,能够基于多组的学习数据L中的处理数据U和变化参数C之间潜在的倾向,针对未知的处理数据U生成统计上妥当的变化参数C。即,能够对第1演奏声部的演奏和第2演奏声部的演奏之间的时间上的关系发生变化的过程进行推定。
[0044] 在本实施方式中,特别是变化参数C包含第1参数Ca和第2参数Cb,因此具有能够生成与第1演奏声部的演奏和第2演奏声部的演奏之间的相互关系相关的参数的优点。另外,将第1演奏声部的演奏和第2演奏声部的演奏之间的时间上的误差E变化的过程通过自回归过程进行近似,因此还具有能够生成表示演奏声部间的演奏时刻的误差E自然地变化的过程的变化参数C的优点。
[0045] <变形例>
[0046] 下面,例示出对以上例示出的各方式附加的具体的变形方式。也可以将从下面的例示中任意地选择出的2个以上的方式在不相互矛盾的范围适当地合并。
[0047] (1)在上述的各方式中,例示了乐曲的第1演奏声部和第2演奏声部为相互不同的演奏声部的情况,但第1演奏声部和第2演奏声部也可是共通的演奏声部。在第1演奏声部和第2演奏声部共通的结构中,能够推定在多个演奏者并行地演奏乐曲的一个演奏声部的情况下(所谓的齐奏)的与两个演奏间的时间上的误差E相关的变化参数C。
[0048] (2)作为演奏数据X1(单位数据U1),也可以利用表示由多个演奏者进行的第1演奏声部的平均的演奏的演奏数据X1。根据上述的结构,生成适当地表现出多个演奏者演奏第1演奏声部的情况下的与第2演奏声部的时间上的误差E的变化的变化参数C。同样地,也可以将表示由多个演奏者进行的第2演奏声部的平均的演奏的演奏数据利用为演奏数据X2(单位数据U2)。
[0049] (3)在上述的方式中,作为演奏数据X1以及演奏数据X2例示了MIDI数据,但演奏数据X1(单位数据U1)以及演奏数据X2(单位数据U2)的具体形式是任意的。例如,也可以将表示第1演奏声部的演奏音的波形采样的时间序列利用为演奏数据X1,将表示第2演奏声部的演奏音的波形的采样的时间序列利用为演奏数据X2。另外,也可以将表示演奏第1演奏声部时的演奏者的身体的各部位的动作的动作数据利用为演奏数据X1,将表示演奏第2演奏声部时的演奏者的身体的各部位的动作的动作数据利用为演奏数据X2。
[0050] (4)在上述的方式中,将第1演奏声部和第2演奏声部之间的演奏时刻的误差E的时间上的变化通过自回归过程进行了近似,但对误差E的时间上的变化进行近似的模型并不限定于上述的例示。例如,也可以通过非线性振动等振动过程对误差E的时间上的变化进行近似,推定对该振动过程进行规定的变化参数C。
[0051] (5)在上述的方式中,生成了表示第1演奏声部的演奏和第2演奏声部的演奏之间的时间上的误差的变化的变化参数C,但能够在对表示相互并行的多个动作间的时间上的关系的变化的变化参数C进行推定的任意场景中,与上述方式同样地利用本发明。例如,能够通过将表示特定的舞蹈(第1舞蹈)的单位数据U1和表示与该第1舞蹈并行的其它舞蹈(第2舞蹈)的单位数据U2输入至训练好的模型M,从而生成与第1舞蹈和第2舞蹈之间的时间上的关系变化的过程相关的变化参数C。第1舞蹈例如是一对男女实际表演的双人舞蹈中的男性的舞蹈,第2舞蹈是女性的舞蹈。根据以上的说明所理解那样,单位数据U1被总括地表现为表示第1动作的内容的第1时间序列数据,单位数据U2被总括地表现为表示第2动作的内容的第2时间序列数据。第1动作以及第2动作的典型例是演奏或舞蹈,但并不限定于上述的例示。
[0052] (6)在上述的方式中,例示出具有推定处理部22以及学习处理部23这两者的信息处理装置100,但也可以将推定处理部22和学习处理部23由分体的信息处理装置实现。具有推定处理部22的信息处理装置作为根据处理数据U推定变化参数C的推定装置而实现。在推定装置中是否存在学习处理部23是无关的。另外,具有学习处理部23的信息处理装置作为通过利用多组的学习数据L的学习处理生成训练好的模型M的学习装置而实现。在学习装置中是否存在推定处理部22是无关的。也可以通过能够与终端装置进行通信的服务器装置而实现学习装置,将由学习装置生成的训练好的模型M发送至终端装置。终端装置具有利用从学习装置发送来的训练好的模型M执行推定处理的推定处理部22。
[0053] (7)上述的各方式涉及的信息处理装置100的功能是通过计算机(例如控制装置11)和程序的协同动作而实现的。本发明的优选方式所涉及的程序以储存于计算机可读取的记录介质的方式被提供并安装于计算机。记录介质例如是非易失性(non‑transitory)的记录介质,CD‑ROM等光学式记录介质(光盘)是优选例,但也可包含半导体记录介质或者磁记录介质等公知的任意形式的记录介质。此外,非易失性的记录介质包含除了暂时性的传输信号(transitory,propagating signal)以外的任意的记录介质,并不是将易失性的记录介质排除在外。另外,也可以通过经由通信网的传送的方式将程序提供给计算机。
[0054] (8)用于实现训练好的模型M的人工智能软件的执行主体并不限定于CPU。例如,Tensor Processing Unit及Neural Engine等神经网络专用的处理电路、或者人工智能专用的DSP(Digital Signal Processor)也可以执行人工智能软件。另外,也可以由从以上的例示选择出的多种处理电路协同动作而执行人工智能软件。
[0055] (9)如果使用如上述的变化参数C,则能够实现各种动作的同步。在上述实施方式中,主要以使机器的动作(由演奏装置进行的自动演奏)追随人的动作(由演奏者P进行的实际的演奏)的场景为例进行了说明,但本发明的适用范围并不限于此。例如,也可以使机器的动作与其他机器的动作同步。根据该方式,能够使通过自动演奏钢琴进行的演奏与通过自动演奏鼓进行的演奏同步。另外,如果通过上面的舞蹈的例子进行说明,则能够另一个机器人的舞蹈与某个机器人的舞蹈同步。如果进一步举出其他例子,则也能够取得分别进行实际演奏而存储的表示第1演奏声部的演奏音的音响信号的数据和表示第2演奏声部的演奏音的音响信号的数据,基于变化参数C,将它们同步播放。如上所示,能够基于变化参数C,在各种场景中,以与第1动作的实际表演并行的方式对第2动作的实际表演进行控制。
[0056] <附记>
[0057] 根据以上例示出的方式,例如掌握以下的结构。
[0058] 本发明的优选方式(第1方式)所涉及的信息处理方法包含下述步骤:将表示第1动作的内容的第1时间序列数据和表示与所述第1动作并行的第2动作的内容的第2时间序列数据输入至训练好的模型,由此生成与所述第1动作和所述第2动作之间的时间上的关系变化的过程相关的变化参数。根据上述的方式,能够基于针对第1动作以及第2动作的内容和两个动作间的时间上的关系变化的过程而由训练好的模型进行了学习的关系,对未知的第1动作和第2动作之间的时间上的关系发生变化的过程进行推定。
[0059] 在第1方式的优选例(第2方式)中,所述变化参数包含:第1参数,其与所述第2动作相对于所述第1动作的时间上的误差变化的过程相关;以及第2参数,其与所述第1动作相对于所述第2动作的时间上的误差变化的过程相关。根据上述的方式,能够生成与第1动作和第2动作之间的相互关系相关的变化参数。
[0060] 在第2方式的优选例(第3方式)中,所述第1参数是表示所述第2动作相对于所述第1动作的时间上的误差变化的过程的自回归过程的参数,所述第2参数是表示所述第1动作相对于所述第2动作的时间上的误差变化的过程的自回归过程的参数。根据上述的方式,通过自回归过程对第1动作和第2动作之间的时间上的误差变化的过程进行近似,因此能够生成表现该误差自然地变化的过程的变化参数。
[0061] 在第1方式至第3方式中任一项的优选例(第4方式)中,所述第1动作是乐曲的多个演奏声部中的第1演奏声部的演奏,所述第2动作是所述多个演奏声部中的所述第1演奏声部以外的第2演奏声部的演奏,所述第1动作和所述第2动作之间的时间上的关系是通过所述第1动作演奏的演奏时刻和通过所述第2动作演奏的演奏时刻之间的时间上的误差。根据上述的方式,能够生成适当地表示乐曲的第1演奏声部和第2演奏声部之间的演奏时刻的误差变化的过程的变化参数。
[0062] 在第1方式至第4方式中任一项的优选例(第5方式)中,所述训练好的模型包含:第1卷积神经网络,其生成第1特征数据,该第1特征数据表示所述第1时间序列数据的特征;第
2卷积神经网络,其具有与所述第1卷积神经网络共通的结构,生成第2特征数据,该第2特征数据表示所述第2时间序列数据的特征;以及全连接层,其输出与所述第1特征数据和所述第2特征数据对应的所述变化参数。根据上述的方式,生成第1特征数据以及第2特征数据,该第1特征数据以及第2特征数据表示尤其有助于第1动作以及第2动作的内容和两个动作间的时间上的关系变化的过程之间的关系的特征。因此,能够针对第1时间序列数据和第2时间序列数据生成适当的变化参数。
[0063] 在第1方式至第5方式中任一项的优选例(第6方式)中,所述信息处理方法还包含下述步骤:基于所述变化参数,将所述第2动作的实际表演控制为,使其与所述第1动作的实际表演并行。
[0064] 作为执行以上例示出的各方式的信息处理方法的信息处理装置,或者使计算机执行以上例示出的各方式的信息处理方法的程序,也能实现本发明的优选方式。
[0065] 标号的说明
[0066] 100…信息处理装置,11…控制装置,12…存储装置,13…拾音装置,15…演奏装置,21…演奏控制部,22…推定处理部,23…学习处理部,M…训练好的模型,N1…第1卷积神经网络,N2…第2卷积神经网络,Nf…全连接层。