利用脑成像空间特征和底层视觉特征进行视频聚类的方法转让专利

申请号 : CN201210293171.9

文献号 : CN102855352B

文献日 : 2014-08-06

本发明涉及一种利用脑功能成像空间特征和底层视觉特征进行视频聚类的方法，其特征在于：提取功能磁共振图像序列中的大脑信号向量，计算信号向量的皮尔森相关系数矩阵，利用单因素方差分析和相关特征选择方法从皮尔森相关系数矩阵中提取脑功能成像空间特征，利用部分视频的底层视觉特征和对应的脑功能成像空间特征建立高斯过程回归模型，将剩余视频的底层视觉特征映射到脑功能成像空间特征上，将所有视频的脑功能成像空间特征和底层视觉特征进行多模态谱聚类。利用本发明方法，可以实现脑功能成像空间特征和底层视觉特征的融合聚类，与基于底层视觉特征如颜色、形状等视频聚类方法及单独使用脑功能特征空间聚类相比，大大提高了聚类准确性。

1.一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法，其特征在于步骤如下：步骤1提取脑功能成像空间特征，具体步骤如下：

步骤a1：利用公式提取N个功能磁共

振图像序列中的第i个功能磁共振图像序列上大脑M个区域的信号向量Si,j和Si,k的皮尔森相关系数pi,j,k，得到第i个功能磁共振图像序列的皮尔森相关系数矩阵：其中：信号向量Si,j＝[si,j,1,si,j,2,...,si,j,r,...si,j,n]，信号向量Si,k＝[si,k,1,si,k,2,...,si,k,r,...si,k,n]，i表示N个功能磁共振图像序列中的第i个功能磁共振图像序列的序号，i＝1,2,...,N，k＝1,2,...,M,j＝1,2,...,M，j表示第i个功能磁共振图像序列中大脑的第j个区域的序号，k表示第i个功能磁共振图像序列中大脑的第k个区域的序号，r表示信号向量Si,j和Si,k中第r个元素的序号，N∈[1,1000]，M∈[1,1000]，N表示功能磁共振图像序列的总数，M表示功能磁共振图像序列中大脑区域的总数；si,j,r表示信号向量Si,j的第r个元素；si,k,r表示信号向量Si,k的第r个元素；n表示信号向量Si,j和Si,k的长度；

所述N个功能磁共振图像序列，是利用功能磁共振技术，在测试者观看N个视频时测得的功能磁共振图像；

步骤b1：取皮尔森相关系数矩阵Pi上三角部分，拉伸成向量Qi＝[qi,1,qi,2,...,qi,d]，d＝(M×M)/2-M/2，然后将N个Qi向量按行排列构成矩阵D：其中，qi,1,qi,2,...,qi,d表示Qi的第1，2，…，d个元素；

步骤c1：计算矩阵D每一列元素的均值，将矩阵D的每一列元素减去该列元素的均值，得到矩阵U：T

在矩阵U的第v列Uv＝[u1,v,u2,v,...,uN,v] 中找出属于第K类视频的元素，并计算属于第K类视频的元素均值得到类内均值向量其中，U1,U2,...,Ui,...,UN表示N个视频对应的功能磁共振图像序列中提取的N个向T量，N个视频可分为C类；u1,v,u2,v,...,uN,v表示Uv＝[u1,v,u2,v,...,uN,v] 中的第1,2,...,N个元素，这N个元素按照对应的C类视频分为C类；K＝1,2,...,C，K表示C类视频中的第K类；C表示N个视频的总类别个数；

再利用公式计算累计分布函数参数F；

利用公式计算参数g；

当g＜T时，T∈(0,10000]，保留矩阵U中的第v列；否则，从矩阵U中删除该列，得到经过单因素方差分析选择后的矩阵B：T

其中，C表示视频的类别总数；||表示取绝对值；L＝[l1,l2,...,lK,...,lC] ；lK表示Uv中属于第K类视频的元素个数；θ为向量和L间的夹角；

表示Uv的均值；上标T表示转置；exp表示指数函数；

g＜T中的T表示阈值，T∈(0,10000]；下标x表示从U中选取的列向量的个数；

步骤d1：遍历矩阵B的每一列，利用相关特征选择方法将参数

的数值最高的y列构成脑功能成像空间特征矩阵C：

其中：下标y表示从B中选取的列向量的个数；表示向量[r1,w,r2,w,…,rs,w,…,ry,w]的均值；rs,w表示矩阵C的第s个列向量Cs与类别标签向量W＝[1,1,1,...2,2,2,...,K,TK,K,...C,C,C] 的相关性参数；上标T表示取向量转置；

p(wh)表示

wh在W中的概率分布；wh表示向量W中的第h个元素；p(cs,h|wh)表示cs,h在Cs中的条件概率分布；p(cs,h)表示cs,h在Cs中的概率分布；cs,h表示向量Cs中的第h个元素；log2表示以

2为底数的对数函数；表示矩阵：

中所有元素的均值；rs,o表示矩阵C的第s个列向量Cs与第o个列向量Co的相关性参数； co,h表示向量Co中的第h个元素；p(co,h)表示co,h在Co中的概率分布；p(cs,h|co,h)表示cs,h在Cs中的条件概率分布；

步骤2提取视频库中所有Na个视频数据的底层视觉特征向量Fvid，具体步骤如下：步骤a2：利用尺度不变特征变换算法提取第id个视频第一帧的Nsi个描述向量集合 FSid ＝ {Fsiid,1,Fsiid,2,...,Fsiid,sh,...,Fsiid,Nsi}，sh ＝ 1,2,...,Nsi，id ＝

1,2,...,Na，Na∈(0,100000]，Nsi∈[0,10000]，对Na个视频都提取描述向量集合，得到步骤b2：利用k均值算法对进行聚类，聚类个数为G；

步骤c2：计算FSid＝{Fsiid,1,Fsiid,2,...,Fsiid,sh,...,Fsiid,Nsi}中分别属于G类的向量个数[Numid,1,Numid,2,...,Numid,G]，得到第id个视频的底层视觉特征向量：Fvid＝[Numid,1,Numid,2,...,Numid,G]；

步骤3利用高斯过程回归算法预测Na-N个视频数据的脑功能成像空间特征向量：利用脑功能成像空间特征矩阵C和其对应N个视频的底层视觉特征

[Fv1,Fv2,...,Fvidp,...,FvN]，idp＝1,2,...,N，建立高斯过程回归模型GPM，利用高斯过程回归模型GPM预测得到Na-N个视频的脑功能成像空间特征向量：步骤4利用Na个脑功能成像空间特征向量[C1,C2,...,Cid,...,CNa]和底层视觉特征[Fv1,Fv2,...,Fvid,...,FvNa]进行多模态谱聚类，具体步骤如下：步骤 a4：计算 [C1,C2,...,Cid,...,CNa] 中与空间中的一个点 Cid ＝(cid,1,cid,2,...,cid,y)欧氏距离最近的k个点，并定义为近邻关系，k＝[1,10000]；再计算[Fv1,Fv2,...,Fvid,...,FvNa]中与空间中的一个点Fvid＝(fvid,1,fvid,2,...,fvid,y)欧氏距离最近的k个点，并定义为近邻关系；其中：cid,1,cid,2,...,cid,y表示脑功能成像空间特征Cid中第1、2到y个元素；fvid,1,fvid,2,...,fvid,y表示底层视觉特征Fvid中第1、2到y个元素；

步骤b4：利用计算属于近邻关系的Cid和Cjd两

点间的权重CWeightid,jd，得到权重矩阵；

同理，利用计算属于近邻关系Fvi和Fvj之

间的权重FvWeightid,jd，得到权重矩阵：

其中：Cid和Cjd表示第id个视频和第jd个视频的脑功能成像空间特征向量；Π表示连乘积；cid,l和cjd,l表示Cid和Cjd的第l个元素；l＝1,2,...,y；σl表示一个常数，σl∈(0,1]；Fvid和Fvjd表示第id个视频和第jd个视频的底层视觉特征向量；Fvid,l和Fvjd,l表示Fvid和Fvjd的第l个元素；

步骤c4：在矩阵CWeight中令CWeightid,id＝0；在矩阵FvWeight中令FvWeightid,id＝0；再利用公式计算CWeight和FvWeight的拉普拉斯矩阵；利用公式Lmulti-modal＝LC+αI+LFv+αI计算多模态拉普拉斯矩阵Lmulti-modal，大小为Na×Na；其中：LC和LFv表示矩阵CWeight和FvWeight的拉普拉斯矩阵；DC表示[C1,C2,...,Cid,...,CNa]中两两脑功能成像空间特征向量之间的欧式距离所构成的矩阵；

DFv表示[Fv1,Fv2,...,Fvid,...,FvNa]中两两底视觉层特征向量之间的欧式距离所构成的矩阵；I表示单位矩阵，大小为Na×Na；α表示常数；

步骤d4：计算多模态拉普拉斯矩阵Lmulti-modal的特征值和特征向量，将特征值从大到小排列，选取前C个特征值对应的特征向量Vector1，Vector2,...,VectorC，构成矩阵VecMatrix＝[Vector1,Vector2,...,VectorC]，大小为Na×C，计算矩阵VecMatrix每一行的和，然后用该行元素分别除以该行元素的和，得到矩阵VecMatrixNew，大小为Na×C；其中：C表示视频库中视频类别个数；

步骤e4：将VecMatrixNew每行中值最大的元素置为1，其余元素置为0，得到VecMatrixNew1；

步骤f4：将VecMatrixNew1的每一行视为高维空间中的一个点，用光谱旋转算法对VecMatrixNew1矩阵中的Na个点进行聚类，得到类别矩阵Index，大小为Na×C；

步骤g4：利用公式Index0＝Index+0.2得到初始类别矩阵Index0，计算IndexnewT -1 -1/2＝Index0×diag[[diag(Index0×I×Index0)] ] ，将Indexnew赋给Index0，再次计算T -1 -1/2Indexnew＝Index0×diag[[diag(Index0×I×Index0)] ] ，将Indexnew赋给Index0，重复Ne次，Ne∈[1,10000]，得到最终的Indexnew，大小为Na×C，计算Indexnew每行最大值所在的第cg列，将最终标签Indexfinal对应行置为cg，cg∈[1,2,..,C]，Indexfinal大小为Na×1；其中，diag表示提取矩阵的对角线元素；I表示单位向量；

步骤h4：计算Indexfinal与视频真实类别标签IndexTrue的相同元素个数，除以Na得到视频聚类准确率。

2.根据权利要求1所述利用脑成像空间特征和底层视觉特征进行视频聚类的方法，其特征在于：所述个数聚类G∈[20,10000]。

3.根据权利要求1所述利用脑成像空间特征和底层视觉特征进行视频聚类的方法，其-2 2特征在于：所述常数α∈[10 ,10]。

4.根据权利要求1所述利用脑成像空间特征和底层视觉特征进行视频聚类的方法，其特征在于：所述步骤4的步骤h4采用归一化互信息NMI方法或者精度Purity方法计算聚类准确率。

利用脑成像空间特征和底层视觉特征进行视频聚类的方法

技术领域

[0001] 本发明属于图像处理和应用技术，具体涉及一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法，

背景技术

[0002] 随着数字多媒体数据的爆炸式增长，网络上的视频数量与日俱增，用什么样的特征来表示视频变的越来越重要，目前较流行的是提取视频的颜色、纹理和形状等方面的特
征，这些特征统称为底层视觉特征。然而，这些传统的视频特征难以精准地描述视频，从而给后续的视频处理带来困难，相比之下，人类却可以瞥一眼正在播放的视频就知道其具体
内容，这一现象给了科学家很大的启发，目前，有些学者已经从测试者观看视频时采集的大脑信号中提取相关特征来作为视频的特征，并将这些特征用于视频分类中，这些从大脑信
号中提取的特征称之为高层特征，其中利用功能磁共振成像技术采集大脑信号并从这些信
号中提取的特征称之为脑功能成像空间特征，与之相关的研究只关注如何提取脑功能成像
空间特征，并利用该特征进行视频分类和检索，这些研究目前还处于探索阶段。如何更好地提取大脑信号中的脑功能成像空间特征，并且将脑功能成像空间特征与底层视觉特征相结
合，来提高视频聚类的准确率在国内外还属于空白领域，因此，找到更好的脑功能成像空间特征提取方法，并将其与底层视觉特征结合起来提高视频聚类的准确率是一个非常有价值
的研究课题，对于视频聚类研究具有非常重要的意义。

发明内容

[0003] 要解决的技术问题

[0004] 为了避免现有技术的不足之处，本发明提出一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法，将人脑认知信息中的脑功能成像空间特征与视频底层视觉特征
结合起来用于视频聚类中，提高视频聚类技术的准确性。

[0005] 技术方案

[0006] 一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法，其特征在于步骤如下：

[0007] 步骤1提取脑功能成像空间特征，具体步骤如下：

[0008] 步骤a1：利用公式提取N个功能磁共振图像序列中的，第i个功能磁共振图像序列上大脑M个区域的信号向量Si,j和Si，k的皮0。。。。尔森相关系数Pi，k，得到第i个功能磁共振图像序列的皮尔森相关系数矩阵：

[0009]

[0010] 其中：信号向量Si,j＝[si,j,1,si,j,2,...,si,j,r,...si,j,n]，信号向量Si,k＝[si，k，1,si，k,2,...,si，k，r,...si,k，n]，i表示N个功能磁共振图像序列中的第i个功能磁共振图像序列的序号，i＝1,2,..，N，j,k=1,2,...,M，j表示第i个功能磁共振图像序列中大脑的第j个区域的序号，k表示第i个功能磁共振图像序列中大脑的第k个区域的序号，r表示信号向
量Si,j和Si，k中第r个元素的序号，N∈[1,1000]，M∈[1,1000]，N表示功能磁共振图像
序列的总数，M表示功能磁共振图像序列中大脑区域的总数；si,j,r表示信号向量Si,j的第r个元素；si，k，r表示信号向量Si，k的第r个元素；n表示信号向量Si,j和Si，k的长度；

[0011] 所述N个功能磁共振图像序列，是利用功能磁共振技术，在测试者观看N个视频时测得的功能磁共振图像；

[0012] 步骤b1：取皮尔森相关系数矩阵Pi上三角部分，拉伸成向量Qi＝[qi，1，qi，2，...,qi,d]，d＝(M×M)/2-M/2，然后将N个Qi向量按行排列构成矩阵D：

[0013]

[0014] 其中，qi,1,qi,2，...,qi,d表示Qi的第1，2，…，d个元素；

[0015] 步骤c1：计算矩阵D每一列元素的均值，将矩阵D的每一列元素减去该列元素的均值，得到矩阵U：

[0016]

[0017] 在矩阵U的第v列Uv=[u1，v，u2，v，...,uN,v]T中找出属于第K类视频的元素，并计算属于第K类视频的元素均值得到类内均值向量

[0018] 其中，U1,U2,..,Ui，...,UN表示N个视频对应的功能磁共振图像序列中提取的N个T向量，N个视频可分为C类；u1，v，u2，v，...,uN,v表示Uv=[u1，v，u2，v，...,uN，v] 中的第1,2,...，N个元素，这N个元素按照对应的C类视频分为C类；K=1,2,...,C，K表示C类视频中的第
K类；C表示N个视频的总类别个数；

[0019] 再利用公式计算累计分布函数参数F；

[0020] 利用公式 z计算参数g；

[0021] 当g＜T时，T∈(0,10000]，保留矩阵U中的第v列；否则，从矩阵U中删除该列，得到经过单因素方差分析选择后的矩阵B：

[0022]

[0023] 其中，C表示视频的类别总数；||表示取绝对值；L＝[l1,l2,...,lK，...,lC]T
；lK表示Uv中属于第K类视频的元素个数；θ为向量和L间的夹角；
表示Uv的均值；上标T表示转置；exp表示指数函数；
g＜T中的T表示阈值，T∈(0,10000]；下标x表示从U
中选取的列向量的个数；

[0024] 步骤d1：遍历矩阵 B的每一列，利用相关特征选择方法将参数的数值最高的y列构成脑功能成像空间特征矩阵C：

[0025]

[0026] 其中：下标y表示从B中选取的列向量的个数；表示向量[r1，w，r2，w，…,rs，w，…,ry，w]的均值；rs,w表示矩阵C的第s个列向量Cs与类别标签向量W
T
=[1,1,1,..2,2,2,..,K,K,K，...C,C,C] 的相关性参数；上标T表示取向量转置；
p(wh)表示wh在W
中的概率分布；wh表示向量W中的第h个元素；p(cs,h|wh)表示cs,h在Cs中的条件概率分布；
p(cs,h)表示cs,h在Cs中的概率分布；cs,h表示向量Cs中的第h个元素；log2表示以2为底
数的对数函数；表示矩阵：

[0027]

[0028] 中所有元素的均值；rs，o表示矩阵C的第s个列向量Cs与第o个列向量Co的相关性参数； co,h表
示向量Co中的第h个元素；p(co,h)表示co,h在Co中的概率分布；p(cs,h|co，h)表示cs,h在Cs中的条件概率分布；

[0029] 步骤2提取视频库中所有Na个视频数据的底层视觉特征向量Fvid，具体步骤如下：

[0030] 步骤a2：利用尺度不变特征变换算法提取第id个视频第一帧的Nsi个描述向量集合FSid＝{Fsiid，1,Fsiid，2,...,Fsiid，sh，...，Fsiid,Nsi}，sh＝1,2,...,Nsi，id＝
1,2,..,Na，Na∈(0,100000]，Nsi∈[0,10000]，对Na个视频都提取描述向量集合，得到

[0031] 步骤b2：利用k均值算法对进行聚类，聚类个数为G；

[0032] 步骤c2：计算FSid＝{Fsiid，1,Fsiid，2，...,Fsiid，sh，...，Fsiid,Nsi}中分别属于G类的向量个数[Numid，1，Numid，2，...,Numid,G]，得到第id个视频的底层视觉特征向量：Fvid＝[Numid，1，Numid，2，...,Numid,G]；

[0033] 步骤3利用高斯过程回归算法预测Na-N个视频数据的脑功能成像空间特征向量：

[0034] 利用脑功能成像空间特征矩阵C和其对应N个视频的底层视觉特征[Fv1,Fv2,...,Fvidp,...,FvN]，idp＝1,2,...,N，建立高斯过程回归模型GPM，利用高斯过程回归模型GPM预测得到Na-N个视频的脑功能成像空间特征向量：

[0035]

[0036] 步骤4利用Na个脑功能成像空间特征向量[C1,C2,...,Cid，...,CNa]和底层视觉特征[Fv1,Fv2,..,Fvid，...,FvNa]进行多模态谱聚类，具体步骤如下：

[0037] 步骤a3：计算[C1,C2，...,Cid，...,CNa] 中与空间中的一个点Cid=(cid，1,cid，2,...,cid，y)欧氏距离最近的k个点，并定义为近邻关系，k=[1,10000]；再计算
[Fv1,Fv2,...,Fvid，...,FvNa]中与空间中的一个点Fvid=(fvid，1,fvid，2,...,fvid，y)欧氏距离最近的k个点，并定义为近邻关系；其中：表示脑功能成像空间特征Cid中第
1、2和y个元素；fvid，1,fvid，2,...,fvid，y表示底层视觉特征Fvid中第1、2和y个元素；

[0038] 步骤b3：利用计算属于近邻关系的Cid和Cjd两点间的权重CWeightid,jd，得到权重矩阵；

[0039]

[0040] 同理，利用计算属于近邻关系Fvi和Fvj之间的权重FvWeightid,jd，得到权重矩阵：

[0041]

[0042] 其中：Cid和Cjd表示第id个视频和第jd个视频的脑功能成像空间特征向量；∏表示连乘积；cid，l和cjd，l表示Cid和Cjd的第l个元素；l＝1,2,...,y；σl表示一个常数，σl∈(0,1]；Fvid和Fvjd表示第id个视频和第jd个视频的底层视觉特征向量；Fvid，l和
Fvjd，l表示Fvid和Fvjd的第l个元素；

[0043] 步骤 c3：在矩阵CWeight中令CWeightid，id＝ 0；在矩阵 FvWeight中令FvWeightid，id＝0；再利用公式计算CWeight和FvWeight的拉普
拉斯矩阵；利用公式Lmulti-modal＝LC+αI+LFv+αI计算多模态拉普拉斯矩阵Lmulti-modal，大小为Na×Na；其中：LC和LFv表示矩阵CWeight和FvWeight的拉普拉斯矩阵；DC表示
[C1,C2,...,Cid，...,CNa]中两两脑功能成像空间特征向量之间的欧式距离所构成的矩阵；
DFv表示[Fv1,Fv2,...,Fvid，...,FvNa]中两两底视觉层特征向量之间的欧式距离所构成的矩阵；I表示单位矩阵，大小为Na×Na；α表示常数；

[0044] 步骤d3：计算多模态拉普拉斯矩阵Lmulti-modal的特征值和特征向量，将特征值从大到小排列，选取前C个特征值对应的特征向量Vector1，Vector2,...,VectorC，构成矩阵VecMatrix=[Vectorl,Vector2,...,VectorC]，大小为Na×C，计算矩阵VecMatrix每一行的和，然后用该行元素分别除以该行元素的和，得到矩阵VecMatrixNew，大小为Na×C；其中：C表示视频库中视频类别个数；

[0045] 步骤e3：将VecMatrixNew每行中值最大的元素置为1，其余元素置为0，得到VecMatrixNewl；

[0046] 步骤f3：将VecMatrixNew1的每一行视为高维空间中的一个点，用光谱旋转算法对VecMatrixNew1矩阵中的Na个点进行聚类，得到类别矩阵Index，大小为Na×C；

[0047] 步骤g3：利用公式Index0=Index+0.2得到初始类别矩阵Index0，计算Indexnew=T -1 -1/2
Index0×diag[[diag(Index0×I×Index0)] ] ，将Indexnew赋给Index0，再次计算In
T -1 -1/2
dexnew=Index0×diag[[diag(Index0×I×Index0)] ] ，将Indexnew赋给Index0，重复
Ne次，Ne∈[1,10000]，得到最终的Indexnew，大小为Na×C，计算Indexnew每行最大值所在的第cg列，将最终标签Indexfinal对应行置为cg，cg∈[1,2,..,C]，Indexfinal大小为
Na×1；其中，diag表示提取矩阵的对角线元素；I表示单位向量；

[0048] 步骤h3：计算Indexfinal与视频真实类别标签IndexTrue的相同元素个数，除以Na得到视频聚类准确率。

[0049] 所述个数聚类G∈[20,10000]。

[0050] 所述常数α∈[10-2,102]。

[0051] 所述步骤4的步骤h采用归一化互信息NMI方法或者精度Purity方法计算聚类准确率。

[0052] 有益效果

[0053] 本发明提出的一种利用脑成像空间特征和底层视觉特征进行视频聚类的方法，首先，提取功能磁共振图像序列中的信号向量，其次，计算信号向量的皮尔森相关系数矩阵，利用单因素方差分析和相关特征选择方法从皮尔森相关系数矩阵中提取脑功能成像空间
特征，第三，利用视频的底层视觉特征和脑功能成像空间特征建立高斯过程回归模型，用该模型计算出视频库中没有进行功能磁共振成像的视频的脑功能成像空间特征，最后，利用
多模态谱聚类算法对底层视觉特征和脑功能成像空间特征进行聚类，得到更高的视频聚类
准确率。

[0054] 本发明提出的利用脑功能成像空间特征和底层视觉特征进行视频聚类的方法，用功能磁共振图像序列中提取的脑功能成像空间特征和传统的底层视觉特征融合聚类来提
高视频的聚类准确性，将人脑认知信息应用到视频聚类中，与传统视频聚类只利用底层视
觉特征或者只利用脑功能成像空间特征相比，大大提高了视频聚类的准确率。

附图说明

[0055] 图1：本发明方法的基本流程图

具体实施方式

[0056] 现结合实施例、附图对本发明作进一步描述：

[0057] 用于实施的硬件环境是：Intel(R)Core(TM)2Duo CPU 2.93GHz、2GB内存、256M显卡，运行的软件环境是：Matlab2009a和Windows 7。我们用Matlab软件实现了本发明提出的方法。

[0058] 本发明具体实施如下：

[0059] 1提取脑功能成像空间特征：

[0060] 对N个的功能磁共振图像序列提取脑功能成像空间特征，N=51，功能磁共振图像序列由测试者观看N个视频时利用功能磁共振成像技术测得，视频来自TRECVID2005媒体
库。

[0061] 该功能磁共振图像序列采集在3T GE信号采集器上完成，测试参数为：功能磁共振扫描：64×64矩阵；层厚为4mm；视场为220mm；30层；TR为1.5s；TE为25ms；ASSET为2。

[0062] 选取功能磁共振图像序列中大脑M个区域的功能磁共振成像信号，M＝358。这些区域包括工作记忆区域、视觉网络区域、听力和语言区域等，对第i个功能磁共振图像序列，提取功能磁共振图像序列上大脑M个区域信号向量Si,j＝[si,j,1,si,j,2,...,si,j,r，...si,j,n]，i＝1,2,...，N，j=1,2,...，M，计算Si,j的皮尔森相关系数矩阵Pi，利用单因素方差分析和相关特征选择方法从N个皮尔森相关系数矩阵Pi中提取脑功能成像空间特征Ci。具
体步骤如下：

[0063] (1)利用公式计算信号向量Si,j＝[si,j,1,si,j,2,...,si,j,r，...si,j,n]和Si，k＝[si，k，1,si，k，2,...,si，k，r,...si，k，n]的皮尔森相关系数pi，j,k，得到第i个功能磁共振图像序列的皮尔森相关系数矩阵：

[0064]

[0065] 其中，si,j,r表示信号向量Si,j的第r个元素；si，k，r表示信号向量Si，k的第r个元素；n表示信号向量Si,j和Si，k的长度；

[0066] (2)取皮尔森相关系数矩阵Pi上三角部分，拉伸成向量Qi＝[qi，1，qi，2，...,qi，d]，d＝(M×M)/2-M/2＝63903，将N＝51个视频的Qi向量按行排列构成矩阵：

[0067]

[0068] 其中，qi，1，qi，2，...,qi,d表示Qi中的第1，2，…，d个元素；

[0069] (3)对矩阵D按列进行单因素方差分析，步骤为：

[0070] 计算矩阵D每一列元素的均值，将矩阵D的每一列元素减去该列元素均值，得到矩阵：

[0071]

[0072] 对矩阵U的第v列Uv，找出属于第K类视频的元素，并计算属于第K类视频的元素均值对C=3类视频的元素都计算元素均值，构成类内均值向量
利用公式计累计分布函数参
数F，利用公式计算参数g，如果g＜T，
T=0.0005，保留该第v列；否则，从矩阵U中删除该列，得到经过单因素方差分析选择后的矩阵：

[0073]T

[0074] 其中，C表示视频的类别总数，C=3；L＝[l1,l2,..,lK,..,lC] ；lK表示Uv中属于第K类视频的元素个数；θ为两向量和L间的夹角；表示Uv的均值；上标T表示转置；exp表示指数函数； g＜T中
的T表示阈值，T∈(0,10000]；下标x表示从U中选取的列向量的个数；

[0075] (4)遍历矩阵B的每一列，利用相关特征选择方法寻找参数值最高的y列构成的脑功能成像空间特征矩阵：

[0076]

[0077] 其中：下标y表示从B中选取的列向量的个数；表示相关性向量[r1，w，r2,w，…,rs,w，…,ry,w]的均值；rs,w表示矩阵C的第s个列向量Cs与类别标签向量
T
W=[1,1,1，...2,2,2，...,K,K,K,..C,C,C] 的相关性参数；上标T表示取向量转置；
p(wh)表示wh在W
中的概率分布；wh表示向量W中的第h个元素；p(cs,h|wh)表示cs,h在Cs中的条件概率分布；
p(cs,h)表示cs,h在Cs中的概率分布；cs,h表示向量Cs中的第h个元素；log2表示以2为底
数的对数函数；表示相关性矩阵：

[0078]

[0079] 中所有元素的均值；rs，o表示子矩阵C的第s个列向量Cs与第o个列向量Co的相关性参数； co，h
表示向量Co中的第h个元素；p(co,h)表示co,h在Co中的概率分布；p(cs,h|co，h)表示cs,h在Cs中的条件概率分布；

[0080] 2提取视频库中所有Na=1307个视频数据的底层视觉特征向量Fvid：

[0081] 具体步骤为：

[0082] (1)利用尺度不变特征变换匹配算法提取第id个视频第一帧的Nsi个描述向量集合FSid＝{Fsiid,1,Fsiid,2,...,Fsiid,sh,...,Fsiid,Nsi}，sh＝ 1,2,...,Nsi，id＝
1,2,...,Na，Na∈(0,100000]，Nsi∈[0,10000]，对Na个视频都提取描述向量集合，得到

[0083] 提取FSid＝{Fsiid，1,Fsiid，2,...,Fsiid，sh，...，Fsiid,Nsi}的具体方法为：提取视频库中第id个视频数据的第一帧作为第id个视频的关键帧图像Iid，每个关键帧为代表该视频片段主要内容的一幅图像，对关键帧进行高斯平滑处理，得到图像其中选取σn＝
0.5，其中σn为平滑参数，表示平滑程度。对平滑后的图像利用尺度不变特征变换匹配算法提取SIFT特征，特征维数为128，具体方法为：选取不同的σ＝σ02o+s/S与做卷积形成了一个图像金字塔GSSσ，其中s＝0,...S-，o＝0,...O-1，S＝3，O＝min(log2row,log2col)，σ0＝1.5，row表示图像的垂直方向上像素点的个数，col表示图像的水平方向上像素点
的个数。然后对相邻的GSSσ求差分得到DOGσ，对于DOGσ的每个像素点分别与上一尺度
对应像素点及周围的八邻域像素点，当前尺度周围的八邻域像素点，以及下一尺度对应像
素点及周围的八邻域像素点作比较，如果该像素点为极小值或者极大值点，则该像素点为
图像显著点，其周围以σ为半径的区域为显著区域，由此可以得到一系列的图像显著点X，其相应的σ为其对应的尺度大小λ。对于每个图像显著点X，使的梯度图像与高斯核
做卷积得到梯度图像其中σG＝1.5σ，并计算梯度图像中以显著点X的显著区域中
的方向直方图，其中每个方向直方图区间的幅值计算是对该方向区域内梯度进行累加，取
方向直方图的区间个数L＝36，从方向直方图选取幅度超过其最大值80%的方向区域，确
定为该特征区域主方向θ，如有多个方向区域，则该特征区域存在多个主方向θ。最后取
图像显著点X的显著区域，按主方向及其垂直方向等分成16个区域，在每个小区域中分别
统计方向直方图，其中每个方向直方图区间的幅值计算是对该方向区域内梯度赋值进行累
加，取方向直方图的区间个数L＝8，并将每个方向直方图的幅值量化到[0,255]之间，得
到一个16×8＝128的描述向量Fsiid,sh。对每个关键帧图像进行计算得到满足上述条件
的Nsi个显著点的描述向量集合FSid＝{Fsiid，1,Fsiid，2,...,Fsiid，sh，...，Fsiid,Nsi}，sh＝
1,2,...,Nsi。对Na个视频都提取描述向量集合，得到

[0084] (2)利用k均值算法对进行聚类，聚类个数为G=65；k均值算法具体步骤为：

[0085] 1）从中随机选取65个描述向量作为初始中心点，记为F[1],F[2]，…F[65]，计算65个初始中心点之外的描述向量F＝f1,f2,...,f65}与65个
初始中心点F[i]＝{f[i]1,f[i]2,...,f[i]65}的欧式距离，公式如下：

[0086]

[0087] 其中，L表示两个描述向量之间的欧式距离，f1,f2,...,f65表示描述向量F的65维上的数值，f[i]1,f[i]2,...,f[i]65表示初始中心点F[i]65维上的数值。

[0088] 2）如果F＝{f1,f2,...,f65}与F[i]＝{f[i]1，f[i]2,...,f[i]65}距离最接近，则将此描述向量归到第i类，重新计算每一类中描述向量的平均值，即对该类中所有描述向量的每一维取平均，得到新的中心点F[i]'。

[0089] 3）将F[i]′赋给F[i]，作为新的初始中心点重复计算65个初始中心点之外的描述向量F＝{f1,f2,...,f65}与65个初始中心点F[i]＝{f[i]1,f[i]2,...,f[i]65}的欧式
距离，直到F[i]'与F[i]的欧式距离小于0.000001为止。

[0090] 计算FSid＝{Fsiid，1,Fsiid，2,...,Fsiid，sh，...，Fsiid,Nsi}中分别属于G类的向量个数[Numid，1,Numid，2，...,Numid,G]，得到第id个视频的底层视觉特征向量：Fvid＝[Numid，1，Numid，2，...,Numid,G]；

[0091] 3用高斯过程回归预测Na-N个视频数据的脑功能成像空间特征向量：

[0092] 利用脑功能成像空间特征矩阵：

[0093]

[0094] 和其对应N个视频数据的底层视觉特征[Fv1,Fv2,...,Fvidp,...,FvN]，idp＝1,2,...,N，建立高斯过程回归模型GPM，利用高斯过程回归模型GPM预测Na-N个视频数据
的脑功能成像空间特征向量：

[0095]

[0096] 具体步骤如下：

[0097] (1)选取高斯核函数：

[0098]

[0099] 选取相关系数计算公式：

[0100] cfng,mg＝cf(Fvng,Fvmg)＝kng,mg+β-1δng,mg

[0101] 其中，Fvng、Fvmg表示N个视频数据中任意两个视频数据的底层视觉特征向量，ng＝1,2,..N，mg＝1,2,...N；θ0、ηu，θ1表示高斯核函数中的超参数；fvng,ug、fvmg，ug表示Fvng、Fvmg中第ug维上的数值，ug＝1,2,...,G；c(Fvng,Fvmg)表示向量Fvng和Fvmg之间的相关系数；β表示随机噪声；

[0102] (2)对脑功能成像空间特征

[0103]

[0104] 第cb＝1,2,...,y维构建方程组：

[0105]

[0106] 计算第cb维脑功能成像空间特征对应的超参数θ0、ηu和θ1。其中，ci，cb表示第i个视频数据的脑功能成像空间特征的第cb个元素，cb=1,2,；Ki＝[ki，1，ki,2,...,ki，i-1,ki，i+1,...,ki,N]；

[0107] 其中，ki，i-1＝k(Fvi,Fvi-1)，Ci＝[cf(Fvng,Fvmg)]，ng＝1,2,...,i-1,i+1，...N，mg＝1,2,...,i-1,i+1,...N，ti,cb＝(fvl,cb,fv2,cb...,fvi-1,cb,fvi+1,cb,...,fvN,cb)T；fv1,cb，fv2,cb，fvi-1,cb,fvi+1，cb和fvN,cb分别表示第1、2、i-1、i+1和N个视频的底层视觉特征向量中的第cb个元素；

[0108] (3)利用超参数对Na-N个脑功能成像空间特征未知的视频数据第cb＝1,2,..,y维脑功能成像空间特征向量进行预测，计算公式如下：

[0109]

[0110] 其中，Ks ＝ [ks，1，ks，2，...,ks,N]，ks,1=k(Fvs,Fv1)，s ＝ N+1,...,Na，Cs ＝[cf(Fvnge,Fvmge)]，nge＝N+1,...,Na，mge＝N+1,...,Na，fvN+1,cb，fvN+2,cb和分别表示第N+1、N+2和Na个视频的底层视觉特征向量中的第cb维
特征；

[0111] 4利用Na个脑功能成像空间特征[C1,C2,...,Cid，...,CNa]和底层视觉特征[Fv1,Fv2,...,Fvid，...,FvNa]进行多模态谱聚类，得到1到Na个视频的类别标签向量
Indexfinal，并计算Indexfinal的聚类准确率：

[0112] 具体步骤如下：

[0113] (1)将Cid=(cid，1，cid，2,...,cid，y)视为空间中的一个点，找到[C1,C2，...,Cid，...,CNa]中与Cid欧氏距离最近的k个点，k=[1,10000]，定义Cid与其欧氏距离最近的k个点之间的关系为近邻关系；同理，将脑功能成像空间特征Fvid=(fvid，1，fvid，
2,...,fvid，y)视为空间中的一个点，找到[Fv1,Fv2,...,Fvid，...,FvNa]中与Fvid欧氏距离最近的k个点，定义Fvid与其欧氏距离最近的k个点之间的关系为近邻关系；

[0114] 其中：cid,1,cid，2,...,cid,表示脑功能成像空间特征Cid中的第1、2和y个元素；fvid，1,fvid，2,...,fvid，y表示底层视觉特征Fvid中的第1、2和y个元素；

[0115] (2)如果Cid和 Cjd是近邻关系，id＝1,2,...,Na，jd ＝1,2,...,Na 利用计算Cid和Cjd之间的权重CWeightid,jd，得到权重矩
阵：

[0116]

[0117] 在矩阵CWeight中令CWeightid，id＝0；同理，如果特征Fvi和Fvj是近邻关系，利用计算Fvi和Fvj之间的权重FvWeightid,jd，得到权重矩阵：

[0118]

[0119] 在矩阵FvWeight中令FvWeightid，id＝0；

[0120] 其中：Cid和Cjd表示第id个视频和第jd个视频的脑功能成像空间特征向量；∏表示连乘积；cid，l和cjd，l表示Cid和Cjd的第l个元素；l＝1,2,...,y；σl表示一个常数，σl＝0.05；Fvid和Fvjd表示第id个视频和第jd个视频的底层视觉特征向量；Fvid，l和Fvjd,l表示Fvid和Fvjd的第l个元素；

[0121] (3)利用公式计算CWeight和FvWeight的拉普拉斯矩阵；利用公式Lmulti-modal＝LC+αI+LFv+αI计算多模态拉普拉斯矩阵Lmulti-modal，大小为Na×Na；

[0122] 其中：LC和LFv表示矩阵CWeigh和FvWeight的拉普拉斯矩阵；DC表示[C1,C2,...,Cid，...,CNa]中两两脑功能成像空间特征向量之间的欧式距离所构成的矩阵；
DFv表示[Fv1,Fv2，...,Fvid，...,FvNa]中两两底视觉层特征向量之间的欧式距离所构成的-2 2
矩阵；I表示单位矩阵，大小为Na×Na；α表示常数，α∈[10 ,10]；

[0123] (4)计算多模态拉普拉斯矩阵Lmulti-modal的特征值和特征向量，将特征值从大到小排列，选取前C个特征值对应的特征向量Vecto1，Vector2,..,VectorC，构造矩阵VecMatrix=[Vectorl,Vector2,...,VectorC]，大小为Na×C，计算矩阵VecMatrix每一行的和，然后用该行元素分别除以该行元素的和，得到矩阵VecMatrixNew，大小为Na×C；其中：C表示视频库中视频类别个数；

[0124] (5)将VecMatrixNew每行中值最大的元素置为1，其余元素置为0，得到VecMatrixNew1；

[0125] (6)将VecMatrixNew1的每一行视为高维空间中的一个点，用光谱旋转算法对VecMatrixNew1矩阵中的Na个点进行聚类，得到类别矩阵Index，大小为Na×C；光谱旋转算
T
法步骤为：计算VecMatrixNew2＝VecMatrixNew ×VecMatrixNew ；对VecMatri2中每个
元素求-1/2方，得到VecMatrixNew3；将VecMatrixNew3中除对角线元素外都置为0，得到
VecMatrixNew4；

[0126] 计算VecMatrixNew5＝VecMatrixNew4×VecMatrixNew；

[0127] 计算VecMatrixNew6＝VecMatrixNew5T×VecMatrixNew1；

[0128] 对VecMatrixNew6进行SVD分解，得到矩阵USVD,dSVD,VSVD；计算QSVD＝USVD×VSVDT；计算MSVD＝VecMatrixNew5×QSVD；将MSVD每行中最大元素置为1，其余置为0，得到M1SVD；将T
M1SVD赋给VecMatr1；重新计算VecMatrixNew6＝VecMatrixNew5×VecMatrixNew1；重复计
算30次，得到M1SVD，将其赋给Index；

[0129] (7)利用公式Index0=Index+0.2 得到初始类别矩阵Index0，计算T -1 -1/2
Indexnew=Index0×diag [[diag(Index0×I×Index0)] ] ，将Indexnew赋给Index0，
重复Ne次，Ne∈[1,10000]，得到最终的Indexnew，大小为Na×C，求出Indexnew每行最大
值所在的第cg列，将最终标签Indexfinal对应行置为cg，cg∈[1,2,.,C]，Indexfinal大
小为Na×1；其中，diag表示取矩阵的对角线元素；I表示单位向量；

[0130] (8)比较Indexfinal与视频真实类别标签IndexTrue，计算准确率，采用三种方法来计算准确率，分别是：聚类准确率ACC、归一化互信息NMI和精度。

[0131] 聚类准确率ACC：对比Indexfinal与视频真实类别标签IndexTrue的对应元素，找出两者相同的个数，除以Na=1307得到聚类准确率；

[0132] 归一化互信息NMI：

[0133] 1)计算其中，min(Indexfinal)表示取Indexfinal的最小值；min(IndexTrue)表示取IndexTrue的最小值；

[0134] 2)找出Indexfinalnew和IndexTruenew中属于3类视频的个数，构成矩阵：

[0135]

[0136] 其中，IndexG1,1表示Indexfinalnew中属于第一类、并且IndexTruenew中属于第一类的视频的个数，其余元素同理。

[0137] 3)计算向量Pm和Pn，公式如下：

[0138]

[0139]

[0140] 4)计算

[0141] H1=∑-Pm/sumIndex×log2(-Pm/sumIndex)

[0142] H2=∑-Pn/sumIndex×log2(-Pn/sumIndex)

[0143] 其中，sumIndex表示IndexG中元素之和；

[0144] 5)计算Pmn=IndexG/sumIndex；-12

[0145] 6)计算将PPP中绝对值小于10 的元素值置为1；

[0146] 7)计算MI＝sum(Pmn×log2PPP)，其中sum(Pmn×log2PPP)表示对Pmn×log2PPP求和；

[0147] 8)计算MIhat＝MI/max(H1，H2)，其中，max(H1,H2)表示取H1,H2中的最大值；MIhat即为归一化互信息；

[0148] 精度Purity：

[0149] 找出Indexfinal中属于第一类视频的标签序号，在IndexTrue对应序号位置提取其元素，统计这些元素中个数最多的标签数目Index1；同理，对第二类视频、第三类视频进行同样的计算，得到Index2，Index3，计算精度Purity=(Index1+Index2+Index3)/Na；

[0150] 表1

[0151]聚类准确率归一化互信息精度
底层视觉特征 0.4429 0.0921 0.4736
脑功能成像空间特征 0.5151 0.1141 0.5151
两者融合 0.5495 0.1167 0.5495

[0152] 利用本文算法进行视频聚类，并利用三种方法计算聚类准确率，如表1所示，结果显示脑功能成像空间特征和底层视觉特征融合进行视频聚类能大大提高视频聚类的准确率，为视频聚类问题提供了新的解决思路。

利用脑成像空间特征和底层视觉特征进行视频聚类的方法转让专利

申请号 : CN201210293171.9

文献号 : CN102855352B

文献日 : 2014-08-06

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 韩军伟 , 吉祥 , 郭雷 , 胡新韬

申请人 : 西北工业大学

摘要 :

权利要求 :

说明书 :