会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 人工神经网络 / 人工神经网络

人工神经网络

阅读:918发布:2020-05-13

IPRDB可以提供人工神经网络专利检索,专利查询,专利分析的服务。并且一种人工神经网络,包括具有预定数目的输入节点的至少一个输入层,以及具有预定数目的输出节点的至少一个输出层,或者还包括在所述输入层和所述输出层之间的具有预定数目的节点的至少一个中间隐藏层。至少所述输出层和/或所述隐藏层和/或所述输入层的节点对输入数据进行第一非线性变换的非线性变换,用于计算输出值,所述输出值将馈送给下一层作为输入值,或者在考虑输出层时作为输出数据。,下面是人工神经网络专利的具体信息内容。

1.一种神经网络,包括形成至少两层的多个节点,所述层的第一层 是所谓的输入层,所述层的最后一层是所谓的输出层,所述输入层的节点 形成用于输入数据库的数据的输入,所述输出层的节点形成用于提供输出 数据的输出信道,其中所述输出数据是处理输入数据的结果,在所述输入 层的节点和所述输出层的节点之间提供连接,所述输出层的各节点将从所 述输入层接收的所述输入数据变换成所述输出数据,所述变换包括第一变 换步骤,所述第一变换步骤包括至少这样的子步骤:通过对所述输入数据 加权,将从所述输入节点接收的所述输入数据求和到所述输出节点;以及 第二变换步骤,其中非线性地变换通过所述第一变换步骤获得的结果,通 过在输出节点中进行的所述变换获得的输出数据作为所述输出数据,其特征在于,

在各输出节点中,所述第一变换步骤包括两个子步骤,第一子步骤为 对由所述输出节点从所述输入节点接收的所述输入数据的非线性变换函 数,以及第二子步骤为对在所述第一子步骤中的所述经过非线性变换的输 入数据的求和步骤。

2.根据权利要求1的人工神经网络,包括具有预定数目输入节点的 输入层和具有预定数目输出节点的输出层,其特征在于,在所述输入层和 所述输出层之间提供节点的至少一个另外的层,即所谓的隐藏层,或多于 一个的隐藏层,对于所述至少一个隐藏层或多于一个的隐藏层的各节点, 所述隐藏层的节点通过加权连接连接到所述输入层的输入节点,并且当提 供多于一个的隐藏层时连接到另一个隐藏层的节点,或者当仅仅提供一个 隐藏层时连接到所述输出层的输出节点,并且所述输出层的节点将从所述 输入层或从上一隐藏层接收的输入数据变换成输出数据,所述变换包括第 一变换步骤,所述第一变换步骤包括两个连续子步骤,第一子步骤包括对 由输出节点或由隐藏层的节点从所述输入层的输入节点或由上一隐藏层的 节点接收的输入数据的非线性变换函数,第二子步骤包括通过进一步对所 述经过非线性变换的输入数据加权,对在所述第一子步骤中经过非线性变 换的所述输入数据求和,以及还进行第二变换步骤,其对通过所述第一变 换步骤获得的结果进行非线性变换,如果所述节点是所述输出层的输出节 点,则通过在所述节点中进行的所述变换获得的输出数据作为输出数据, 或者作为从隐藏层的节点提供给下一隐藏层的节点或所述输出层的输出节 点的输入数据。

3.根据权利要求1的人工神经网络,其中所述输入层的节点的所述 输入数据包括数据库的输入数据,而所述输入层的节点的所述输出数据被 提供给所述输出层的节点或第一隐藏层的节点或者所述至少一个隐藏层, 作为这些层的节点的输入数据,并且所述输出层的所述输出数据包括所述 人工神经网络的处理结果。

4.根据以上权利要求中的一项或多项的人工神经网络,其特征在 于,由节点进行的对所述输入数据的所述第一非线性变换子步骤包括通过 正弦函数对所述输入数据的变换,以及所述第二变换子步骤包括在通过正 弦函数变换后,即在进行所述第一变换子步骤后,对所述输入数据求和。

5.根据以上权利要求中的一项或多项的人工神经网络,其特征在 于,所述至少一个隐藏层以及所述输出层的各节点包括用于不同输入数据 的多个输入信道;

对于被连接的各信道:

接收器单元,用于进行所述第一变换步骤的第一非线性变换子步骤;

还提供求和单元,具有连接到各信道的所述接收器单元的输出的输入, 并用于通过对各信道的经过非线性变换的输入数据求和到一个值,进行所 述第一变换步骤的所述第二变换子步骤;以及

非线性变换单元,具有连接到所述求和单元的输出的输入,用于通过 非线性过滤由所述第一变换步骤获得的值,并提供节点的输出值作为下一 隐藏层或输出层的节点的输入值,进行所述第二变换步骤。

6.根据以上权利要求中的一项或多项的人工神经网络,其特征在 于,输入数据包括在输入数据变量空间中的预定数目的变量,各变量由所 述输入数据空间中的坐标限定,并且在所述输入数据空间中的各坐标在所 述第一变换步骤中被非线性变换为对应的变量值,所述变量值通过坐标值 的空间位置依赖于给定波长的空间波,该依赖性包括,将输入坐标值乘以 正弦波的波长,然后将其变换为相同的值,各输入坐标上的波长在学习阶 段期间被调谐。

7.根据以上权利要求中的一项或多项的人工神经网络,其特征在 于,由各节点进行的对所述输入数据的变换通过下面的公式定义:

x j [ s ] = F ( G ( w ji [ s ] , x i [ s - 1 ] ) ) - - - ( 4 ) 其中非线性变换F(·)是所述第二变换步骤的非线性过滤函数,而G(·) 是所述第一变换子步骤和所述第二线性变换子步骤的非线性变换函数的组 合,包括根据下面公式对非单调、正弦处理的加权输入的求和:

G ( w ji [ s ] , x i [ s - 1 ] ) = Σ i = 0 n sin ( w ji [ s ] · x i [ s - 1 ] ) - - - ( 5 ) 其中,

[s]:网络的普通层,其中对于输入层,s=1,对于隐藏层和输出层,s为渐 增值;

xj[s]:层[s]中第j个节点的输出变量;

xi[s-1]:从层[s-1]中第i个节点相层[s]中普通节点的第i个输入;

x0[s-1]:向层[s]中的普通节点的“伪”输入,其被人为引入以便以数学方便 的方法表示有效阈值,其值通常固定为1;

wji[s]:对将层[s-1]中第i个节点接入层[s]中的第j个节点的连接的权重;

n:对节点的输入数目。

8.根据权利要求7的人工神经网络,其特征在于,各节点根据下面 的函数对所述输入数据进行变换:

x j [ s ] = F ( Σ i = 0 n sin ( w ji [ s ] · x i [ s - 1 ] ) ) - - - ( 6 ) 正弦函数引入定性处理,各权重wji[s]在第s层的第j个节点的所述输入空间 的第i个坐标中作为2π/波长参数。

9.根据以上权利要求中的一项或多项的人工神经网络,其特征在 于,通过S形函数进行所述第二非线性变换步骤。

10.根据以上权利要求中的一项或多项的人工神经网络,其特征在 于,其为多层反向传播神经网络,包括正向阶段和利用梯度下降原理的学 习阶段;

所述正向阶段由下面的公式定义:

第一调和变换步骤,提供变换的网络输入值I,其中

I j [ s ] = 2 π n Σ i = 0 n sin ( w ji [ s ] · x i [ s - 1 ] ) - - - ( 7 ) 第二非线性变换步骤,根据如下公式通过所谓的激活函数f(Ij[s])确定 节点的输出:

x j [ s ] = f ( I j [ s ] ) = f ( 2 π n Σ i sin ( w ji [ s ] · x i [ s - 1 ] ) ) - - - ( 8 ) 所述学习阶段通过以下公式定义:

梯度下降原理

Δ w ji [ s ] = - lcoef · E w ji [ s ] - - - ( 10 ) 利用通常的整体误差函数,通过根据如下公式定义局部来评价各节点上的 误差:

e j [ s ] = - E I j [ s ] - - - ( 12 ) 从而获得

Δ w ji [ s ] = - lcoef · E w ji [ s ] = = - lcoef · E I j [ s ] · I j [ s ] w ji [ s ] = - - - ( 13 ) = lcoef · e j [ s ] · w ji [ s ] ( 2 π n Σ k sin ( w jk [ s ] · x k [ s - 1 ] ) ) = = lcoef · e j [ s ] · 2 π n x i [ s - 1 ] · cos ( w ji [ s ] · x i [ s - 1 ] ) 并且为了确定权重校正值,如下计算局部误差ej[s]:

对于输出层:

e j [ out ] = - E I j [ out ] = = - E x j [ out ] · x j [ out ] I j [ out ] = - - - ( 14 ) 对于其它层:

e j [ s ] = - E I j [ s ] = = - E x j [ s ] · x j [ s ] I j [ s ] = = - f ( I j [ s ] ) · Σ k ( E I k [ s + 1 ] · I k [ s + 1 ] x j [ s ] ) = - - - ( 15 )

11.根据权利要求10的人工神经网络,其特征在于 所述正向阶段的所述激活函数f(Ij[s])为S形函数:

x j [ s ] = sigm ( I j [ s ] ) = 1 1 + e - I j [ s ] - - - ( 9 ) 所述学习阶段的误差函数为均方误差函数:

E = 1 2 · Σ k = 1 m ( t k - x k [ out ] ) 2 - - - ( 11 ) 对于所述输出层的权重校正值变为

- ( I j [ out ] f ( I j [ out ] ) ) · ( x j [ out ] ( 1 2 Σ k = 1 m ( t k - x k [ out ] ) 2 ) ) = = f ( I j [ out ] ) · ( t j - x j [ out ] ) 对于其它层的权重校正值变为

- f ( I j [ s ] ) · Σ k ( - e k [ s + 1 ] · x j [ s ] ( 2 π n Σ h ( sin ( w kh [ s + 1 ] · x h [ s ] ) ) ) ) = = f ( I j [ s ] ) · 2 π n Σ k ( e k [ s + 1 ] · w kj [ s + 1 ] · cos ( w kj [ s + 1 ] · x j [ s ] ) )

12.根据以上权利要求中的一项或多项的人工神经网络,其特征在 于,所述输入层的所述输入节点通过包括以下单元对接收的所述输入数据 进行第一非线性变换步骤和第二非线性变换步骤:

用于输入数据的接收信道;

接收器单元,连接到所述接收信道,用于进行如以上权利要求所限定 的所述第一变换步骤的所述第一非线性变换子步骤;

求和单元,用于通过如以上权利要求所限定的将各信道的所述经过非 线性变换的输入数据求和为一个值,进行所述第一变换步骤的所述第二变 换子步骤;以及

非线性变换单元,用于通过对由以上步骤限定的所述第一变换步骤获 得的值进行非线性过滤,进行所述第二变换步骤,并提供所述输入节点的 输出值作为下一隐藏层或所述输出层的节点的输入值。

说明书全文

技术领域

本发明涉及神经网络,包括形成至少两层的多个节点,所述层的第一 层是所谓的输入层,所述层的最后一层是所谓的输出层,所述输入层的节 点形成用于输入数据库的数据的输入,所述输出层的节点形成用于提供输 出数据的输出信道,其中所述输出数据是处理输入数据的结果,在所述输 入层的节点和所述输出层的节点之间提供连接,所述输出层的各节点将从 所述输入层接收的所述输入数据变换成所述输出数据,所述变换包括第一 变换步骤,所述第一变换步骤包括至少这样的子步骤,通过对所述输入数 据加权,将从所述输入节点接收的所述输入数据求和到所述输出节点,以 及第二变换步骤,其中非线性地变换通过所述第一变换步骤获得的结果, 通过在输出节点中进行的所述变换获得的输出数据作为所述输出数据。

背景技术

人工神经网络广泛用于各种目的。通常所说的人工神经网络属于所谓 的预测算法类型,其可以从数据库的数据学习,以达到特定的初始经验水 平,用于评价可以通过以多个不同方法获取的数据库的数据纪录所描述的 状态。从而可以将例如人工神经网络的已训练适应算法用于评价由特定特 征限定的特定状态的结果,该特征通过数据库的数据纪录中的数据或变量 表示或编码,并且根据该评价的结果,通过这些适应算法的机器操作可以 决定应用特定措施或行动,而不需要人的参与。
适应算法不停地学习,并且通过在其被使用的任何时间增加其知识, 可以收集和细化其经验,从而通过其的使用对在第一学习阶段期间获取的 知识增加另外的知识。
这些种算法是提高在没有人的智力或参与的帮助下自动执行任务的能 力的基础。通常,其被应用到机器人或高智能系统中,用于自动化,并允 许将具有高可靠性水平的机器还扩展用于执行这样的任务,该任务不能用 基于技术、物理、化学参数等的严格数据来限定。
从这方面看,这种算法具有技术特征和技术效果,因为这些算法的目 的是提供技术装置,例如这样的计算机,其通过更简单地提供与人脑的已 知结构相符的结构,以类似于人脑处理该数据的方式计算数据。
使用该算法以解决多种技术问题,或提供例如图像识别或边缘检测的 方法的技术效果。
实际上,已知多种用于该适应算法、尤其用于该人工神经网络的结构。
下面通过图1和3说明该人工神经网络的总体结构和原理。
在常规网络中,各节点作为一个单元工作,该单元接收来自输入节点 的加权输入,对其求和,并通过非线性函数变换结果。节点是这样的功能 单元,其可以对由数据库或其它节点提供的输入数据进行变换,并提供作 为输出的将被发送到其它节点的输出数据,或者人工神经网络的输出数据。
图3说明了其机制。在常规网络中,各节点对其输入的线性变换进行 非线性变换:
x j [ s ] = F ( L ( w ji [ s ] , x i [ s - 1 ] ) ) - - - ( 1 )
其中非线性变换F(·)是类似例如S形的函数,而线性变换L(·)是对输 入的加权求和:
L ( w ji [ s ] , x i [ s - 1 ] ) Σ i = 0 n w ji [ s ] · x i [ s - 1 ] - - - ( 2 )
从(1)和(2)可得:
x j [ s ] = F ( Σ i = 0 n w ji [ s ] · x i [ s - 1 ] ) - - - ( 3 )
其中
[s]:网络的普通层,其中对于输入层,s=1,对于隐藏层和输出层,s为渐 增值;
xj[s]:层[s]中第j个节点的输出变量;
xi[s-1]:从层[s-1]中第i个节点向层[s]中普通节点的第i个输入;
x0[s-1]:向层[s]中的普通节点的“伪”输入,其被人为引入以便以数学方便 的方法表示有效阈值。其值通常固定为1;
wji[s]:对将层[s-1]中第i个节点接入层[s]中第j个节点的连接的权重;
n:对节点的输入数目。
另外,公知人工神经网络可以具有多于两层即输入和输出层的层,这 些层被提供在输入层和输出层中间并称为隐藏层。人工神经网络可以具有 多于一个的隐藏层。各层的各节点可通过通信信道与可以是隐藏层或输出 层的下一层的一个或多个或者每个节点连接。各节点对通过上一层的其它 节点接收的输入进行上述变换,并对下一层的节点提供输出值,其中该输 出值通过对由上一层的节点接收的输入进行上述变换计算得到。已知并使 用了在不同或相同层的节点之间的连接的多种结构,但是本发明并不限于 任一所述的已知结构,因为根据本发明的内容可以修改神经网络的任何已 知结构。
人工神经网络的一个重要的目的是改善其可靠性,以及其快速收敛到 所处理问题的高精度解的能力,即快速收敛到为对由输入数据描述的状态 的高精度评价,并从而收敛到高可靠性的输出数据或预测。
上述函数包括参数,这些参数通常被随机设置为特定初始值,并且算 法的学习阶段包括对算法馈送已知输入数据和对应的已知输出数据。在学 习阶段期间,校正对通过第一变换步骤接收的输入数据应用的参数,通常 为权重,以获得输入数据与由学习数据集的记录已知的对应输出数据的最 佳拟合。
已知不同种用于培训(teach)算法的学习函数集。这些学习函数集是 算法的重要特征,因为学习阶段影响算法的计算可靠性和计算速度,并从 而影响算法的泛函性。通过减小对于相同输入数据的计算的输出与已知输 出之间的差距而限定权重。根据通常在误差最小化期间数据的结构,算法 仅仅检测局部极小值而非绝对极小值,从而其陷入这些局部极小值,而不 能检测与最佳训练或学习的算法一致的绝对极小值。
关于对不同种人工神经网络的完全描述,见例如Arbib M.A.,(Ed.), (1995a),The Handbook of Brain Theory and Neural Networks,A Bradford Book,The MIT Press,Cambridge,Massachusetts,London, England,1995;Buscema M.& Semeion Group(1999a),Reti Neurali Arificiali e Sistemi Sociali Complessi,Vol.I:Teoria e Modelli,Franco Angeli,Milano,1999。
文献日本20022366927公开了一种,其可以学习时间序列特征的神经 网络。这种神经网络具有五层,包括输入层、输出层以及三个中间隐藏层。 在被馈送给输入层的节点之前,对输入矢量的各自单元进行非线性组合变 换。在隐藏和输出层的输入处不进行非线性变换子步骤。对输入矢量的单 元的非线性组合不包括对神经网络的学习函数的最优化,并且不具有避免 陷入局部极小值的效果。这可由以下事实明显地推出,即隐藏层和输出层 的节点不进行非线性预处理,从而不能发生最优化学习过程。
文献EP 621549公开了一种非线性操作单元和利用该非线性操作单元 的数据处理装置,其中所述非线性操作单元包括:非线性函数操作装置, 用于接收至少一个输入信号,并通过利用非线性函数对所述输入信号进行 计算操作;乘法装置,用于将作为通过所述非线性函数操作装置的计算操 作的结果的函数值乘以权重值;以及加法器装置,用于将通过所述乘法装 置的乘法操作的结果相加到一起,并对总和加上阈值。该操作单元形成神 经网络的节点,所述节点分布在层中并彼此连接。对输入各节点的输入信 号进行的非线性操作只是通常的非线性操作,在常规神经网络中对操作单 元的输入的加权求和信号进行该操作。该对线性求和和加权步骤的顺序与 非线性变换的顺序的颠倒只是意味着,考虑并避免由于乘法和求和装置的 非线性行为的误差,所述非线性行为来源于例如热偏移或其它效应的系统 漂移。通过进行常规的第二步骤即非线性变换作为第一变换步骤,并进行 包括对输入加权和输入求和的常规第一线性变换步骤作为第二变换步骤, 最小化所述非线性行为。与常规神经网络相比,根据EP 621549的公开的 操作单元对学习行为或避免局部极小值没有进一步的效果。唯一获得的效 果是考虑并克服了由线性求和以及乘法装置的实际作用引入的计算系统噪 音或偶然非线性噪音。

发明内容

本发明的一个目的是这样改善人工神经网络,使得算法的更好、更可 靠和更快的收敛达到最佳解,并避免在学习阶段期间的局部极小值。
本发明通过在开始所述的人工神经网络实现上述目的,所述人工神经 网络还包括如下特征,即在各输出节点中,所述第一变换步骤包括两个子 步骤,第一子步骤为对由所述输出节点从所述输入节点接收的所述输入数 据的非线性变换函数,以及第二子步骤为对在所述第一子步骤中的所述经 过非线性变换的输入数据的求和步骤。
通常,人工神经网络包括具有预定数目输入节点的输入层和具有预定 数目输出节点的输出层,并且在所述输入层和所述输出层之间提供节点的 至少一个另外的层,即所谓的隐藏层,或多于一个的隐藏层。对于所述至 少一个隐藏层或多于一个的隐藏层的各节点,所述隐藏层的节点通过加权 连接连接到所述输入层的输入节点,并且当提供多于一个的隐藏层时连接 到另一个隐藏层的节点,或者当仅仅提供一个隐藏层时连接到输出层的输 出节点。所述输出层的节点对从所述输入层或从上一隐藏层接收的输入数 据变换成输出数据,所述变换包括第一变换步骤,所述第一变换步骤包括 两个连续子步骤,第一子步骤包括对由输出节点或由隐藏层的节点从所述 输入层的输入节点或由上一隐藏层的节点接收的输入数据的非线性变换函 数,第二子步骤包括通过进一步对所述经过非线性变换的输入数据加权, 对在所述第一子步骤中经过非线性变换的所述输入数据求和,以及还进行 第二变换步骤,其对通过所述第一变换步骤获得的结果进行非线性变换, 如果所述节点是所述输出层的输出节点,则通过在所述节点中进行的所述 变换获得的输出数据作为输出数据,或者作为从隐藏层的节点提供给下一 隐藏层的节点或所述输出层的输出节点的输入数据。
所述输入层的节点的所述输入数据包括数据库的输入数据,而所述输 入层的节点的所述输出数据被提供给所述输出层的节点或第一隐藏层的节 点或者所述至少一个隐藏层,作为这些层的节点的输入数据,并且所述输 出层的所述输出数据包括所述人工神经网络的处理结果。
由节点进行的对所述输入数据的所述第一非线性变换包括通过正弦函 数对所述输入数据的第一变换子步骤和第二变换子步骤,所述第二变换子 步骤包括在通过正弦函数变换后,即在进行所述第一变换子步骤后,对所 述输入数据求和。
至少所述至少一个隐藏层以及所述输出层的各节点可描述为包括用于 不同输入数据的多个输入信道;
对于被连接的各信道:
接收器单元,用于进行所述第一变换步骤的所述第一非线性变换子步 骤;
还提供求和单元,具有连接到各信道的所述接收器单元的输出的输入, 用于通过对各信道的经过非线性变换的输入数据求和到一个值,进行所述 第一变换步骤的所述第二变换子步骤;
以及非线性变换单元,具有连接到所述求和单元的输出的输入,用于 通过非线性过滤由所述第一变换步骤获得的值,并提供节点的输出值作为 下一隐藏层或输出层的节点的输入值,进行所述第二变换步骤。
输入数据还可包括在输入数据变量空间中的预定数目的变量,其在所 述输入数据空间中限定坐标,并且在所述输入数据空间中的各坐标在所述 第一变换步骤中被非线性变换为对应的变量值,所述变量值通过坐标值的 空间位置依赖于给定波长的空间波,该依赖性包括,将输入坐标值乘以正 弦波的波长,然后将其变换为相同的值,各输入坐标上的波长在学习阶段 期间被调谐。
由各节点进行的对所述输入数据的变换通过下面的公式定义
x j [ s ] = F ( G ( w ji [ s ] , x i [ s - 1 ] ) ) - - - ( 4 )
其中非线性变换F(·)是所述第二变换步骤的非线性过滤函数,而G(·) 是所述第一变换步骤的非线性变换函数,包括根据下面函数对非单调、正 弦处理的加权输入的求和:
G ( w ji [ s ] , x i [ s - 1 ] ) = Σ i = 0 n sin ( w ji [ s ] · x i [ s - 1 ] ) - - - ( 5 )
其中,
[s]:网络的普通层,其中对于输入层,s=1,对于隐藏层和输出层,s为渐 增值;
xj[s]:层[s]中第j个节点的输出变量;
xi[s-1]:从层[s-1]中第i个节点向层[s]中普通节点的第i个输入;
x0[s-1]:向层[s]中的普通节点的“伪”输入,其被人为引入以便以数学方便 的方法表示有效阈值,其值通常固定为1;
wji[s]:对将层[s-1]中第i个节点接入层[s]中第j个节点的连接的权重;
n:对节点的输入数目。
各节点根据下面的函数对输入数据进行变换:
x j [ s ] = F ( Σ i = 0 n sin ( w ji [ s ] · x i [ s - 1 ] ) ) - - - ( 6 )
正弦函数引入定性处理,各权重wji[s]在第s层的第j个节点的输入空间的 第i个坐标中作为2π/波长参数。
可通过S形函数进行所述第二非线性变换步骤。
另外,所述输入层的所述输入节点通过包括以下单元对接收的所述输 入数据进行第一非线性变换步骤和第二非线性变换步骤:
用于输入数据的接收信道;
接收器单元,连接到所述接收信道,用于进行如以上权利要求所限定 的所述第一变换步骤的所述第一非线性变换子步骤;
求和单元,用于通过如以上权利要求所限定的将各信道的所述经过非 线性变换的输入数据求和为一个值,进行所述第一变换步骤的所述第二变 换子步骤;
以及非线性变换单元,用于通过对由以上步骤限定的所述第一变换步 骤获得的值进行非线性过滤,进行所述第二变换步骤,并提供所述输入节 点的输出值作为下一隐藏层或所述输出层的节点的输入值。
在节点之间的连接上特定双重非线性关系的存在对根据本发明的网络 的特性,在计算功能和该网络在学习阶段期间的行为两方面都产生了一些 显著影响。
可以将根据本发明的处理应用到现有网络拓扑,作为对其学习公式的 基本修改,该修改代表新的一般学习规则。该新的学习规则显示出对复杂 数据库的高度收敛和高推断能力。
在从属权利要求中还公开了本发明的其它改进。

附图说明

通过具体实例和附图,将更清楚地说明根据本发明的算法的特征及其 优点,其中:
图1示出了在常规网络中的基本处理的示意图;
图2以与图1类似的方式示出了根据本发明的网络的基本处理;
图3示意性地示出了第j个节点的节点变量;
图4示意性地示出了根据本发明的多层网络的结构;
图5至7示出了通过所谓的RBF网络的常规反向传播神经网络,以及 通过根据本发明的神经网络对XOR问题的解;
图8示出了所谓的双螺旋问题;
图9和10示出了分别利用根据本发明的神经网络和常规反向传播神经 网络获得的对双螺旋问题的解;
图11a至11d示出了通过具有不同范围的根据本发明的神经网络获得 的对双螺旋问题的不同解;
图12示出了关于192个输入点通过根据本发明的网络获得的对双螺旋 问题的解;
图13示出了在根据本发明的网络中从输入节点到隐藏节点的权重变 换函数;
图14示出了在根据本发明的网络中从隐藏节点到输出节点的权重变 换函数;
图15进一步示出了在根据本发明的网络中从输入节点到隐藏节点的 权重变换函数;
图16进一步示出了在根据本发明的网络中从隐藏节点到输出节点的 权重变换函数;
图17示出了常规反向传播神经网络和根据本发明的神经网络在对隐 藏单元数目的第一试验、校正期间的比较;
图18示出了常规反向传播神经网络和根据本发明的神经网络对乳癌 数据集的比较结果;
图19示出了常规反向传播神经网络和根据本发明的神经网络对利用 “早期停止”的乳癌数据集的比较结果;
图20示出了参考与澳洲信用积分数据集相关的实例,常规反向传播神 经网络和根据本发明的神经网络在对隐藏单元数目的第一试验、校正期间 的比较;
图21示出了常规反向传播神经网络和根据本发明的神经网络对利用 “早期停止”(Tr-Ts-Pr)和未利用“早期停止”(Tr-Pr)的澳洲信用积 分数据集的比较结果。

具体实施方式

附图中所示的和用于测试的实例涉及多层神经网络,其具有插在输入 层和输出层之间的多于一层的隐藏层(图4)。将数据库的数据提供给输 入层的节点,该输入层的节点具有用于接收该输入数据的信道。输入层的 各节点连接到第一隐藏层的各节点。第一隐藏层的各节点连接到下一隐藏 层的各连接点,依此类推,直到最后的隐藏层,其各节点连接到输出层的 各节点。
在下面的理论说明中和通过图1到图3显然的是,神经网络的节点是 这样的处理单元,其在一个、两个、三个或更多的输入信道接收输入数据, 并且根据非线性函数对输入数据进行变换,以在输出信道提供一个值,如 果该节点是输出层中的节点,该值是通过神经网络计算的输出数据,或者 将该输出值作为输入数据提供给下一层,例如隐藏层或输出层的节点。
通常,根据两个步骤进行对由节点接收的输入数据的变换。第一变换 步骤用于计算向节点的网络(net)输入,其通常是一种对由节点接收的输 入数据的加权或平均求和,以及第二步骤是对根据第一步骤变换的输入数 据的非线性过滤。
图1示出了根据现有技术状态的典型常规已知的节点。图3中说明了 函数的单个变量。
根据图3,对于人工神经网络的特定层中的典型节点,使用以下变量, 下面说明其含义:
[s]定义为网络的普通层的数,其中对于输入层,s=1,对于隐藏层和输出 层,s为渐增值;
xj[s]表示层[s]中第j个节点的输出变量;
xi[s-1]表示从层[s-1]中第i个节点向层[s]中普通节点的第i个输入;
x0[s-1]表示向层[s]中的普通节点的“伪”输入,其被人为引入以便以数学方 便的方法表示有效阈值。其值通常固定为1;
wji[s]表示对将层[s-1]中第i个节点接入层[s]中第j个节点的连接的权重;
n表示对节点的输入数目。
在常规网络中,各节点作为这样的单元工作,其接收来自输入节点的 加权输入,对其求和,并通过非线性函数变换结果。从而在常规网络中, 各节点根据下面的函数对其输入的线性变换进行非线性变换:
x j [ s ] = F ( L ( w ji [ s ] , x i [ s - 1 ] ) ) - - - ( 1 )
其中非线性变换F(·)是类似例如S形的函数,而线性变换L(·)是对输 入的加权求和:
L ( w ji [ s ] , x i [ s - 1 ] ) Σ i = 0 n w ji [ s ] · x i [ s - 1 ] - - - ( 2 )
作为(1)和(2)的结果,获得对常规神经网络中的普通节点的常规变换 函数:
x j [ s ] = F ( Σ i = 0 n w ji [ s ] · x i [ s - 1 ] ) - - - ( 3 )
图2示意性地示出了在根据本发明的人工神经网络中的普通节点的结 构。
R表示用于在节点的各输入信道上进行第一变换步骤的第一输入变换 子步骤的功能接收单元。第一输入变换子步骤是非线性变换,这将在以下 的说明书中详细说明。
∑表示用于进行对加权输入值求和的第一变换步骤的第二输入变换子 步骤,所述加权输入值已通过接收单元R中的非线性函数预先变换。
Xi到Xn在节点属于隐藏层或输出层时表示从其它节点i到n的节点接 收的输入值,在节点属于输入层时表示数据库的输入数据。
wi到wn表示应用到各连接的权重,沿所述连接,节点从其它节点接收 输入值。
F表示节点的另一个单元,其中对已经经过第一变换步骤的输入值进 行非线性变换步骤,并提供由y表示的节点的该输出值。
如果所示出的节点为输入层或隐藏层的节点,通过加权连接将输出值 传输到下一层的每一个节点或特定数目的节点,所述下一层可以是隐藏层 或输出层,而如果所示出的节点是输出层的节点,Y表示该节点对通过网 络计算出的输出数据的组成分量。
根据本发明的人工神经网络对处理数据的基本思想是,对各节点提供 插在各输入和求和单元∑之间的接收器单元R。在对输入组成分量求和得 到将要通过非线性函数变换的值之前,接收器单元R以非线性方法将由节 点从各输入节点接收的输入适当变换,其中非线性函数是通过第二步骤变 换单元F应用的函数。接收器单元R的意义在于,类似于生物有机体中通 过化学端口相对电压端口的作用,对输入值引入定量-定性处理,替代对其 的纯定量处理。通过利用正弦函数获得变换的定性方面。对于输入空间的 各第i个坐标,这允许通过坐标值的空间位置,引入各第i个变换值对于给 定波长的空间波的相关性。然后将乘以波长的输入坐标值变换成相同的值。 在对实施例的以下说明中显然的是,在人工神经网络的学习阶段期间,调 谐各输入接收器上的波长。
在根据本发明的人工神经网络中,各节点对其输入的非线性变换进行 非线性变换。通过参考图3考虑以上限定的变量术语,描述该变换的函数 如下述表示:
x j [ s ] = F ( G ( w ji [ s ] , x i [ s - 1 ] ) ) - - - ( 4 )
这里,非线性变换F(·)仍是类似例如S形的函数,而G(·)也是非 线性函数,其可以被定义为对非单调正弦处理的加权输入的求和:
G ( w ji [ s ] , x i [ s - 1 ] ) = Σ i = 0 n sin ( w ji [ s ] · x i [ s - 1 ] ) - - - ( 5 )
作为从(4)和(5)获得的结果,在根据本发明的人工神经网络中通过节 点对输入进行的变换通过下面的函数描述:
x j [ s ] = F ( Σ i = 0 n sin ( w ji [ s ] · x i [ s - 1 ] ) ) - - - ( 6 )
正弦函数引入了希望的定性处理。注意,在第s层的第j个节点的输入空 间的第i个坐标中,各权重wji[s]作为2π/波长参数。
还应注意,上文已经说明并且通过以上说明显然的是,根据本发明的 网络系列由非常普遍地定义的网络构成,对其节点的内部行为进行了深层 次修改。对节点的这种调整考虑了从输入的输出评价和学习阶段两方面。
下面将更详细地说明根据本发明的人工神经网络与所谓的反向传播的 神经网络的公知结构结合的实例。
所述人工神经网络具有如图4所述的多层结构。
反向传播神经网络根据所谓的梯度下降原理的公知原理进行操作(详 见Rumelhart D.E.,Hinton G.E.,and Williams R.J.,(1986),“Learning internal representations by error propagation”,in Rumelhart D.E.and McClelland J.L.,eds.(1986),Parallel Distributed processing:Explorations in the Microstructure of Cognition,Volume 1,318-362,Cambridge,MA: The MIT Press.1986)
作为根据本发明的人工神经网络的实例,根据本发明,对所述神经网 络应用由节点处理修正的梯度下降原理,并将详细分析控制神经网络的公 式,作为对在公式(5)中限定的节点处理的直接应用。该公式分两组给出: 用于从输入到输出的信号传输的公式(正向阶段公式)和用于学习阶段的 公式(学习阶段公式)。
下面的公式涉及根据本发明修改的具有多个隐藏层梯度下降的普通情 况。在图4中,示出了具有两个隐藏层的多层网络。注意到,仅仅在隐藏 和输出节点提供对输入进行第一变换步骤的第一非线性子步骤的接收单 元。
正向阶段公式
如公式(5)所示,对于普通(s)层,通过如下公式定义所谓的调和 (harmonic)网络输入:
I j [ s ] = 2 π n Σ i = 0 n sin ( w ji [ s ] · x i [ s - 1 ] ) - - - ( 7 )
根据如下公式计算输出中的激活值:
x j [ s ] = f ( I j [ s ] ) = f ( 2 π n Σ i sin ( w ji [ s ] · x i [ s - 1 ) ) - - - ( 8 )
其中,对于激活函数f(Ij[s]), 可以使用常用变换,例如S形变换:
x j [ s ] = sigm ( I j [ s ] ) = 1 1 + e - I j [ s ] - - - ( 9 )
学习阶段公式
利用梯度下降原理:
Δ ji [ s ] = - lcoef · E w ji [ s ] - - - ( 10 )
利用常用的整体误差函数,例如均方误差:
E = 1 2 · Σ k = 1 m ( t k - x k [ out ] ) 2 - - - ( 11 )
为了评价各节点上的误差,根据下面的公式定义局部误差:
e j [ s ] = - E I j [ s ] - - - ( 12 )
从以上可得:
Δ ji [ s ] = - lcoef · E w ji [ s ] =
= - lcoef · E I j [ s ] · I j [ s ] w ji [ s ] = - - - ( 13 )
- lcoef · e j [ s ] · w ji [ s ] ( 2 π n Σ k sin ( w jk [ s ] · x k [ s - 1 ) ) =
= lcoef · e j [ s ] · 2 π n x i [ s - 1 ] · cos ( w ji [ s ] · x i [ s - 1 ] )
为确定权重校正值,需要计算局部误差ej[s]。
对于输出层:
e j [ out ] = - E I j [ out ] =
= - E x j [ out ] · x j [ out ] I j [ out ] = - - - ( 14 )
- ( I j [ out ] f ( I j [ out ] ) ) · ( x j [ out ] ( 1 2 Σ k = 1 m ( t k - x k [ out ] ) 2 ) ) =
= f ( I j [ out ] ) · ( t j - x j [ out ] )
对于其它层:
e j [ s ] = - E I j [ s ] =
= - E x j [ s ] · x j [ s ] I j [ s ] =
f ( I j [ s ] ) · Σ k ( E I k [ s + 1 ] · I k [ s + 1 ] x j [ s ] ) = - - - ( 15 )
- f ( I j [ s ] ) · Σ k ( - e k [ s + 1 ] · x j [ s ] ( 2 π n Σ h ( sin ( w kh [ s + 1 ] · x h [ s ] ) ) ) ) =
= f ( I j [ s ] ) · 2 π n Σ k ( e k [ s + 1 · w kj [ s + 1 ] · cos ( w kj [ s + 1 ] · x j [ s ] ) )
下文中,应用以上定义的人工神经网络,用于解决一些典型的神经网 络测试问题,并将获得的结果与根据现有技术状态的常规反向传播神经网 络相比较。
作为第一实例,通过根据本发明的人工神经网络解决非常简单的问题 (所谓的玩具问题),以强调一些基本特征和与其它算法的差异。
该第一实例是公知的称为XOR问题的简单数据集。该模型必须学习 在下表1中表示的XOR Boolean规则:   x1   x2  y   0   0   1   1   0   1   0   1  0  1  1  0
通过利用反向传播算法训练的所谓的MLP网络,对由根据本发明的 人工神经网络获得的结果进行了比较。用于该测试的MLP网络是常规反 向传播算法的加强变型,其在Semeion Research Centre被开发出,并且在 Buscema M.and Sacco P.L.(2000)“Feedforward networks in financial predictions:the future that modifies the present”,Expert Systems,Vol. 17(3),Agosto,Blackwell,Oxford UK.Pp.149-170.2000中进行了描述。
明显地,两种网络都能够收敛到正确的解,因此已分析了解的质量和 收敛速度。
图5示出了反向传播网络的典型解,其中两个超平面将空间划分为三 个区域。很明显,在图7所示的由根据本发明的网络建立的典型解与图5 的解之间存在很大差异。根据本发明的人工神经网络的结构呈现类似于某 种“聚类输入(clustering input)”神经结构,如RBF网络(图6)的局 域特性。该特性是由输入与隐藏层之间的连接的非单调函数引起的。
关于收敛速度,由表2很明显,与反向传输神经网络相比,根据本发 明的人工神经网络具有良好的性能。这可能部分由通过非线性和非单调权 重进行的“聚类阶段(clustering phase)”引起。   BP   SN   平均值   标准偏差   94.47059   109.3281   50.61111   67.78612
表2的比较是关于利用20次试验,训练次数(epoch)中对XOR问 题的收敛速度,其中两种网络在收敛之前停止两次(局部极小)。
对根据本发明的网络测试的第二个简单问题是所谓的“螺旋问题”, 图8图解示出了其数据库。
将该数据库提交给利用具有100个隐藏单元的反向传播网络和具有30 个隐藏单元的根据本发明的网络的计算。另外,在该实验中,对解的质量 和收敛速度进行了评价。
这次存在类似的间隔(separation),其中与在通过常规反向传播网络 计算的解中获得的空间间隔相比,根据本发明的神经网络的解呈现更平滑 的解。
图9图解示出了利用根据本发明的网络计算的双螺旋问题的解。
图10图解示出了利用常规反向传播网络计算的双螺旋问题的解。
在该试验期间,注意到根据本发明的算法关于其权重初始化范围的有 趣的算法特性。从图11a到11d显然的是,随着权重初始化范围的增大, 螺旋问题的解存在逐渐增大的粗糙度,以及更快的收敛。这表示,通过利 用权重初始化的不同范围,可以控制根据本发明的网络的逼近和泛化 (generalisation)特性之间的权衡。
在图11a中,利用(-1:+1)之间的随机初始化范围训练根据本发明的 网络约5000次。获得了约为0.201的在训练集合上的RMSE值以及在双 螺旋之间平滑的间隔。如果将权重的所述初始化范围增大至(-π:+π)的 范围(图11b),在训练次数为3000时获得了相同的RMSE值,并且解 的平滑度仍是合适的,但是当使用(-10:+10)以及更大的范围时,仅仅 出现初始问题的一些阴影(shadow),最后得到对训练集合的逐点插值。
从而可以说,利用根据本发明的网络,可以获得敏感参数,以选择经 训练的模型的插值/泛化特性。这将是有用的,但是如果没有确定正确的使 用范围的方法,将具有一些缺陷。似乎这里为限定隐藏单元的合适数目已 经解决了神经网络文献中的历史问题,尤其在反向传播算法方面(见 Geman,S.,Bienenstock E.and Doursat R.,(1992),“Neural Networks and the Bias/Variance Dilemma”Neural Computation,4,1-58,1992)。
相反,对于隐藏单元数目,这里对该值存在“几乎总是真”的设置, 其为范围(-π:+π),显然这是一个完整的正弦周期。由于将输入归一化 为0到1之间,该选择在这里示出的全部实验中以及证实该公开中示出的 结果的其它实验中都导致最好的结果。
另一个螺旋识别问题是具有192个点的螺旋。这是难于上一个问题的 问题。图12示出了该测试的结果,在该图中图解示出了根据本发明的网络 对困难任务的收敛能力。
在分析根据本发明的人工神经网络的行为中,从权重的观点值得强 调该行为。通过简单的定则 sin ( x ) xperx [ 0,2 ] , 显然的是,利用小权重, 根据本发明的网络的连接将其自身变换为根据现有技术的状态的较简单的 反向传播网络连接。
值得注意的是,根据本发明的人工神经网络如何在从简单到较难的问 题中学习时使用对权重连接的非线性。在后面的附图中,示出了利用[0,1] 的输入范围和在公式(5)中的求和补遗(addenda)表征根据本发明的人 工神经网络中的各单个连接的函数图。
在图13中,示出了从输入到隐藏节点的正弦权重,这里与根据现有技 术状态的反向传播网络的简单线性关系的差异不是很大,但是分析从隐藏 到输出节点的权重(如图14所示),对于根据本发明的人工神经网络的行 为,明显呈现连接的非线性和非单调行为。
在图15和16中,示出了输入-隐藏和隐藏-输出权重的函数。增加所 面对的问题,即64螺旋问题的复杂性,可以看出,根据本发明的人工神经 网络对连接利用更高的非线性,从而加重了与对连接利用线性关系的网络 的差异。
下文中,通过对两个实数和复数的数据库的试验,分析了根据本发明 的神经网络的行为和常规反向传播神经网络的行为。
这两个另外实例的数据库可以从互联网上获得,选定的数据集为:
-从University of Wisconsin Hospitals,Madion的Dr.William H. Wolberg获得的乳癌数据库;
-可从Statlog计划中获得的澳洲信用积分数据库
为对该数据集进行分析,选择交叉确认(cross-validation)方法。如 在文献中要求的,对于乳癌DB,选择9次交叉确认,而对澳洲信用积分 DB,选择10次交叉确认。
使用K次交叉确认是由于伴随所谓的数据集的文献的明确要求。因为 该方法可能不善于算法性能比较中的第一种误差,因此还进行半采样交叉 确认,其证实了这里示出的结果。
乳癌数据库
下面简单概括该数据库的特征:
库名:Wisconsin Breast Cancer Database
实例数:699
属性数:10+类型属性(良性,恶性)
类型分布:良性:458(65.5%)-恶性:241(34.5%)
对于反向传播网络,网络配置为,S形激活以及Softmax函数用于输 出节点,一个节点用于恶性类型,一个节点用于良性类型。(详见 Mangasarian O.L.and Wolberg W.H.,(1990),“Cancer diagnosis via linear programming”,SIAM News,Volume 23,Number 5,September 1990, pp1&18)。
对于根据本发明的人工神经网络使用相同的配置。
使用了两种方法。第一种方法是9次交叉确认,其中在训练集中有629 次观测和在预测中有70次观测,以分析根据本发明的网络关于过度拟合特 性的能力,以及第二种方法是9次交叉确认方法,获得对调谐集的629次 观测和对预测集的70次观测;将调谐集分成训练集(315)和测试集(314), 以进行“早期停止”方法,来减少过度拟合现象,如在Sarle W.S.(1995), “Stopped Training and Other Remedies for Overfitting”,Proceedings of the 27th Symposium on the Interface,1995中更详细描述的内容。
在第一实验期间,测试了包括4、8、12和16个隐藏单元的四种不同 的网络结构,以评价对隐藏单元数目的结果敏感度。
下表示出了对乳癌数据集的精度加权平均:   模型   隐藏   Bp   SN   04   08   12   16   0.9525   0.9481   0.9519   0.9543   0.9612   0.9662   0.9660   0.9648
下表示出了乳癌数据集的精度方差:   模型   隐藏   Bp   SN   04   08   12   16   0.0083   0.0106   0.0095   0.0097   0.0072   0.0070   0.0078   0.0076
在两个表中以及多个附图中,将根据本发明的人工神经网络表示为SN 或SN网络或正弦网络,而将根据现有技术状态的常规反向传播网络定义 为Bp。
对于绝对性能,根据本发明的网络在所有配置中都获得更好的结果, 还获得了方差更低的结果。这表示,与常规反向传播网络相比,根据本发 明的网络关于过度拟合更可靠。另外,显然的是,在根据本发明的网络中 结果的变化性低于常规反向传播网络。该事实强调了,根据本发明的网络 对隐藏单元的数目敏感度较低。
图17图解示出了该结果,其中示出了在相对于对隐藏单元数目的校正 的第一试验期间,常规反向传播网络与根据本发明的网络之间的比较。
通过比较校正隐藏单元关于隐藏单元数目的加权平均,图18示出了常 规反向传播网络与根据本发明的网络对乳癌数据集的比较结果。
进行进一步实验测试,其中具有12个隐藏单元并利用“早期停止”。 该进一步实验测试证实了图18所示的结果。这里,反向传播网络具有比根 据本发明的网络更大的改善,强调了根据本发明的网络克服过度拟合的更 好的性能。
图19类似于图18地示出了利用“早期停止”,常规反向传播网络与 根据本发明的网络对乳癌数据集的比较结果。
澳洲信用积分数据库
库名:Australian Credit Approval
实例数:690
属性数:14+类型属性(良好/差)
类型属性:类型2:307(44.5%),类型1:383(55.5%)
该数据集涉及信用卡应用。使用两种方法检查该数据集。一种为具有 训练和预测的10次交叉确认,以及一种为利用早期停止克服过度拟合的具 有训练、测试和预测的10次交叉确认。该网络配置与乳癌实验相同。
图20和下表5中概括了隐藏单元数目为4、8、12、16的第一试验的 结果。   10次CV   隐藏   Bp   SN   04   08   12   16   0.8146   0.8333   0.7981   0.8220   0.8573   0.8449   0.8512   0.8525
表5示出了在第一试验期间并关于对隐藏单元数目的校正,常规反向 传播网络Bp与根据本发明的所谓的SN网络的网络之间的比较。
图20示出了表5的结果。
类似于前述实验测试,在第二试验中使用12个隐藏单元,并在表6 和图12中示出了与第一试验的结果的比较。   Tr-Pr   Tr-Ts-Pr   BP   SN   BP   SN   平均值   方差   0.8146   0.0022   0.8573   0.0018   0.8629   0.00337   0.8653   0.002411
表6概括了常规反向传播网络BP与根据本发明的网络SN对具有“早 期停止”(训练-测试-预测)和不具有“早期停止”(训练-预测)的 澳洲信用积分数据集的比较结果。图21示出了表6的结果。
在第一和第二试验之间的绝对结果和比较证实了利用乳癌数据集获得 的结果:即根据本发明的网络具有更好的结果,其方差较小,对于反向传 播网络,在第一和第二试验之间存在较大的校正差异,表明根据本发明的 网络关于过度拟合问题具有更好的性能。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用