用于预测建模的方法和系统转让专利

申请号 : CN201180059660.1

文献号 : CN103262069B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : C·林根菲尔德M·武斯特P·彭佩

申请人 : 国际商业机器公司

摘要 :

提供一种用于执行预测分析的方法(100),所述方法基于两条独立的信息,即,原始训练数据集合(Dorig)和指示指标的“真实”分布(Ptrue(X)),生成预测模型(Padj(Y|X))。所述方法(100)开始于根据包含指示指标(x)和相对应的标签(y)的元组(x,y)的原始训练集合(Dorig)生成基本模型分布(Pgen(Y|X))(步骤120)。使用指示指标的所述“真实”分布(Ptrue(X)),生成反映所述“真实”分布(Ptrue(X))的指示指标记录(x)的随机数据集合(D’)(步骤140)。随后,向所述随机数据集合(D’)应用所述基本模型(Pgen(Y|X)),因而向所述随机数据集合(D’)中的每个指示指标记录(x)分配标签(y)或者标签的分布,并且生成调整的训练集合(Dadj)(步骤150)。最后,基于所述调整的训练集合(Dadj)训练调整的预测模型(Padj(Y|X))(步骤160)。

权利要求 :

1.一种用于执行预测分析的方法(100),包括

-接收基于原始训练集合Dorig估计基本模型分布Pgen(Y│X)的基本模型Mgen,所述原始训练集合Dorig包含指示指标x和相对应的标签y的元组(x,y);其中指示指标x描述影响因子,并且其中相对应的标签y描述预测;

-接收包括至少一个关于实际的假设的逼近指示指标的真实分布的分布Ptrue(X);

-基于所述真实分布Ptrue(X)生成指示指标x的随机数据集合D’;

-向所述随机数据集合D’应用所述基本模型分布Pgen(Y│X),因而向所述随机数据集合D’中的每个指示指标x分配标签y或者标签的分布,并且生成调整的训练集合Dadj;

-基于所述调整的训练集合Dadj训练调整的预测模型Padj(Y│X),其中所述预测模型Padj(Y│X)代表基本模型分布Pgen(Y│X)和真实分布Ptrue(X)。

2.根据权利要求1所述的方法(100),其中所述接收基于原始训练集合Dorig估计基本模型分布Pgen(Y│X)的基本模型Mgen包括:-接收原始训练集合Dorig,所述原始训练集合Dorig包含指示指标x和相对应的标签y的元组;

-训练所述基本模型Mgen以基于所述训练集合Dorig估计所述基本模型分布Pgen(Y│X)。

3.根据权利要求1所述的方法(100),包括验证所述基本模型Mgen针对所述随机数据集合D’可靠地预测所述标签y或者所述标签的分布。

4.根据权利要求3所述的方法(100),其中所述验证包括:

-计算所述原始训练集合Dorig中的指示指标x的估计分布Pest(X);

-将所述估计分布Pest(X)与反映指示指标x的真实分布的所述真实分布Ptrue(X)进行比较;

-取决于所述估计分布Pest(X)与所述真实分布Ptrue(X)之间的差异而发出密度警告。

5.根据权利要求4所述的方法(100),其中所述验证包括:基于密度警告调整所述随机数据集合D’。

6.根据权利要求1所述的方法(100),其中所述生成所述调整的训练集合Dadj使用用于向所述随机数据集合D’中的每个数据点x分配标签y的蒙特卡罗仿真。

7.根据权利要求1所述的方法(100),其中所述生成所述调整的训练集合Dadj使用用于向所述随机数据集合D’中的每个数据点x分配标签概率的向量的分析方法。

8.一种包括用于执行预测分析的数据处理系统的计算机(200),包括:-基本模型训练系统(228),用于接收基于原始训练集合Dorig估计基本模型分布Pgen(Y│X)的基本模型Mgen,所述原始训练集合Dorig包含指示指标x和相对应的标签y的元组(x,y);

其中指示指标x描述影响因子,并且其中相对应的标签y描述预测;

-随机数据生成系统(230),用于接收包括至少一个关于实际的假设的逼近指示指标的真实分布的分布Ptrue(X),并基于所述真实分布Ptrue(X)的指示指标x的真实分布Ptrue(X)生成指示指标x的随机集合D’;

-分配系统(232),用于向所述随机数据集合D’应用所述基本模型分布Pgen(Y│X),因而向所述随机数据集合D’中的每个数据点x分配标签y或者标签的分布,并且生成调整的训练集合Dadj;

-调整的训练系统(232),用于基于所述调整的训练集合Dadj训练调整的预测模型Padj(Y│X),其中所述预测模型Padj(Y│X)代表基本模型分布Pgen(Y│X)和真实分布Ptrue(X)。

说明书 :

用于预测建模的方法和系统

技术领域

[0001] 本发明总体涉及预测建模。具体地说,本发明涉及使根据训练数据集合生成的现有预测模型适应于诸如特征的给定概率分布之类的附加信息。

背景技术

[0002] 预测建模是通过其创建或选择模型以尝试最佳地预测结果的概率的过程。通常,以检测理论为基础选择所述模型以尝试在给定输入数据的设定量的情况下猜测结果的概率(例如:给定电子邮件确定其有多可能是垃圾邮件)。因而,假定特征(指示指标)X的预定义的集合,预测建模的目标在于预测具体结果Y的概率P(Y|X)。可以将该任务看作是对于“真实”概率分布P(Y|X)的搜索,然而,这不是可直接观察的。相反,人们不得不尝试生成最佳分布,应该按照这样的方式选择该最佳分布以使得对特征X的基本分布P(X)的错误预测的风险被最小化。结果,实现良好预测,对于在应用领域中频繁出现的特征的组合应该给予高度关注,而可以忽略被预期为非常少发生的组合。
[0003] 实际上,无论是“真实”概率分布P(Y|X)或者特征的“真实”分布P(X)都并非完全已知。而是基于示例的训练集合来逼近它们。基本假设是,“真实”分布P(X)、P(Y|X)将像训练示例中的那些那样表现。然而,情况往往并非如此。而且,示例的训练集合可能是嘈杂的;在这种情况下,使模型完美地适应于训练数据将导致“过度适配”并且将产生没有精确地反映“真实”分布P(X)、P(Y|X)的模型。另一方面,特征的“真实”分布P(X)与实际应用域中的训练数据的分布不同可以是已知前提。例如,如果要生成预测给定疾病的扩散的模型,则训练数据会是错误的,因为可能仅标识了测试为正的人群的一小部分,而已知实际百分比要更高。在这种情况下,训练数据中正样本的分布没有反映被传染人群的“真实”分布。
[0004] 如果已知训练数据与实际真实世界的数据相比表现出不同的分布,则可以使用该知识来调整发现最佳预测模型的过程。具体地说,开发了能够考虑给定分布P(X)或P(Y|X)并且将其与训练数据进行组合的算法。结果是遵循由P(X)或P(Y)施加的约束并且仍然尽可能好地逼近训练数据的模型。
[0005] 如在US2008/0065572A1中所描述的那样,在标签Y的给定分布P(Y)的情况下,这可以通过使用成本敏感分类器来实现。这样的分类器受大多数最先进的预测分析工具(诸如IBM的SPSS软件或者IMB的InfoSphere Warehouse)的支持。
[0006] 如在Proceedings of the Third IEEE International Conference on Data Mining(2003)p.435ff中作者为B.Zadrozny等人的“Cost-Sensitive Learning by Cost-Proportionate Example Weighting”所描述的那样,在指示指标X的给定分布P(X)的情况下,这可以通过拒绝采样或者通过使用示例加权来实现。这样的方法仅支持产品等级上的一些算法;然而,可以相应地延伸大多数算法。
[0007] 所有这些算法假设关于实际的“真实”分布P(X)或P(Y)的信息是静态的、并且在模型训练过程开始之前已知。然而,经常期望能够向具有不同的基本“真实”分布P(X)的各种情形应用单一模型。而且,分析员将经常喜欢从假设(what-if)分析方面交互式地研究关于指示指标X的分布P(X)的不同假设的结果。在全部这些情形中使用单一的全局模型将具有严重的缺点:
[0008] -首先,所述模型在结构化风险的意义上将可能不是最佳的,因为一些情况在实际中可能比在训练集合中更加经常地多地发生、并且因而应该与其它情况相比被给出更高的关注。
[0009] -而且,所述模型可能是相当复杂的,尽管在应用领域中可能仅模型的小部分相关。
[0010] 可以通过针对每一个应用领域构建新的模型来解决这些问题。然而,该方案要求重度的计算付出,并且在大多数情况下,涉及相当长的响应时间,这使任务呈现为非交互式并且不允许用户交互式地试验关于“真实”分布P(X)的不同假设。而且,这在组织上提出了安全性风险,因为采用该模型并且使其适用于新应用的每个人都将需要获得到实际源数据的接入。
[0011] 因而,需要规避这些问题的预测建模方法。

发明内容

[0012] 本发明的目的在于提供一种预测建模方法,其能够基于描述指示指标和值之间关系的训练数据集合生成最佳分布,并且还结合通过指示指标的给定分布施加的约束。所述方法应该是计算高效的并且应该能够确保源数据的保密性。
[0013] 通过独立权利要求的特征实现这些目的。其它权利要求和说明书公开了本发明的有利实施例。
[0014] 根据本发明的第一方面,提供一种用于执行预测分析的方法。所述方法包括步骤:(1)接收基于原始训练集合估计基本模型分布的模型;(2)接收指示指标的给定“真实”分布;(3)基于所述指示指标的“真实”分布生成指示指标的随机数据集合;(4)向所述随机数据集合应用所述基本模型,因而向所述随机数据集合中的每个指示指标数据点分配标签或者标签的分布并且生成调整的训练集合;以及(5)基于所述调整的训练集合训练调整的预测模型。
[0015] 根据本发明的进一步方面,提供一种包括用于执行预测分析的数据处理系统的计算机。所述数据处理系统包括(1)基本模型训练系统,用于基于原始训练集合估计基本模型分布;(2)随机数据生成系统,用于基于指示指标的给定“真实”分布生成指示指标的随机集合;(3)分配系统,用于向所述随机数据集合应用所述基本模型,因而向所述随机数据集合中的每个指示指标数据点分配标签或者标签的分布,并且生成调整的训练集合;以及(4)调整的训练系统,用于基于所述调整的训练集合训练调整的预测模型的。

附图说明

[0016] 通过对附图中示出的实施例的下面详细描述,可以最好地理解本发明连同上面提及的以及其它的目的和优点,但是本发明并不局限于所述实施例,在附图中:
[0017] 图1a是用于基于训练数据Dorig和指示指标的“真实”分布Ptrue(X)生成预测模型的方法的优选实施例的示意性流程图;
[0018] 图1b是验证在图1a的方法中生成的数据集合的统计意义的方法步骤的示意性流程图;
[0019] 图2a是目的在于仿真用于发放贷款的市场战略的结果的预测模型Pgen(赌注贷款|收益,余额)的结果的图形表示;
[0020] 图2b是适用于具有高余额的战略目标客户的图2a的预测模型;
[0021] 图2c是适用于具有低收益的战略防止客户的图2a的预测模型;
[0022] 图3是用于基于训练数据Dorig和指示指标的“真实”分布Ptrue(X)生成预测模型的优选方法的计算机系统实现;
[0023] 在附图中,以相同的附图标记指代类似的要素。附图只是示意性表示,并不旨在描绘本发明的具体参数。而且,附图意在仅阐释本发明的典型实施例并且因此不应该认为附图限制本发明的范围。

具体实施方式

[0024] 图1a描绘了用于确定概率分布P(Y|X)的方法100的示意性流程图,该方法预测给定特征X的预定义集合的具体结果Y的概率。这里,X指代描述影响因子的变量(指示指标)的向量以及描述该预测的单个变量Y(值)。注意到,在下面,将通过术语“特征”指代变量X,“预测指标”和“指示指标”可互换;并且将通过术语“值”、“标签”或者“预测”来指代变量Y。全部变量可以是数值(numeric)或者分类(categorical)。如果值变量Y是分类,则该方法解决分类问题,如果值变量Y是数值,则该方法解决回归问题。可以按照类似的方式处理这两种情况。
[0025] 建模过程基于训练数据的原始集合Dorig;Dorig包含具有形式(x,y)的元组,其中x∈X(即,x是指示指标集合中的元素)并且y∈Y(即,y是值集合中的元素)。向量X的集合跨越指示指标的空间,并且Y值的集合跨越预测的可能值的空间。作为示例,如果Y代表客户的流失(churn),并且通过包含年龄和收入的向量x代表每一个客户,则代表具有$1000收入的20岁流失者的元组的示例将是:(<20,1000>,流失)。
[0026] 图1a示出了目的在于基于下面的两条信息利用最佳分布Padj(Y|X)训练预测模型的方法100的优选实施例:
[0027] 1.描述指示指标.X和值Y之间关系的原始训练数据Dorig集合,以及
[0028] 2.对可能指示指标的分布Ptrue(X)的真实本质的假设。该分布在不同的应用领域中可以不同。特别地,其可以与基于训练示例Dorig集合估计的分布Pest(X)明显不同。
[0029] 注意到,分布Ptrue(X)在精确地反映真实性的意义上不必是“真实”的;而是Ptrue(X)可以包含关于分析师可能选择研究的真实性的假设。因而,在该专利的框架中,采取术语“真实分布Ptrue(X)”以包括指示指标X的任何预定义分布(独立于其关于真实世界的有效性)。
[0030] 方法100通过接收基于训练数据的原始集合Dorig的、被描述为分布Pgen(Y|X)的基本模型开始(步骤120)。在图1a的优选实施例中,方法100从训练数据Dorig集合着手(步骤110)以创建被称为“基本模型”的分布Pgen(Y|X)(步骤115),该分布在不考虑指示指标X的分布P(X)的情况下捕获指示指标X和标签Y之间的关系。按照统计学意义、但是尽可能少地概括的方式来训练Pgen(Y|X)。Pgen(Y|X)应该捕获关于指示指标X和标签Y之间的关系的所有显著信息。取决于使用的模型分类,这可以按照不同的方式来实现。例如,如果使用决策树一一在每一个叶子节点中包含最小数量的记录并且代表与全局的明显偏差的树,则将训练先验预测。对于SVM(支持向量机)模型,将相应地增加容量,等等。
[0031] 除了训练数据Dorig,方法100还考虑表征分析员想要评估的给定应用领域或者场景的指示指标X的预定义分布Ptrue(X)(步骤130)。通常,用户将在相应应用领域中应用其认为是X的真实分布的分布Ptrue(X)。该分布可以是部分的,例如仅限定X内的单独变量的分布;在这种情况下,可以根据由基本模型Pgen(Y|X)生成的估计分布Pest(X)来获得用于全部剩余变量的分布(假设剩余变量独立于明确指定的变量)。
[0032] 基于Ptrue(X)这一假设,使用诸如蒙特卡罗仿真或者分析方法的概率评分器来生成数据点x的小随机集合D’(步骤140)。在那时,还没有标记D’的记录x。为了向数据集合D’的记录x分配标签y,向D’中的这些记录x应用基本模型Pgen(Y|X),用预测y来补充D’的每一个记录x,因而产生元组(x,y)形式的新的训练数据Dadj集合(步骤150)。因而对照Pgen(Y|X)对随机集合D’中的全部记录x进行评分,产生包含对于每一个记录x的预测的记录的集合Dadj。该预测可以是单个标签y或者是标签上的分布。在第一种情况下,Dadj是能够随后与任何预测挖掘算法一起使用以训练新预测模型Padj(Y|X)(步骤160)的记录的标记的集合(x,y),并且将该预测模型返回给用户。在第二种情况下,可以应用能够利用包含对于每一个记录x的标签的分布的训练数据的扩展预测挖掘算法;这对于例如朴素贝叶斯和决策树的几个不同算法能够容易地被实现。
[0033] 由于基于基本模型Pgen(Y|X)生成数据Dadj并且使其适用于真实分布Ptrue(X),因此根据Dadj估计的新预测模型Padj(Y|X)尽可能多地代表这两个分布。
[0034] 注意到,方法100的步骤110和120仅执行一次,而在对真实分布Ptrue(X)的假设改变的情况下(即,在用户认为Ptrue(X)应该进行适应,或者将要研究不同种类的分布Ptrue(X)的情况下),则随后的步骤130-160可以执行若干次。
[0035] 上面概述的方法100可以得出对于任意x进行预测的模型。然而,推荐验证步骤以确保生成的模型对于给定的指示指标x实际上产生统计学意义的预测。例如,如果原始数据集合Dorig不包含具有小于10岁的年龄的个体的任何记录,则生成的模型不具有任何统计基础以在该领域进行概括。在这种情况下,对于具有小于10的年龄的个体使用生成的模型将产生不可靠的预测。因此,必须进行一种机制,该机制使用户能够确保在并非统计学意义的情况下通过在训练数据Dorig的区域进行概括而不扭曲模型。
[0036] 为了实现这点,应用验证步骤170以用于验证基本模型Mgen对于(如在步骤140中生成的)随机数据集合D’产生可靠预测。在图1b中说明了步骤170的细节。一旦生成了样本数据集合D’(步骤171),从基本模型Pgen(Y|X)提取密度模型Pest(Y|X)(步骤172)。密度模型Pest(Y|X)是基于训练数据Dorig的分布对每个区域中的数据点x的概率的估计,并且因而基于原始训练数据Dorig对输入空间的哪些部分被良好覆盖提供可靠证据。可以通过运行集群算法或者通过使用诸如OneClass SVM之类的密度估计器来生成Pest(X)。
[0037] 训练集合中Pest(X)的密度估计被用于确保生成的示例仅覆盖变量空间中模型可以针对其进行显著预测的那些部分。这通常要求变量空间中的这些部分至少包含一些最小数量的原始数据点。因而,测试真实分布Ptrue(X)以查看其是否与其中存在统计学意义的数量的点的Pest(X)的区域相匹配。如果发现Ptrue(X)与呈现充分密度的Pest(X)的域相匹配,则在步骤171中生成的样本数据集合D’被用于计算训练数据Dadj(步骤150)并且用于训练新的预测模型Padj(Y|X)。另一方面,如果对于具有高于预定义阈值的密度的随机数据集合D’的某一子集S,Pest(S)中包含的密度小于某一阈值,则将丢弃子集S内的全部数据点,因而生成仅包含对于其有可能进行可靠预测的数据点的新的随机数据集合版本D”(步骤175)。发出通知用户该模型不能充分适配到Ptrue(X)的警告(步骤176),即,在变量空间的这些部分中,不能修改该模型。用户也可以接收被丢弃的数据点的列表。用户可以主动地决定忽略这些警告(即,继续原始(步骤140)生成的样本数据集D’(步骤174),或者接受改变并且使用重新调整的数据D”作为用于计算训练数据Dadj(步骤178)和用于训练新的预测模型Padj(Y|X)的输入)。
[0038] 如果模型已经包含一种用于为每个预测提供置信度的机制,则这可以在方法100的步骤170中使用以从不可能进行可靠预测的D’去除数据点并且发出相对应的警告。
[0039] 注意到,步骤150利用向每个记录x分配概率分布的概率评分器。这需要在生成调整的训练集合Dadj的过程中进行反映,在第一优选实施例中,调整的训练集合Dadj利用蒙特卡罗仿真过程。对于分类模型应用蒙特卡罗仿真并未在所有情况下都分配最可能的预测,而是使用针对每一个分类标签的模型置信度分配通过随机试验生成的标签。在回归模型的情况下,替代预期的值(正常模型预测),执行的是随机试验,该随机试验根据包含在模型中的概率分布分配值,通常正态分布具有已知的均值和方差。
[0040] 备选地,可以使用分析方法以用于向随机数据集合D’中的每个数据记录x分配标签概率的向量。根据对于每个预测的标签的置信度值或者误差分布来生成标签概率。在分类的情况下,向每个记录x分配一个或多个数字置信度(而不是唯一的分类标签)。如果原始模型是回归模型,则向每个记录分配概率分布,捕获预测中的不确定性。为了基于这样的训练集合构建预测模型,可以使用增强的预测建模过程,该增强的预测建模过程考虑标签分布而不是针对每个记录的单独标签。一个示例可以是直接使用标签概率以获得最终预测模型的朴素贝叶斯算法。
[0041] 如上面提及的那样,按照这种方式生成的数据点位于根据Pest(X)非常不可能的区域中。对于这些情况,Pgen(Y|X)将不会可靠地代表输入空间的该部分。因而,如果生成的记录x位于非常不可能的区域中,则将其从D’中省略(步骤175)并且向用户发出警告(步骤176)。用户可以继而选择改写该决策(步骤177)。按照这种方式,可以移除对于不可能有可靠预测的全部记录x(例如在迭代环中)。
[0042] 方法100代表用于生成训练数据的调整的集合Dadj的非常快速而有效的方式:由于需要生成的示例(x,y)的数量非常小,两个步骤(应用“基本模型”的步骤150和根据标记的示例(x,y)生成新的模型Padj(Y|X)的步骤160)非常有效并且能够实时执行。这为用户提供交互地尝试针对指示指标分布Ptrue(X)的不同设置、并且使模型快速地适应于新的应用领域的能力。其中,这允许用户将预测分析与交互的“假设”分析进行组合以便基于对情形的不同假设来快速研究决策模型的结果。
[0043] 注意到,对于执行这一种类的探索和研究,用户不要求访问源数据Dorig,因为方法100的步骤150和160并不要求到Dorig的任何访问而是仅依赖根据Dorig生成的“基本模型”Pgen(Y|X)。因而,可以通过由宽范围的用户执行步骤150、160而不必担心保密问题。而且,可以将方法100与任何数据挖掘算法组合,使其高度灵活并且可应用于宽范围的应用场景。
[0044] 图2a-图2c示出了说明方法100的应用的示例。假设银行在尝试构建用于基于客户的年收入及他的当前余额决定向该客户发放贷款是否盈利的模型。假设该银行具有位于呈现不同收入和余额再分配(repartition)的区域中的各种分支机构。
[0045] 图2a图示了在全部分支机构上加总的客户数据Dorig的实际再分配。图2a示出了其中轴线与指示指标的集合X=(收入;余额)相对应,并且值Y(发放贷款)是类别(是或者否)、并且由符号点(bullet)的颜色代表的平面图,亮符号点对应于否,暗符号点对应于是。假设基于该数据,银行生成目的在于仿真不同市场策略的结果的高度复杂的模型Pgen(赌注贷款|收入,余额)。为了执行这些仿真,分析员希望交互地获得代表应用给定策略的结果的模型Padj(赌注贷款|收入,余额)。每个策略(例如目标在于具有高收入的客户,防止向具有低余额的客户贷款,等等......)可以被仿真为产生数据的新的再分配。例如,目标在于具有高收入的客户的策略暗含着银行将将其注意力集中于具有较高收入的新的客户部分。以此类推,防止向具有低收入的客户贷款的策略暗含着银行将将其注意力集中于具有较高余额的新的部分。这些策略中的每个将假设客户收入和/或余额的指示指标分布Ptrue。使用上面概述的方法100,能够学习新的调整的模型Padj(赌注贷款|收入,余额)以使分析员可视化每个策略对贷款提供的含义。
[0046] 例如,目标在于具有高收入的客户的策略产生图2b中所示的再分配Dadj。该特定再分配Dadj产生下面的贷款发放模型:
[0047] -“如果余额≤$11613,则概率100%的否应用于客户的17%”
[0048] -“如果余额>$11613,则概率98%的是应用于客户的83%”
[0049] 防止具有非常低余额的客户获得贷款的不同策略产生如图2c所示的不同的再分配Dadj。该特定再分配Dadj产生下面的贷款发放模型:
[0050] -“如果收入≤$15102/年,则概率100%的否应用于客户的38%”
[0051] -“如果收入>$15102/年,则概率90%的是应用于客户的62%”.
[0052] 与本领域的采样方法(在计算上非常开销密集并且因此缓慢)相对,这里呈现的方法100足够有效以允许各种可能策略的交互研究。而且,由于分析员在使用人工生成的数据Dadj,因此在整个仿真过程中确保了包含关于真实顾客的信息的原始数据Dorig的安全。
[0053] 作为进一步示例,假设银行具有位于呈现不同收入和余额再分配的区域中的不同分支机构、并且分析员生成以仿真可收益贷款的模型太过于复杂和一般化而不能够由分支机构中的员工应用。在这种情况下,使用上面呈现的方法100,分析员能够为每个分支机构生成特定于该特定分支结构的收入和余额再分配Ptrue(收入,余额)的修改的模型Padj(赌注贷款|收入,余额)。例如,其中顾客倾向于具有高收入的分支机构会接收例如下面的模型:
[0054] -“如果余额≤$11613,则概率100%的否应用于客户的17%”
[0055] -“如果余额>$11613,则概率98%的是应用于客户的83%”,
[0056] 而其中人们往往具有低收入的区域中的分支机构将接收诸如下面的模型:
[0057] -“如果收入≤$15102/年,则概率100%的否应用于客户的38%”
[0058] -“如果余额>$15102/年,则概率90%的是应用于客户的62%”
[0059] 这些模型Padj(赌注贷款|收入,余额)比原始生成的模型更简单并且仅包含与针对其生成的具体分支机构相关的信息。方法100在计算上有效的事实使得能够以非常低的计算开销更新这些具体模型Padj(赌注贷款|收入,余额)。而且,方法100还确保该分支机构的员工不能推断真实客户信息,因为他们只能够访问基于人工数据Dadj生成的模型。而且,生成的(基本)模型Pgen用于计算这些对于各自分支机构调整的模型Padj。由于基于全部银行的客户(与其原始分支机构无关)训练该基本模型Pgen,因此也考虑源自银行的其它分支机构的数据的相关信息以改善为特定分支机构生成的具体模型的质量。
[0060] 本发明(除了银行之外)的另一优选应用是在制造领域。例如,假设生产工程师希望依赖于工件的特征、环境温度和湿度以及其它影响因素来预测机器工具在处理工件时故障的概率。可以对机器工具直接部署这样的模型以发出警告。
[0061] 为此,可以采集历史数据。随后,将根据该数据创建通常非常复杂的基本模型,捕获能够影响机器工具故障的许多模式。然而,在给定的生产位置,某些工件材料和/或环境条件可能从不发生,而其它工件材料和/或环境条件可能是主导的。方法100提供使预测模型适于在给定生产位置处改变条件的非常容易而灵活的方式。注意到,可以在来自该生产位置的将反应该改变的任何新数据可用之前部署新的模型。而且,用于警告机器工具的预测模型最可能比基本模型更加简单并且更加容易部署。
[0062] 现在参照图3,示出了根据本发明优选实施例的计算机系统200实现。具体地说,本发明可以实现为计算机系统200和/或用于基于数据的原始训练集合Dorig定和指示指标的具体分布Ptrue执行预测分析的程序产品.这允许例如分析员的用户240按照考虑原始训练集合Dorig和具体分布Ptrue二者的方式生成修改的模型。
[0063] 如所描绘的,计算机系统200通常包括存储器212、输入/输出(I/O)接口214、中央处理单元(CPU)216、外部设备/资源218、总线220和数据库250。存储器212可以包括任何已知类型的数据存储和/或传输介质,包括磁介质、光介质、随机访问存储器(RAM)、只读存储器(ROM)、数据高速缓存、数据对象等等。而且,存储器212可以驻留于单个物理位置处,包括一个或多个类型的数据存储,或者可以按照各种形式跨多个物理系统分布。CPU216可以同样包括单个处理单元,或者跨一个或多个位置中(例如在客户端和服务器上)的一个或多个处理单元分布。I/O接口214可以包括用于交换来自外部源的信息的任何系统,例如键盘、显示器、指点设备等等,并且可以或者直接或者经过介于之间的I/O控制器耦接到计算机系统200。外部设备218可以包括任何已知类型的外部设备,包括键盘、鼠标、语音识别系统、打印机、监视器、传真机等等。总线220提供计算机系统200中每一个部件之间的通信链路,并且可以同样包括任何已知类型的传输链路,包括电、光、无线等等。此外,尽管未示出,但是诸如高速缓冲存储器、通信系统、系统软件等等的附加部件可以结合到计算机系统200中。网络适配器也可以耦接到系统以经过介于之间的私有或者公共网络使能数据处理系统或者远程打印机或者存储设备。调制解调器、电缆调制解调器和以太网卡只是当前可获得类型的网络适配器中的几种。
[0064] 数据库250提供对于执行本发明必需的信息的存储。这样的信息可以例如包括数据的原始训练集合Dorig、指示指标的具体分布Ptrue等等。数据库250可以包括一个或多个存储设备,诸如磁盘驱动或者光盘驱动。在另一实施例中,数据库250包括例如跨局域网(LAN)、宽域网(WAN)或者存储区域网络(SAN)上分布的数据。也可以按照本领域的普通技术人员可以将其解释为包括一个或多个存储设备的方式来配置数据库250。而且,应该理解的是,数据库250可以备选地存在于计算机系统200内。
[0065] 存储器212中存储的是逻辑系统226。如所阐释的,逻辑系统226通常包括两个模型训练系统228、234,随机数据生成系统(230)和分配系统(232)。本文示出的系统执行下面描述的功能:
[0066] -基本模型训练系统228用于基于包含元组类型(x,y)的原始训练集合Dorig估计分布Pgen(Y|X),其中x代表指示指标的向量并且y是标签;
[0067] -随机数据生成系统230用于基于接近指示指标x的真实分布的分布Ptrue(X)生成指示指标x的随机集合D’;
[0068] -分配系统232用于向所述随机数据集合D’应用代表Pgen(Y|X)的模型,因而向所述数据集合D’中的每个数据点x分配标签并且生成调整的训练集合Dadj;
[0069] -调整的训练系统(234)用于基于所述调整的训练集合Dadj训练预测模型Padj(Y|X)。
[0070] 本发明可以采取完全硬件实施例、完全软件实施例或者包含硬件和软件元件二者的实施例的形式。在优选实施例中,本发明实现在软件中,其包括但不局限于固件、驻留软件、微代码等等。
[0071] 另外,本发明可以采取计算机程序产品的形式,该计算机程序产品可从计算机可用或计算机可读介质中访问,该计算机可用或计算机可读介质提供用于由计算机或任何指令执行系统使用或者结合该计算机或任何指令执行系统使用的程序代码。出于该描述的目的,计算机可使用或者计算机可读介质可以是能够包含、存储、通信、传播、或者传输用于由指令执行系统、装置或者设备使用或者结合该指令执行系统、装置或设备使用的程序的任何装置。
[0072] 所述介质可以是电、磁、光、电磁、红外或半导体系统(或者装置或设备)或者传播介质。计算机可读介质的示例包括半导体或固态存储器、磁带、可移除计算机磁盘、随机访问存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前示例包括压缩盘只读存储器(CD-ROM)、压缩盘读/写(CD-R/W)和DVD。