自动化报表生成方法、装置、计算机设备及存储介质转让专利
申请号 : CN202110650664.2
文献号 : CN113283222B
文献日 : 2021-10-08
发明人 : 廖伯轩 , 张天一 , 郑天琦 , 王士鑫 , 钟坯平 , 单允赟 , 刘美汐
申请人 : 平安科技(深圳)有限公司
摘要 :
权利要求 :
1.一种自动化报表生成方法,其特征在于,包括下述步骤:获取目标报告的报告类型,以及存储的所有报表类型,通过特征工程将所述报告类型转换为标签向量,将所述报表类型转换为特征向量;
获取预设的目标预测模型,输入所述标签向量和所述特征向量至所述目标预测模型中,经过所述目标预测模型中的梯度提升决策树和逻辑回归模型计算得到每个报表之间的预测衔接概率;
按照所述预测衔接概率对所述目标报告的报表进行预测排序,得到排序结果,根据所述排序结果将所述目标报告中的报告内容与所述报表进行匹配,得到所述目标报告的优选报表;
其中,所述输入所述标签向量和所述特征向量至所述目标预测模型中,经过所述目标预测模型中的梯度提升决策树和逻辑回归模型计算得到每个报表之间的预测衔接概率的步骤具体包括:
输入所述标签向量和所述特征向量至所述目标预测模型中的梯度提升决策树中,经过所述梯度提升决策树的叶子节点输出得到离散特征,并对所述离散特征进行编码,得到编码特征;
对所述编码特征进行加权求和得到求和结果,输入所述求和结果至所述逻辑回归模型,计算得到所述预测衔接概率;
其中,所述获取预设的目标预测模型的步骤具体包括:获取预设的基础预测模型、历史标签数据、历史特征数据和历史交互数据;
根据所述历史标签数据、所述历史特征数据和所述历史交互数据对所述基础预测模型进行训练,得到所述目标预测模型;
其中,所述根据所述历史标签数据、所述历史特征数据和所述历史交互数据对所述基础预测模型进行训练,得到所述目标预测模型的步骤具体包括:选取第一预设个数的所述历史标签数据、所述历史特征数据和所述历史交互数据作为训练数据,选取预设第二预设个数的所述历史标签数据、所述历史特征数据和所述历史交互数据作为验证数据;
根据所述训练数据对所述基础预测模型进行训练,得到待优化模型,根据所述验证数据对所述待优化模型进行验证,在所述待优化模型对所述验证数据的验证通过率大于等于预设阈值时,确定所述待优化模型为所述目标预测模型。
2.根据权利要求1所述的自动化报表生成方法,其特征在于,在所述根据所述验证数据对所述待优化模型进行验证的步骤之后,还包括:在所述待优化模型对所述验证数据的验证通过率小于所述预设阈值时,获取预设的损失函数,根据所述损失函数调整所述待优化模型的参数大小,在所述损失函数收敛时,确定所述待优化模型的参数调整完成,得到参数调整完成的待优化模型;
根据所述验证数据对所述参数调整完成的待优化模型进行验证,在所述参数调整完成的待优化模型对所述验证数据的验证通过率大于等于所述预设阈值时,确定所述参数调整完成的待优化模型为所述目标预测模型。
3.根据权利要求2所述的自动化报表生成方法,其特征在于,所述根据所述损失函数调整所述待优化模型的参数大小的步骤具体包括:获取所述待优化模型对所述训练数据中的历史标签数据和历史特征数据计算得到的预测结果;
根据所述损失函数计算所述预测结果和所述历史交互数据的损失值,获取所述损失值对应的预设参数调整指令,根据所述预设参数调整指令对所述待优化模型的参数进行调整。
4.根据权利要求1所述的自动化报表生成方法,其特征在于,在所述得到所述目标报告的优选报表的步骤之后,还包括:将所述优选报表存储在区块链中。
5.一种自动化报表生成装置,其特征在于,包括:获取模块,用于获取目标报告的报告类型,以及存储的所有报表类型,通过特征工程将所述报告类型转换为标签向量,将所述报表类型转换为特征向量;
预测模块,用于获取预设的目标预测模型,输入所述标签向量和所述特征向量至所述目标预测模型中,经过所述目标预测模型中的梯度提升决策树和逻辑回归模型计算得到每个报表之间的预测衔接概率;
排序模块,用于按照所述预测衔接概率对所述目标报告的报表进行预测排序,得到排序结果,根据所述排序结果将所述目标报告中的报告内容与所述报表进行匹配,得到所述目标报告的优选报表;
其中,所述预测模块包括:
第一计算单元,用于输入所述标签向量和所述特征向量至所述目标预测模型中的梯度提升决策树中,经过所述梯度提升决策树的叶子节点输出得到离散特征,并对所述离散特征进行编码,得到编码特征;
第二计算单元,用于对所述编码特征进行加权求和得到求和结果,输入所述求和结果至所述逻辑回归模型,计算得到所述预测衔接概率;
获取单元,用于获取预设的基础预测模型、历史标签数据、历史特征数据和历史交互数据;
训练单元,用于根据所述历史标签数据、所述历史特征数据和所述历史交互数据对所述基础预测模型进行训练,得到所述目标预测模型;
其中,所述训练单元包括:
第一获取子单元,用于选取第一预设个数的所述历史标签数据、所述历史特征数据和所述历史交互数据作为训练数据,选取预设第二预设个数的所述历史标签数据、所述历史特征数据和所述历史交互数据作为验证数据;
第一验证子单元,用于根据所述训练数据对所述基础预测模型进行训练,得到待优化模型,根据所述验证数据对所述待优化模型进行验证,在所述待优化模型对所述验证数据的验证通过率大于等于预设阈值时,确定所述待优化模型为所述目标预测模型。
6.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述的自动化报表生成方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的自动化报表生成方法的步骤。
说明书 :
自动化报表生成方法、装置、计算机设备及存储介质
技术领域
背景技术
标做出经营方案的规划、及目标的追踪工作。而在通过报表对数据进行追踪时,往往是通过
人工绘制报表,尤其是当需要对大量的数据进行报表的生成时,更需要人工的反复筛选和
确定,由此最终导致报表生成效率低下的技术问题。
发明内容
的预测衔接概率;
优选报表。
接概率的步骤具体包括:
到编码特征;
史交互数据作为验证数据;
等于预设阈值时,确定所述待优化模型为所述目标预测模型。
确定所述待优化模型的参数调整完成,得到参数调整完成的待优化模型;
调整完成的待优化模型为所述目标预测模型。
调整。
到每个报表之间的预测衔接概率;
所述目标报告的优选报表。
执行所述计算机可读指令时实现上述自动化报表生成方法的步骤。
自动化报表生成方法的步骤。
量和标签向量可以对报表的预测衔接概率进行精确计算;之后,获取预设的目标预测模型,
输入标签向量和特征向量至目标预测模型中,经过目标预测模型中的梯度提升决策树和逻
辑回归模型计算得到每个报表之间的预测衔接概率,使得通过该预测衔接概率对目标报告
的报表进行精确推荐,进一步实现报表的自动生成;而后,按照预测衔接概率对目标报告的
报表进行预测排序,得到排序结果,根据排序结果将目标报告中的报告内容与报表进行匹
配,得到目标报告的优选报表,实现了对数据报表的自动化生成,提高了报表生成效率,进
一步实现了数据的智能可视化。
附图说明
普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明
中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说
明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用
于描述特定顺序。
的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和
隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
Group Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving Picture
Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携
计算机和台式计算机等等。
转换为标签向量。具体地,特征工程为将原始数据转换为模型可输入的初始参数数据的数
据转换方式,该特征工程包括线性归一化、类别编码和多个特征组合等特征数据转换方式。
在报告类型为字符串时,通过类别编码可以将报告类型转换为标签向量,其中,类别编码包
括序号编码、独热编码和二进制编码,通过序号编码、独热编码和二进制编码中的任意一种
方式,即可将报告类型转换为标签向量。以独热编码为例,独热编码是利用0,1表示的参数,
使用N位状态寄存器来对N个状态进行编码,在得到报告类型或报表类型时,通过独热编码
将报告类型或报表类型可直接转换为对应的标签向量或特征向量。
量,在此不再赘述。
个报表之间的预测衔接概率。
型结构,前一层的输出结果为下一层的输入数据。在得到标签向量和特征向量时,将该标签
向量和特征向量作为目标预测模型的输入数据,输入至目标预测模型中。该目标预测模型
为基础预测模型训练得到,基础预测模型与目标预测模型采用同样的结构,但模型的参数
不同。预先采集多组历史标签数据、历史特征数据和历史交互数据对基础预测模型进行训
练;根据每次的训练结果对基础预测模型的参数进行调整,每次的参数调整具体可根据训
练结果与对应的预设参数调整指令确定,不同的训练结果对应不同的预设参数调整指令。
该训练结果可以用基础预测模型计算得到的预测结果和历史交互数据的损失值表示,历史
标签数据则为历史存储的报告类型标签,历史特征数据为历史存储的报表类型数据,历史
交互数据为每个报告类型和报表类型的报告中报表的衔接数据。在参数调整后的模型对预
设的验证数据验证通过率大于等于预设阈值时,确定该参数调整后的模型为目标检测模
型。
是指每个报表之后出现另一个报表的概率值,如A报表之后出现B报表的概率值,B之后出现
C的概率值。在得到所有报表之间的预测衔接概率时,选取每个报表概率值最大的预测衔接
概率对应的报表为当前报表的下一个衔接报表。例如,A报表之后出现B报表的概率值为
0.5,A报表之后出现C报表的概率值为0.8,则选取0.8对应的报表C为当前报表A的下一个衔
接报表。
目标报告的优选报表。
测衔接概率最大,则A报表之后衔接B表,C报表对B报表的预测衔接概率最大,则B报表之后
衔接C报表,最终得到的排序结果则为A、B、C。在得到排序结果之后,根据该排序结果将对应
的报表与报告的内容进行匹配,最后即得到目标报告的优选报表。
之间的预测衔接概率包括:
到编码特征;
基础上进行训练,最终得到最优的一个决策树。逻辑回归模型为一种分类模型,通过逻辑回
归模型可以对物品进行性质的判断,预测物品与目标的适配性概率并对物品进行排序。在
本实施例中通过逻辑回归模型最终得到的预测结果即为报表与报表之间的衔接概率值。具
体地,梯度提升决策树的根节点到叶子节点的不同路径相当于不同特征的特征组合,每个
决策树的叶子节点可以唯一的表示一条路径,根据每个叶子节点路径输出即可以得到多个
不同的特征组合。在得到标签向量和特征向量时,将该标签向量和特征向量输入至梯度提
升决策树,通过该梯度提升决策树的每个叶子节点的路径输出得到多个离散特征。对该离
散特征进行独热编码,得到编码特征。之后,将每个叶子节点的编码特征进行线性加权求
和,得到求和值;输入该求和值至逻辑回归模型,经过该逻辑回归模型输出即得到预测衔接
概率。
始的预设参数设定,通过历史标签数据、历史特征数据和历史交互数据对该基础预测模型
中的初始的梯度提升决策树和初始的逻辑回归模型同时进行训练,即可训练得到最终的目
标预测模型。
数据,历史交互数据为每个报告类型和报表类型的报告中报表的衔接数据。根据该历史标
签数据、历史特征数据和历史交互数据输入至梯度提升决策树和逻辑回归模型中进行训
练,在历史标签数据、历史特征数据和历史交互数据对基础预测模型训练完成时,即得到目
标预测模型。
测模型对数据的预测准确率。
史交互数据作为验证数据;
等于预设阈值时,确定所述待优化模型为所述目标预测模型。
练数据中则包括第一预设个数的历史标签数据、历史特征数据和历史交互数据,验证数据
中则包括第二预设个数的历史标签数据、历史特征数据和历史交互数据。根据该训练数据
对基础预测模型进行训练,得到待优化模型,之后,根据验证数据对待优化模型进行验证,
在该待优化模型对验证数据的验证通过率大于等于预设阈值时,确定该待优化模型为目标
检测模型。
确定所述待优化模型的参数调整完成,得到参数调整完成的待优化模型;
调整完成的待优化模型为所述目标预测模型。
调整。
调整后的待优化模型作为下一次训练数据对应的待优化模型,直至根据该待优化模型计算
得到的损失函数收敛;在该损失函数收敛时,则确定此时的待优化模型的参数调整完成,得
到参数调整完成的待优化模型。根据验证数据对该参数调整完成的待优化模型进行校验,
在该参数调整完成的待优化模型对验证数据的验证通过率大于等于预设阈值时,则确定该
参数调整后的待优化模型为目标预测模型。若参数调整完成的待优化模型仍然对验证数据
的验证通过率小于预设阈值,则表示验证数据或训练数据的选取错误,重新选取新的验证
数据和训练数据对基础预测模型进行训练。
调整。
测结果和历史交互数据,根据该预测结果和历史交互数据的误差对基础训练模型的参数进
行调整,该误差即为根据该损失函数计算得到的损失值。根据该损失值获取对应的预设参
数调整指令,根据该预设参数调整指令即可对该待优化模型的参数进行增大或减小。
密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验
证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品
服务层以及应用服务层等。
取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储
介质可为磁碟、光盘、只读存储记忆体(Read‑Only Memory,ROM)等非易失性存储介质,或随
机存储记忆体(Random Access Memory,RAM)等。
的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一
部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻
执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他
步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
用于各种电子设备中。
转换为标签向量。具体地,特征工程为将原始数据转换为模型可输入的初始参数数据的数
据转换方式,该特征工程包括线性归一化、类别编码和多个特征组合等特征数据转换方式。
在报告类型为字符串时,通过类别编码可以将报告类型转换为标签向量,其中,类别编码包
括序号编码、独热编码和二进制编码,通过序号编码、独热编码和二进制编码中的任意一种
方式,即可将报告类型转换为标签向量。以独热编码为例,独热编码是利用0,1表示的参数,
使用N位状态寄存器来对N个状态进行编码,在得到报告类型或报表类型时,通过独热编码
将报告类型或报表类型可直接转换为对应的标签向量或特征向量。
量,在此不再赘述。
得到每个报表之间的预测衔接概率;
散特征进行编码,得到编码特征;
历史特征数据和所述历史交互数据作为验证数据;
数据的验证通过率大于等于预设阈值时,确定所述待优化模型为所述目标预测模型。
所述损失函数收敛时,确定所述待优化模型的参数调整完成,得到参数调整完成的待优化
模型;
阈值时,确定所述参数调整完成的待优化模型为所述目标预测模型。
待优化模型的参数进行调整。
型结构,前一层的输出结果为下一层的输入数据。在得到标签向量和特征向量时,将该标签
向量和特征向量作为目标预测模型的输入数据,输入至目标预测模型中。该目标预测模型
为基础预测模型训练得到,基础预测模型与目标预测模型采用同样的结构,但模型的参数
不同。预先采集多组历史标签数据、历史特征数据和历史交互数据对基础预测模型进行训
练;根据每次的训练结果对基础预测模型的参数进行调整,每次的参数调整具体可根据训
练结果与对应的预设参数调整指令确定,不同的训练结果对应不同的预设参数调整指令。
该训练结果可以用基础预测模型计算得到的预测结果和历史交互数据的损失值表示,历史
标签数据则为历史存储的报告类型标签,历史特征数据为历史存储的报表类型数据,历史
交互数据为每个报告类型和报表类型的报告中报表的衔接数据。在参数调整后的模型对预
设的验证数据验证通过率大于等于预设阈值时,确定该参数调整后的模型为目标检测模
型。
是指每个报表之后出现另一个报表的概率值,如A报表之后出现B报表的概率值,B之后出现
C的概率值。在得到所有报表之间的预测衔接概率时,选取每个报表概率值最大的预测衔接
概率对应的报表为当前报表的下一个衔接报表。例如,A报表之后出现B报表的概率值为
0.5,A报表之后出现C报表的概率值为0.8,则选取0.8对应的报表C为当前报表A的下一个衔
接报表。
到所述目标报告的优选报表。
测衔接概率最大,则A报表之后衔接B表,C报表对B报表的预测衔接概率最大,则B报表之后
衔接C报表,最终得到的排序结果则为A、B、C。在得到排序结果之后,根据该排序结果将对应
的报表与报告的内容进行匹配,最后即得到目标报告的优选报表。
密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验
证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品
服务层以及应用服务层等。
求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员
可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算
和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application
Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate
Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
机交互。
问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存
储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机
设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器
61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,
智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash
Card)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外
部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统
和各类应用软件,例如自动化报表生成方法的计算机可读指令等。此外,所述存储器61还可
以用于暂时地存储已经输出或者将要输出的各类数据。
算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的计算机
可读指令或者处理数据,例如运行所述自动化报表生成方法的计算机可读指令。
使所述至少一个处理器执行如上述的自动化报表生成方法的步骤。
前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质
(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服
务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻
全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其
依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进
行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他
相关的技术领域,均同理在本申请专利保护范围之内。