一种基于深度学习的研究报告自动生成方法转让专利

申请号 : CN202011441359.4

文献号 : CN112434508B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄冬虹刘谢慧赵彤

申请人 : 清研灵智信息咨询(北京)有限公司

摘要 :

本发明提供了一种基于深度学习的研究报告自动生成方法,其包括:S1,获取需要生成的研究报告的模板以及对应的研究数据;S2,获取所述模板中的待填写项目;S3,基于所述待填写项目,获取对应的深度学习神经网络模型以及从所述研究数据中获取相应的计算数据;S4,将所述计算数据输入到所述深度学习神经网络模型中,得到计算结果;S5,将所述计算结果填入到所述待填写项目中;S6,重复步骤S2‑S5,直到所有的待填写项目被填写完毕,从而得到研究报告。与现有技术比,本申请的研究报告的生成速度更快,而且准确度相应地也更高,因为人工计算的方式,难免会有输入错误的时候,而通过直接从数据库中获取的方式,能够很大程度上避免这种错误的发生。

权利要求 :

1.一种基于深度学习的研究报告自动生成方法,其特征在于,其包括:S1,获取需要生成的研究报告的模板以及对应的研究数据;

S2,获取所述模板中的待填写项目;

S3,基于所述待填写项目,获取对应的深度学习神经网络模型以及从所述研究数据中获取相应的计算数据;

S4,将所述计算数据输入到所述深度学习神经网络模型中,得到计算结果;

S5,将所述计算结果填入到所述待填写项目中;

S6,重复步骤S2‑S5,直到所有的待填写项目被填写完毕,从而得到研究报告;

所述研究数据包括数据项目的名称和所述数据项目的具体数值,所述研究数据存储通过扫描输入的方式输入到数据库中,具体包括:扫描记载所述研究数据的纸质文件,得到扫描图像;

对所述扫描图像进行文字识别,获得所述纸质文件上记载的数据项目的名称和所述数据项目的具体数值;

将所述数据项目的名称和所述数据项目的具体数值传输至所述数据库进行存储;

所述从所述研究数据中获取相应的计算数据,包括:所述待填写项目包括待填写的项目的名称以及填写区域;

将所述待填写的项目的名称与所述数据项目的名称进行匹配,将匹配成功的数据项目的名称对应的数据项目的具体数值作为计算数据;

所述对所述扫描图像进行文字识别,获得所述纸质文件上记载的数据项目的名称和所述数据项目的具体数值,包括:

对所述扫描图像进行灰度化处理,获得灰度图像;

对所述灰度图像进行降噪处理,获得降噪图像;

对所述降噪图像进行分割处理,获得只包含文字部分的前景图像;

采用OCR文字识别技术对所述前景图像进行文字识别,从而获得所述纸质文件上记载的数据项目的名称和所述数据项目的具体数值;

所述对所述扫描图像进行灰度化处理,获得灰度图像,包括:获取所述扫描图像在Lab颜色模型中的亮度分量L,对所述亮度分量进行如下处理:

式中,(x,y)表示坐标,L(x,y)表示坐标为(x,y)的像素点的亮度分量值,aL(x,y)表示坐标为(x,y)的像素点处理后的亮度分量值,aL表示处理后的亮度分量,a1+a2=1,a1和a2表示预设的权重参数,aveL(x,y)表示坐标为(x,y)的像素点的k×k大小的邻域中的像素点的亮度分量的平均值,miL(x,y)表示所述邻域中的像素点的亮度分量的最小值,neiL表示扫描图像中所有像素点在Lab颜色模型中的亮度分量的均值,δ表示控制系数,用于控制L(x,y)处于合理的取值范围,

将aL转换回RGB颜色模型,从而得到调节后的扫描图像;

对所述调节后的扫描图像进行灰度化处理,获得灰度图像。

2.根据权利要求1所述的一种基于深度学习的研究报告自动生成方法,其特征在于,所述将所述 计算结果填入到所述待填写项目中,包括:将所述计算结果填入到所述填写区域。

说明书 :

一种基于深度学习的研究报告自动生成方法

技术领域

[0001] 本发明涉及报告生成领域,尤其涉及一种基于深度学习的研究报告自动生成方法。

背景技术

[0002] 目前,各行各业都会用到各种研究报告,而对于同一行业来说,研究报告的框架基本是差不多的,主要是数据的不同以及数据计算结果的不同。各种类型的研究报告需求越
来越大,目前,仅靠人工对研究数据进行分析,然后撰写研究报告,显然不能快速得到所需
要的研究报告。

发明内容

[0003] 鉴于上述问题,本发明的目的在于提供一种基于深度学习的研究报告自动生成方法。
[0004] 本发明提供了一种基于深度学习的研究报告自动生成方法,其包括:
[0005] S1,获取需要生成的研究报告的模板以及对应的研究数据;
[0006] S2,获取所述模板中的待填写项目;
[0007] S3,基于所述待填写项目,获取对应的深度学习神经网络模型以及从所述研究数据中获取相应的计算数据;
[0008] S4,将所述计算数据输入到所述深度学习神经网络模型中,得到计算结果;
[0009] S5,将所述计算结果填入到所述待填写项目中;
[0010] S6,重复步骤S2‑S5,直到所有的待填写项目被填写完毕,从而得到研究报告。
[0011] 优选地,所述研究数据包括数据项目的名称和所述数据项目的具体数值,所述研究数据存储通过扫描输入的方式输入到数据库中,具体包括:
[0012] 扫描记载所述研究数据的纸质文件,得到扫描图像;
[0013] 对所述扫描图像进行文字识别,获得所述纸质文件上记载的数据项目的名称和所述数据项目的具体数值;
[0014] 将所述数据项目的名称和所述数据项目的具体数值传输至所述数据库进行存储。
[0015] 优选地,所述从所述研究数据中获取相应的计算数据,包括:
[0016] 所述待填写项目包括待填写的项目的名称以及填写区域;
[0017] 将所述待填写的项目的名称与所述数据项目的名称进行匹配,将匹配成功的数据项目的名称对应的数据项目的具体数值作为计算数据。
[0018] 优选地,所述将计算结果填入到所述待填写项目中,包括:将所述计算结果填入到所述填写区域。
[0019] 优选地,对所述扫描图像进行文字识别,获得所述纸质文件上记载的数据项目的名称和所述数据项目的具体数值,包括:
[0020] 对所述扫描图像进行灰度化处理,获得灰度图像;
[0021] 对所述灰度图像进行降噪处理,获得降噪图像;
[0022] 对所述降噪图像进行分割处理,获得只包含文字部分的前景图像;
[0023] 采用OCR 文字识别技术对所述前景图像进行文字识别,从而获得所述纸质文件上记载的数据项目的名称和所述数据项目的具体数值。
[0024] 与现有技术相比,本发明的优点在于:
[0025] 与人工撰写研究报告相比,本申请的研究报告的生成速度更快,而且准确度相应地也更高,因为人工计算的方式,难免会有输入错误的时候,而通过直接从数据库中获取的
方式,能够很大程度上避免这种错误的发生。而且人工计算成本高,效率也比较慢,并不能
快速得到所需要的研究报告。

附图说明

[0026] 利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得
其它的附图。
[0027] 图1,为本发明一种基于深度学习的研究报告自动生成方法的一种示例性实施例图。

具体实施方式

[0028] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0029] 参见图1实施例所示,本发明提供了一种基于深度学习的研究报告自动生成方法,其包括:
[0030] S1,获取需要生成的研究报告的模板以及对应的研究数据;
[0031] S2,获取所述模板中的待填写项目;
[0032] S3,基于所述待填写项目,获取对应的深度学习神经网络模型以及从所述研究数据中获取相应的计算数据;
[0033] S4,将所述计算数据输入到所述深度学习神经网络模型中,得到计算结果;
[0034] S5,将所述计算结果填入到所述待填写项目中;
[0035] S6,重复步骤S2‑S5,直到所有的待填写项目被填写完毕,从而得到研究报告。
[0036] 研究报告的模板,采用的是行业内的通用模板,即模板的结构基本一致,只是里面不同的项目所需要填写的数值不同。
[0037] 研究数据由研究人员收集得到,研究人员可以对研究数据进行初步的筛选,剔除明显超出正常范围的错误数据,以增强后续的研究报告生成的准确性。
[0038] 优选地,所述研究数据包括数据项目的名称和所述数据项目的具体数值,所述研究数据存储通过扫描输入的方式输入到数据库中,具体包括:
[0039] 扫描记载所述研究数据的纸质文件,得到扫描图像;
[0040] 对所述扫描图像进行文字识别,获得所述纸质文件上记载的数据项目的名称和所述数据项目的具体数值;
[0041] 将所述数据项目的名称和所述数据项目的具体数值传输至所述数据库进行存储。
[0042] 除了扫描输入之外,还可以是人工手动输入的方式,这种方式针对的是书写过于潦草,无法通过文字识别技术进行扫描的纸质文件。当然,如果研究数据是电子数据,那研
究人员可以直接上所述电子数据输入到所述数据库中,更加快速。
[0043] 优选地,所述从所述研究数据中获取相应的计算数据,包括:
[0044] 所述待填写项目包括待填写的项目的名称以及填写区域;
[0045] 将所述待填写的项目的名称与所述数据项目的名称进行匹配,将匹配成功的数据项目的名称对应的数据项目的具体数值作为计算数据。
[0046] 除此之外,还可以设置一个自动匹配模块,该模块的输入值是待填写的项目的名称,输出值是一个或多个数据项目的名称。研究人员可以根据实际需要对所述模块进行调
整,从而增加本发明自动生成研究报告的适应性。
[0047] 优选地,所述将计算结果填入到所述待填写项目中,包括:将所述计算结果填入到所述填写区域。
[0048] 优选地,对所述扫描图像进行文字识别,获得所述纸质文件上记载的数据项目的名称和所述数据项目的具体数值,包括:
[0049] 对所述扫描图像进行灰度化处理,获得灰度图像;
[0050] 对所述灰度图像进行降噪处理,获得降噪图像;
[0051] 对所述降噪图像进行分割处理,获得只包含文字部分的前景图像;
[0052] 采用OCR 文字识别技术对所述前景图像进行文字识别,从而获得所述纸质文件上记载的数据项目的名称和所述数据项目的具体数值。
[0053] 优选地,所述对所述扫描图像进行灰度化处理,获得灰度图像,包括:
[0054] 获取所述扫描图像在Lab颜色模型中的亮度分量L,
[0055] 对所述亮度分量进行如下处理:
[0056]
[0057] 式中,(x,y)表示坐标,L(x,y)表示坐标为(x,y)的像素点的亮度分量值,aL(x,y)表示坐标为(x,y)的像素点处理后的的亮度分量值,aL表示处理后的亮度分量,a1+a2=1,a1
和a2表示预设的权重参数,aveL(x,y)表示坐标为(x,y)的像素点的k×k大小的邻域中的像
素点的亮度分量的平均值,maL(x,y)表示所述邻域中的像素点的亮度分量的最小值,neiL
表示扫描图像中所有像素点在Lab颜色模型中的亮度分量的均值,δ表示控制系数,用于控
制L(x,y)处于合理的取值范围,
[0058] 将aL转换回RGB颜色模型,从而得到调节后的扫描图像;
[0059] 对所述调节后的扫描图像进行灰度化处理,获得灰度图像。
[0060] 扫描过程中容易出现亮度不均的情况,本申请上述实施方式,通过对不同的像素点自适应地进行亮度调节,能够根据当前处理的像素点周围的像素点的具体情况,对当前
处理的像素点进行准确的亮度调节,使得暗光部分得到增强,有利于为后续的灰度图像保
留更多的细节信息,从而提高文字识别的准确率。
[0061] 优选地,对所述灰度图像进行降噪处理,获得降噪图像,包括:
[0062] 对所述灰度图像中的像素点进行噪点检测,确定噪点;
[0063] 将噪点记为c,计算噪点c的e×e大小的邻域nei(c)中的像素点的梯度的标准差fc(c),若fc(c)小于预设的降噪阈值,则采用下述方式对噪点c进行降噪处理:
[0064]
[0065] 式中,ano(c)表示处理后的噪点c的像素值,f(g)表示nei(c)中的像素点g的像素值, numofnei表示nei(c)中的像素点的总数;
[0066] 若fc(c)大于等于预设的降噪阈值,则对所述噪点c使用下述公式进行降噪处理:
[0067]
[0068] 式中,no(c)表示噪点c的像素值,ano(c)表示处理后的噪点c的像素值,nei(c)表示噪点c的e×e大小的邻域中的像素点的集合,gs(d)=mod*d,mod表示对灰度图像进行高
斯滤波处理的模板,*表示卷积符号,d表示nei(c)中的元素,aveno(c)表示nei(c)中所有元
素的像素值的平均值,td(c)表示nei(c)中所有像素点的梯度幅值的标准差,fc(c)表示 
nei(c)中的像素点的标准差,di表示d和c之间的空间距离,f(d)表示d的像素值。
[0069] 通过对梯度的标准差的计算,可以初步判断nei(c)中的像素点的区别程度,若区别程度比较小,则采用nei(c)中的像素值的均值对c的像素值进行替换,从而达到降噪结
果,这种处理方式,速度比较快,而且由于区别程度小,降噪效果也很好。而当nei(c)中的像
素点的区别程度比较大时,则说明噪点的周边情况较为复杂,因此,充分考虑了噪点周边的
像素点与其在梯度幅值,空间距离等方面的联系,nei(c)中能够为不同的像素点赋予不同
的权重比例,从而实现准确的降噪,并且,还使用了高斯滤波模板作为权重值,对高斯噪点
也起到了较好的降噪效果。
[0070] 优选地,对所述灰度图像中的像素点进行噪点检测,确定噪点,包括:
[0071] 将当前正在处理的像素点记为i,对于像素点i,其r×r大小的邻域中的像素点的集合记为Ui;
[0072] 计算Ui中的每个像素点与像素点i的梯度幅值的差的绝对值:
[0073] abv(i,j)=|td(i)‑td(j)|,式中,j表示Ui中的一个像素点;abv(i,j)表示i和j的梯度幅值的差的绝对值;td(i)和td(j)分别表示像素点i和j的梯度幅值,
[0074] 选取最大的前ma个绝对值进行求和,获得判断参数:
[0075]
[0076] 式中,ad(i)表示i的判断参数,Uma表示所述最大的前ma个绝对值所对应的像素点的集合;b表示Uma中的像素点,td(b)表示像素点b的梯度幅值;
[0077] 将ad(i)与预设的噪点判断阈值进行对比,若ad(i)大于所述噪点判断阈值,则ad(i)为噪点,否则,ad(i)不是噪点。
[0078] 传统的噪点检测,仅是通过计算邻域内的灰度值的均值与当前处理的像素点进行比较,从而确定是否为噪点。这种处理方式,当邻域内存在多个噪点时,均值较大,噪点容易
漏检,而本申请通过对梯度幅值来检测,能够很好地避免这种问题的发生。
[0079] 尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的
范围由权利要求及其等同物限定。