一种基于大数据环境下的多源数据聚合抽样策略转让专利

申请号 : CN201710673267.0

文献号 : CN107451282B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李保珍朱庆康杨刚余臻周可

申请人 : 南京审计大学

摘要 :

本发明公开了一种基于大数据环境下的多源数据聚合抽样策略,包括如下步骤:在GBK编码的多来源数据集的基础上,实现一个数据集内部多个属性融合以及不同来源数据集之间的融合,完成多源数据融合操作;将融合后的文件进行分词,形成文件词语的二维词频矩阵;展示高频词汇,供用户参考,进行滚雪球抽样所需种子根节点词语的随机游走性选择;选取业务目标导向的种子根节点关键词语,输入滚雪球抽样深度;在种子根节点数据的基础上,设定均衡校验数值,循环匹对各个词语,进行滚雪球抽样;构建有向无环图和邻接矩阵;实现业务目标相关的根节点聚类网络图及逻辑推理图。本发明可减少样本噪音对后续推理的干扰。

权利要求 :

1.一种基于大数据环境下的多源数据聚合抽样策略,其特征在于,包括如下步骤:准备阶段:输入多个渠道来源的初始数据集,并将这些数据集的编码统一设置为GBK编码,在文件的第一列采用ID属性来标识和区别不同来源和不同对象的数据;

S1、在GBK编码的多来源数据集的基础上,实现一个数据集内部多个属性融合以及不同来源数据集之间的融合,进而完成多源数据融合操作,生成“ronghe.csv”文件,其中,只保留ID列和content列数据,ID作为区别和标识不同数据的属性,content是由多源数据融合而成的文本内容;

S2、将融合后的文件进行分词,形成词语词频二维矩阵;

S21、代码自动导入停词表和用户词典文件,实现去停词和保留关键词操作,其中依据决策目标及场景特征不断优化用户词典和扩充停词表,注意保持文件编码与代码编码格式相一致,避免出现乱码问题,丧失原有的功能,影响基于业务目标的分词效果;

S22、使用Python的Jieba模块分词并计算形成统计词频的二维矩阵,保留两个字以上的词语同时舍去词频低于1次的词语;

S23、将字典和矩阵数值合并,形成二维矩阵;

S3、展示高频词汇,供用户参考,进行根节点词语选择;

S4、选取决策业务目标导向的种子根节点关键词语,输入抽样深度;

S5、在种子根节点数据的基础上,依据独特的均衡校验算法、设定相应的阈值,循环匹对各个词语,进行滚雪球抽样;

S6、构建有向无环图和邻接矩阵;

S61、输出网络的边;

S62、输出树形有向无环图;

S7、实现业务目标相关的根节点聚类网络图及逻辑推理图,包括一个主题的深度和多个主题的广度。

2.如权利要求1所述的一种基于大数据环境下的多源数据聚合抽样策略,其特征在于,所述初始数据集至少包括关于业务目标的社交媒体、新闻平台、专题网站、专利网站、人才招聘的数据资源。

3.如权利要求1所述的一种基于大数据环境下的多源数据聚合抽样策略,其特征在于,所述初始数据集的数据形式涉及数字、文本、图像、视频等结构化或非结构化数据,对于非结构化数据,采用深度学习技术将其进行分类及类别关键词的提取。

说明书 :

一种基于大数据环境下的多源数据聚合抽样策略

技术领域

[0001] 本发明涉及大数据领域,具体涉及一种基于大数据环境下的多源数据聚合抽样策略。

背景技术

[0002] 大数据环境下,决策目标相关的数据具有多源异态、异构关联、层次嵌套、动态演化等特征。决策目标导向的多源异构数据聚合及推理抽样技术,在风险预警、商机预测以及异常检测等方面具有极大的实践应用价值。如何选择样本及其属性特征的范围、如何确定样本属性特征之间的相关关系、如何构建样本及其属性特征之间的逻辑推理结构等问题,一直是理论界及应用界所关注的热点和难点。
[0003] 大数据的抽样技术目前主要体现在单一来源或单一形式的数据抽样及随机抽样,忽略决策目标的场景性特征,以及忽略决策目标导向的样本属性特征的场景性推理;相关的抽样技术主要有:与样本属性特征选择相关的技术主要涉及特征工程,相关的理论及技术主要涉及与维度约减相关的因子分析、主成分分析等;与样本属性特征间相关性计算相关的技术主要涉及相似性及因果性判断,相关的理论及技术主要涉及欧氏空间距离、余弦相似性、Jaccard相似性等;与变量间逻辑推理结构构建相关的技术主要涉及领域专家访谈及概率图模型,相关的理论及技术主要涉及基于约束或基于得分的模型构建等。
[0004] 上述技术普遍存在以下缺陷:
[0005] (1)抽样多为单一来源的数据或单一形式的数据,大多缺少多源数据及多形式数据的融合及交叉验证;
[0006] (2)取样多为随机抽样,大数据环境下,随机抽样具有一定的局限性,因为多领域、多来源、多载体、多形式的大数据环境下,需要跨领域及跨平台的抽样;
[0007] (3)忽略决策目标的随机抽样,会导致样本噪音加剧,形成样本冗余或缺失的比例增加;
[0008] (4)忽略决策目标导向的抽样及其属性特征的场景性推理,将不能有效揭示其潜在的、未来的或关键的样本及其属性特征。

发明内容

[0009] 为解决上述问题,本发明提供了一种基于大数据环境下的多源数据聚合抽样策略,能够围绕决策目标,并基于深度学习及贝叶斯推理技术,将上述多源异构数据进行决策目标导向及场景因素驱动的聚合及推理,以筛选出与场景性决策目标相关的数据样本,为进一步数据分析做准备。
[0010] 为实现上述目的,本发明采取的技术方案为:
[0011] 一种基于大数据环境下的多源数据聚合抽样策略,包括如下步骤:
[0012] 准备阶段:输入多个渠道来源的初始数据集,并将这些数据集的编码统一设置为GBK编码,在文件的第一列采用ID属性来标识和区别不同行的数据,避免实验出现重复读取问题;
[0013] S1、在GBK编码的多来源数据集的基础上,实现一个数据集内部多个属性融合以及不同来源数据集之间的融合,进而完成多源数据融合操作,生成“ronghe.csv”文件,其中,只保留ID列和content列数据,ID作为区别和标识不同数据的属性,content则由社交媒体用户生成内容、新闻报道、人才工作经历以及专利发明介绍等多源及多主题数据融合而成;
[0014] S2、将融合后的文件进行分词,形成词语词频二维矩阵;
[0015] S21、代码自动导入停词表和用户词典文件,实现去停词和保留关键词操作,其中依据决策目标及场景特征不断优化用户词典和扩充停词表,注意保持文件编码与代码编码格式相一致,避免出现乱码问题,丧失原有的功能,影响基于业务目标的分词效果;
[0016] S22、使用Python的Jieba模块分词并计算形成统计词频的二维矩阵;由于大部分的单个字无法全面准确表达实际意思,并且低频词会加剧输入矩阵的稀疏性,因此实验结果保留两个字以上的词语同时舍去词频低于1次的词语,进而能够保留有意义、可解释词语的同时也屏蔽大部分不相关词语的影响;
[0017] S23、将字典和矩阵数值合并,形成二维矩阵;字典是保留分词后的词语的集合,数值矩阵是一个保留分词词频的数组,因为实验需要研究词语之间的相关关系和层次关系,所以该步骤将二者读取并合并,进而形成二维矩阵文件。
[0018] S3、展示高频词汇,供用户参考,进行根节点词语选择;
[0019] S4、选取决策业务目标导向的根节点关键词语,输入滚雪球抽样的深度;
[0020] S5、在根节点数据的基础上,设定均衡校验的阈值,循环匹对各个词语,进行滚雪球抽样;
[0021] S6、构建有向无环图和邻接矩阵(供贝叶斯分类研究);
[0022] S61、输出网络的边;
[0023] S62、输出树形有向无环图;
[0024] S7、实现业务目标相关的根节点聚类网络图及逻辑推理图,包括一个主题的深度和多个主题的广度。
[0025] 优选地,所述初始数据集至少包括关于业务目标的社交媒体、新闻平台、专题网站、专利网站、人才招聘数据资源等多来源、多形式及多主题的数据资源。
[0026] 优选地,所述初始数据集的数据形式涉及数字、文本、图像、视频等结构化或非结构化数据,对于非结构化数据,采用深度学习技术将其进行分类及类别关键词的提取。
[0027] 本发明具有以下有益效果:
[0028] (1)采用决策目标导向的多源异构数据聚合性抽样,可筛除大量与决策目标不相关的样本及其属性特征,进而可减少样本噪音对后续推理的干扰;
[0029] (2)采用决策目标导向的多源异构数据推理性性抽样,可在抽样过程中有效揭示其潜在的、未来的或关键的样本及其属性特征。

附图说明

[0030] 图1为本发明一个具体实施例中输出的树形有向无环图。
[0031] 图2为本发明另一个具体实施例中输出的树形有向无环图。
[0032] 图3为图1的部分展示图。
[0033] 图4为图2的部分展示图。
[0034] 图5为本发明一个具体实施例中一个主题的深度图。
[0035] 图6为本发明另一个具体实施例中的一个主题的深度图。
[0036] 图7为本发明一个具体实施中多个主题的广度图。

具体实施方式

[0037] 为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0038] 本发明实施例提供了一种基于大数据环境下的多源数据聚合抽样策略,包括如下步骤:
[0039] 准备阶段:输入多个渠道来源的初始数据集,并将这些数据集的编码统一设置为GBK编码,在文件的第一列采用ID属性来标识和区别不同行的数据,避免实验出现重复读取问题;所述初始数据集至少包括关于业务目标的社交媒体、新闻平台、专题网站、专利网站、人才招聘数据资源。所述初始数据集的数据形式涉及数字、文本、图像、视频等结构化或非结构化数据,对于非结构化数据,采用深度学习技术将其进行分类及类别关键词的提取。
[0040] S1、在GBK编码的多来源数据集的基础上,实现一个数据集内部多个属性融合以及不同来源数据集之间的融合,进而完成多源数据融合操作,生成
[0041] “ronghe.csv”文件,其中只保留ID列和content列数据;ID作为区别和标识不同数据的属性,content则有社交媒体用户生成内容、新闻报道、人才工作经历以及专利发明介绍等数据融合而成;
[0042] S2、将融合后的文件进行分词,形成词语词频二维矩阵;
[0043] S21、代码自动导入停词表和用户词典文件,实现去停词和保留关键词操作,其中依据场景特征不断优化用户词典和扩充停词表,注意保持文件编码与代码编码格式相一致,避免出现乱码问题,丧失原有的功能,影响基于业务目标的分词效果;
[0044] S22、使用Python的Jieba模块分词并计算形成统计词频的二维矩阵。由于大部分的单个字无法全面准确表达实际意思和各种广告散步在各个渠道中,因此实验结果保留两个字以上的词语同时舍去词频低于1次的词语,进而能够保留有意义、可解释词语的同时也屏蔽大部分广告词语的影响。
[0045] S23、将字典和矩阵数值合并,形成二维矩阵。字典是保留分词后的词语的集合,数值矩阵是一个保留分词词频的数组,因为实验需要研究词语之间的相关关系和层次关系,所以该步骤将二者读取并合并,进而形成二维矩阵文件。
[0046] S3、展示高频词汇,供用户参考,进行根节点词语选择;
[0047] S4、选取业务目标导向的根节点关键词语,输入抽样深度;
[0048] S5、在根节点数据的基础上,设定均衡校验数值,循环匹对各个词语,进行滚雪球抽样。
[0049] S6、构建有向无环图和邻接矩阵(供贝叶斯分类研究)
[0050] S61、输出网络的边;
[0051] S62、输出树形有向无环图,如图1、图2所示,其中,图1的部分展示图如图3所示,图2的部分展示图如图4所示。
[0052] S7、实现业务目标相关的根节点聚类网络图及逻辑推理图,可以包括一个主题的深度和多个主题的广度,其中,一个主题的深度如图5-图6所示;多个主题的广度如图7所示。
[0053] 本具体实施基于深度学习技术,进行非结构化数据或半结构化数据的分类及关键词标注,以形成描述决策目标属性特征的数字或关键词集合;基于独特的均衡校验算法,计算决策目标相关属性特征间的相关性,以根据一定阈值进行样本特征属性的维度约减;基于随机游走抽样技术,构建了决策目标相关的场景性及多样性主题筛选模型;基于滚雪球抽样技术及贝叶斯网络推理技术,构建了决策目标相关样本特征属性的层次性聚合及推理模型;基于二部分图理论,构建了决策目标相关的样本聚类及样本社区划分模型,为进一步数据分析做准备。具有以下特点:
[0054] (1)多源:社交媒体、新闻网站、统计数据、传感设备等
[0055] (2)异构:多主体、多属性、多载体形式,如数据、文本、图像、视频等;
[0056] (3)决策目标导向:领域性决策目标,种子节点确定后的滚雪球抽样,聚焦其样本的集中性;
[0057] (4)场景性:兼顾客观的环境因素、目标相关的环境因素,考虑种子节点的随机游走性选择的多样性;
[0058] (5)层次性:领接矩阵中的贝叶斯网络层次推理及分类;
[0059] (6)异质关联:二部分图、多主体、多属性及多领域的相关性融合及聚类;
[0060] (7)动态演化:随着节点的增加,聚类场景会动态改变,进而具有聚类的贝叶斯条件依赖。
[0061] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。