一种互联网关键数据信息采集提取方法转让专利
申请号 : CN202011412821.8
文献号 : CN112417296B
文献日 : 2021-06-15
发明人 : 刘奕名
申请人 : 刘奕名
摘要 :
权利要求 :
1.一种互联网关键数据信息采集提取方法,用于实现对目标网页中文本关键信息的获得,其特征在于,包括如下步骤:
步骤A.针对目标网页中的文本进行分词处理,并根据预设无意义词库,剔除经分词处理后文本中的无意义词字符串、以及连接词字符串,将该文本更新为待处理文本;
步骤B.筛选获得待处理文本中非URL链接字符串、且彼此互不相同的各个分词字符串,构成各个初级待处理分词字符串,并统计各个初级待处理分词字符串分别在待处理文本中的出现次数,以及获得各个出现次数的总数N;
步骤C.根据各个初级待处理分词字符串分别在待处理文本中的出现次数,针对各个初级待处理分词字符串按其出现次数由高至低进行排序,并基于此排序下由第一个初级待处理分词字符串作为起始、各初级待处理分词字符串出现次数的依次累加数值,获得c×N结果数值所对应的初级待处理分词字符串,将该初级待处理分词字符串至第一个初级待处理分词字符串的各个初级待处理分词字符串作为各个待处理分词字符串;其中,c表示预设累加出现次数百分比阈值;
步骤D.针对剩余各个初级待处理分词字符串,筛选其中符合预设关键信息词词库的各个初级待处理分词字符串,同样作为各个待处理分词字符串;
步骤E.针对各个待处理分词字符串按其出现次数由高至低进行排序,并获得各个待处理分词字符串分别所对应的特征词向量;
步骤F.根据各个待处理分词字符串分别所对应的特征词向量,获得两两待处理分词字符串之间的相似度;
步骤G.基于步骤E中所获各个待处理分词字符串的排序,依次针对各待处理分词字符串,以两两待处理分词字符串之间相似度大于预设相似度阈值为依据,实现对各待处理分词字符串的划分,获得各个字符串子集;
步骤H.分别获得各个字符串子集中的各个代表性分词字符串,即为目标网页中文本的各个关键信息;
执行完步骤H之后,进入步骤J;
步骤J.初始化v=1,获得各个字符串子集中、代表性分词字符串分别与相同字符串子集中其余各待处理分词字符串之间相似度的最小值,作为各个字符串子集所对应的相似度下限,然后将目标网页所对应待处理文本中各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,并进入步骤K;
步骤K.分别针对各个第v级递进网页,按步骤A至步骤C的方法,获得第v级递进网页所对应的各个待处理分词字符串;进而获得各个第v级递进网页分别所对应的各个待处理分词字符串,然后进入步骤L;
步骤L.分别针对各个第v级递进网页,按步骤E中的方法,获得第v级递进网页所对应各个待处理分词字符串分别所对应的特征词向量;进而获得各个第v级递进网页所对应各个待处理分词字符串分别所对应的特征词向量,然后进入步骤M;
步骤M.分别针对各个第v级递进网页所对应的各个待处理分词字符串,获得待处理分词字符串所对应特征词向量分别与各代表性分词字符串所对应特征词向量之间的相似度,获得其中最高相似度所对应代表性分词字符串所在字符串子集对应的相似度下限,并判断该最高相似度是否大于该相似度下限,是则将该待处理分词字符串加入该字符串子集中,针对该字符串子集进行更新;否则删除该待处理分词字符串;待完成针对各个第v级递进网页所对应各个待处理分词字符串的上述操作后,然后进入步骤N;
步骤N.判断各个第v级递进网页所对应待处理文本中是否存在URL链接字符串,是则针对v的值进行加1更新,并将该各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,然后返回步骤K;否则进入步骤O;
步骤O.按步骤H的方法,分别获得各个字符串子集中的各个代表性分词字符串,即为目标网页及其各级递进网页中文本的各个关键信息。
2.根据权利要求1所述一种互联网关键数据信息采集提取方法,其特征在于:还包括步骤BC‑1至步骤BC‑2如下,执行完步骤B之后,进入步骤BC‑1;
步骤BC‑1.分别针对各个初级待处理分词字符串,按如下公式:TF/ISFterm=TFterm*ISFterm获得各个初级待处理分词字符串分别所对应的术语频率‑逆句子频率值TF/ISFterm,其中,TFterm表示初级待处理分词字符串出现次数与待处理文本中所有初级待处理分词字符串出现次数总和的比值,ISFterm表示待处理文本中包含初级待处理分词字符的语句的数量,然后进入步骤BC‑2;
步骤BC‑2.按术语频率‑逆句子频率值由大至小,针对各个初级待处理分词字符串进行排序,并根据预设选择比例b,顺序选择前 个初级待处理分词字符串,并删除其余各个初级待处理分词字符串,然后进入步骤C;其中,L表示步骤B中所获不同初级待处理分词字符串的个数, 表示向上取整。
3.根据权利要求1所述一种互联网关键数据信息采集提取方法,其特征在于:所述步骤J中,分别针对目标网页所对应待处理文本中各个URL链接字符串所对应的网页,首先基于各网页的初始级别,应用Pagerank方法按如下公式:通过迭代运算,获得各URL链接字符串分别所对应网页的页面级别,其中,A表示网页,PR(A)表示网页A的页面级别,d为预设衰减系数,0<d<1,T1、…、Tn表示包含网页A的URL链接字符串的其它各个网页,PR(T1)表示网页T1的页面级别,C(T1)表示网页T1中包含其它网页的URL链接字符串的数量,PR(Tn)表示网页Tn的页面级别,C(Tn)表示网页Tn中包含其它网页的URL链接字符串的数量;
然后选择其中页面级别大于预设级别的各URL链接字符串,然后将该各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,并进入步骤K。
4.根据权利要求1至3中任意一项所述一种互联网关键数据信息采集提取方法,其特征在于:所述步骤G包括如下步骤G1至步骤G5;
步骤G1.初始化n=1,m=1,并基于步骤E中所获各个待处理分词字符串的排序,以及两两待处理分词字符串之间的相似度,进入步骤G2;
步骤G2.构建包含排序中第n个待处理分词字符串的第m个字符串子集,并定义第n个待处理分词字符串构成待划分处理分词字符串,然后针对n的值进行加1更新,进入步骤G3;
步骤G3.判断排序中第n个待处理分词字符串与待划分处理分词字符串之间的相似度是否大于预设相似度阈值,是则将第n个待处理分词字符串加入第m个字符串子集中,更新第m个字符串子集,然后进入步骤G4;否则直接进入步骤G4;
步骤G4.判断n是否等于排序中待处理分词字符串的数量I,是则进入步骤G5;否则针对n的值进行加1更新,并返回步骤G3;
步骤G5.将第m个字符串子集中的各个待处理分词字符串由排序中删除,针对排序进行更新,并判断排序是否为空,是则即获得各个字符串子集,然后进入步骤H;否则重置n等于
1,并针对m的值进行加1更新,然后返回步骤G2。
5.根据权利要求1至3中任意一项所述一种互联网关键数据信息采集提取方法,其特征在于:所述步骤H中包括如下步骤H1至步骤H4;
步骤H1.分别针对字符串子集中的各个待处理分词字符串,获得待处理分词字符串分别与该字符串子集中其余各待处理分词字符串之间相似度的平均值,构成该待处理分词字符串所对应相似度平均值;进而获得该字符串子集中各待处理分词字符串分别所对应相似度平均值,然后进入步骤H2;
步骤H2.针对该字符串子集中各个待处理分词字符串的出现次数进行归一化,所获归一化结果构成该各个待处理分词字符串分别所对应的权重,然后进入步骤H3;
步骤H3.分别针对该字符串子集中的各个待处理分词字符串,由待处理分词字符串所对应权重与待处理分词字符串所对应相似度平均值的乘积,构成待处理分词字符串所对应的重要度指标,进而获得该待处理分词字符串分别所对应的重要度指标,然后进入步骤H4;
步骤H4.针对该字符串子集中的各个待处理分词字符串,按其所对应重要度指标由高至低进行排序,并根据预设筛选百分比a,顺序选择该排序中的前 个待处理分词字符串,作为该字符串子集中的代表性分词字符串,即为目标网页中文本的各个关键信息;其中,M表示该字符串子集中的待处理分词字符串的个数, 表示向上取整。
6.根据权利要求1至3中任意一项所述一种互联网关键数据信息采集提取方法,其特征在于:所述步骤E中,应用word2vec方法,获得各个待处理分词字符串分别所对应的特征词向量。
7.根据权利要求1至3中任意一项所述一种互联网关键数据信息采集提取方法,其特征在于:所述步骤F中,根据各个待处理分词字符串分别所对应的特征词向量,按两两特征词向量之间的余弦距离,获得并构成两两待处理分词字符串之间的相似度。
说明书 :
一种互联网关键数据信息采集提取方法
技术领域
背景技术
网基础设施及智能手机、可穿戴设备的普及,我们每个人时刻都在产生大量的数据,网络上
每天都会更新着大量的数据,并且其中充斥着各类型的数据,如何对海量数据进行快速分
析,解读其中重要信息是当下对网络数据的最好利用,现有技术中的方法,大多采用的是比
对法,即针对目标网页中的数据,执行与预设关键字的匹配,寻找网页中与关键字相匹配的
内容,如此的方法寻找所获信息收到了局限,并且仅仅通过彼此之间的直接匹配,会遗漏网
页中许多与之相关的其它信息,即无法真正对目标网页进行有效的数据挖掘,因此寻找所
获数据的价值并不大。
发明内容
间拓扑结构,提高网页数据信息采集的智能性与高效性。
文本中的出现次数,以及获得该各个出现次数的总数N;
待处理分词字符串作为起始、各初级待处理分词字符串出现次数的依次累加数值,获得c×
N结果数值所对应的初级待处理分词字符串,将该初级待处理分词字符串至第一个初级待
处理分词字符串的各个初级待处理分词字符串作为各个待处理分词字符串;其中,c表示预
设累加出现次数百分比阈值;
理分词字符串的划分,获得各个字符串子集;
分词字符串出现次数总和的比值,ISFterm表示待处理文本中包含初级待处理分词字符的语
句的数量,然后进入步骤BC‑2;
余各个初级待处理分词字符串,然后进入步骤C;其中,L表示步骤B中所获不同初级待处理
分词字符串的个数, 表示向上取整。
似度下限,然后将目标网页所对应待处理文本中各个URL链接字符串分别所对应的网页,作
为各个第v级递进网页,并进入步骤K;
理分词字符串,然后进入步骤L;
各个待处理分词字符串分别所对应的特征词向量,然后进入步骤M;
似度,获得其中最高相似度所对应代表性分词字符串所在字符串子集对应的相似度下限,
并判断该最高相似度是否大于该相似度下限,是则将该待处理分词字符串加入该字符串子
集中,针对该字符串子集进行更新;否则删除该待处理分词字符串;待完成针对各个第v级
递进网页所对应各个待处理分词字符串的上述操作后,然后进入步骤N;
递进网页,然后返回步骤K;否则进入步骤O;
按如下公式:
链接字符串的其它各个网页,PR(T1)表示网页T1的页面级别,C(T1)表示网页T1中包含其它
网页的URL链接字符串的数量,PR(Tn)表示网页Tn的页面级别,C(Tn)表示网页Tn中包含其它
网页的URL链接字符串的数量;
G3;
更新第m个字符串子集,然后进入步骤G4;否则直接进入步骤G4;
等于1,并针对m的值进行加1更新,然后返回步骤G2。
词字符串所对应相似度平均值;进而获得该字符串子集中各待处理分词字符串分别所对应
相似度平均值,然后进入步骤H2;
对应的重要度指标,进而获得该待处理分词字符串分别所对应的重要度指标,然后进入步
骤H4;
词字符串,作为该字符串子集中的代表性分词字符串,即为目标网页中文本的各个关键信
息;其中,M表示该字符串子集中的待处理分词字符串的个数, 表示向上取整。
符串之间的相似度。
式,实现递进式逻辑结合,综合筛查获得基础筛查对象中的关键信息,其中不仅考虑到了指
定目标方向方面的信息,而且考虑到了大数据更新的方向,让网络数据查找工作变得更加
全面、客观;由此进一步以基础筛查对象为出发点,针对其直接引用、以及间接多层级引用
下的各网页,进行逐级一一分析,筛查获得与基础筛查对象中相关主题、主旨相关的各级关
键信息,由此构建出多层级关联网页下、关键信息的拓扑结构,能够更加准确、客观、全面的
筛查网页中的关键信息,为网络数据查找、挖掘提供高效的工作方式,提高实际网络数据查
找的工作效率。
附图说明
具体实施方式
进入步骤B。
文本中的出现次数,以及获得该各个出现次数的总数N,然后进入步骤BC‑1。
分词字符串出现次数总和的比值,ISFterm表示待处理文本中包含初级待处理分词字符的语
句的数量,然后进入步骤BC‑2。
余各个初级待处理分词字符串,然后进入步骤C;其中,L表示步骤B中所获不同初级待处理
分词字符串的个数, 表示向上取整。
待处理分词字符串作为起始、各初级待处理分词字符串出现次数的依次累加数值,获得c×
N结果数值所对应的初级待处理分词字符串,将该初级待处理分词字符串至第一个初级待
处理分词字符串的各个初级待处理分词字符串作为各个待处理分词字符串,然后进入步骤
D;其中,c表示预设累加出现次数百分比阈值。
然后进入步骤F。
理分词字符串的划分,获得各个字符串子集,然后进入步骤H。
G3。
更新第m个字符串子集,然后进入步骤G4;否则直接进入步骤G4。
等于1,并针对m的值进行加1更新,然后返回步骤G2。
词字符串所对应相似度平均值;进而获得该字符串子集中各待处理分词字符串分别所对应
相似度平均值,然后进入步骤H2。
对应的重要度指标,进而获得该待处理分词字符串分别所对应的重要度指标,然后进入步
骤H4。
词字符串,作为该字符串子集中的代表性分词字符串,即为目标网页中文本的各个关键信
息;其中,M表示该字符串子集中的待处理分词字符串的个数, 表示向上取整。
预设关键信息词搜索方式,实现递进式逻辑结合,综合筛查获得基础筛查对象中的关键信
息,其中不仅考虑到了指定目标方向方面的信息,而且考虑到了大数据更新的方向,让网络
数据查找工作变得更加全面、客观。
析,即在执行完步骤H,获得目标网页中文本的各个代表性分词字符串后,进一步执行了如
下步骤步骤J至步骤O。
似度下限,然后将目标网页所对应待处理文本中各个URL链接字符串分别所对应的网页,作
为各个第v级递进网页,并进入步骤K。
公式:
链接字符串的其它各个网页,PR(T1)表示网页T1的页面级别,C(T1)表示网页T1中包含其它
网页的URL链接字符串的数量,PR(Tn)表示网页Tn的页面级别,C(Tn)表示网页Tn中包含其它
网页的URL链接字符串的数量;
理分词字符串,然后进入步骤L。
各个待处理分词字符串分别所对应的特征词向量,然后进入步骤M。
似度,获得其中最高相似度所对应代表性分词字符串所在字符串子集对应的相似度下限,
并判断该最高相似度是否大于该相似度下限,是则将该待处理分词字符串加入该字符串子
集中,针对该字符串子集进行更新;否则删除该待处理分词字符串;待完成针对各个第v级
递进网页所对应各个待处理分词字符串的上述操作后,然后进入步骤N。
递进网页,然后返回步骤K;否则进入步骤O。
符串分别所对应网页的页面级别的筛查,即针对这里各第v级递进网页所对应待处理文本
中所存在的各个URL链接字符串,针对该各个URL链接字符串分别所对应网页的页面,执行
上述步骤J中关于页面级别的获得,并进一步选取中页面级别大于预设级别的各URL链接字
符串,然后将该各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,然后返回
步骤K。
分析,筛查获得与基础筛查对象中相关主题、主旨相关的各级关键信息,由此构建出多层级
关联网页下、关键信息的拓扑结构,能够更加准确、客观、全面的筛查网页中的关键信息,并
通过拓扑结构的方式进行呈现,为网络数据查找、挖掘提供高效的工作方式,提高实际网络
数据查找的工作效率。
做出各种变化。