网页频道导航栏提取方法、系统、电子设备及存储介质转让专利
申请号 : CN202011461252.6
文献号 : CN112230989B
文献日 : 2021-03-12
发明人 : 靳林林 , 李伟 , 李青龙
申请人 : 北京智慧星光信息技术有限公司
摘要 :
权利要求 :
1.一种网页频道导航栏提取方法,其特征在于,包括:获取待识别网页的网页源码,所述网页源码包含网页频道导航栏,所述网页频道导航栏包括至少一个频道;
获取待识别网页的网页源码的步骤中,包括:对待识别网页的URL进行URL下载,得到URL下载结果;
判断所述URL下载结果是否为空;
若所述URL下载结果为空,则返回URL异常;
若所述URL下载结果不为空,则判断网页请求状态码是否等于预设状态码;
若网页请求状态码不等于预设状态码,则返回URL异常;
若网页请求状态码等于预设状态码,则待识别网页的网页源码下载成功;
对所述网页源码进行编码格式处理和非正文标签去除处理,得到网页正文源码,其包括:
通过chardet库对所述网页源码进行编码类型匹配,得到编码类型匹配结果;
若编码类型匹配结果为匹配成功,则将所述网页源码按照匹配到的编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;
若编码类型匹配结果为匹配失败,则从网页源码中识别编码类型;
若从网页源码中能够识别出编码类型,则将网页源码按照识别出的编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;
若从网页源码中不能够识别出编码类型,则将网页源码按照预设编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;
对转换后的网页源码进行非正文标签去除处理,得到网页正文源码;
通过匹配频道标志符号、频道关键词和发文时间对所述网页正文源码进行网页频道导航栏的位置定位,得到定位后的源码,其包括:判断网页正文源码中是否包含频道标志符号;
若网页正文源码中包含频道标志符号,则根据所述频道标志符号进行网页频道导航栏的位置定位,得到定位后的源码;
若网页正文源码中不包含频道标志符号,则判断网页正文源码中是否包含频道关键词;
若网页正文源码中包含频道关键词,则根据所述频道关键词进行网页频道导航栏的位置定位,得到定位后的源码;
若网页正文源码中不包含频道关键词,则判断网页正文源码中是否包含发文时间;
若网页正文源码中包含发文时间,则遍历网页正文源码中的所有html标签,查找超链接和文本,所述超链接和文本所在位置即为网页频道导航栏的所在位置,得到定位后的源码
若网页正文源码中不包含发文时间,则网页频道导航栏的位置定位异常;
判断所述定位后的源码是否包含a标签;
若定位后的源码包含a标签,则通过a标签对定位后的源码进行分割,得到网页频道导航栏的频道分割数组;
若定位后的源码不包含a标签,则通过频道标志符号对定位后的源码进行分割,得到网页频道导航栏的频道分割数组;
对所述频道分割数组按照正序排列进行分级,依次获取所述频道分割数组中每一个频道所对应的频道文本和频道URL;
判断频道URL是否存在;
若频道URL不存在,则将URL赋值为空;
若频道URL存在,则判断所述频道URL是否正常,包括:判断所述频道URL中是否包含待识别网页的网站域名;
若所述频道URL不正常,则将URL赋值为空;
若所述频道URL正常,则将URL赋值为所述频道URL;
根据所述频道文本和所述URL赋值得到网页频道导航栏的频道信息。
2.如权利要求1中所述的网页频道导航栏提取方法,其特征在于,根据所述频道文本和所述URL赋值得到网页频道导航栏的频道信息的步骤之后,还包括:将所述频道信息与城市地区库中的城市进行匹配,得到匹配结果;
若所述匹配结果为匹配失败,则将频道信息进行存储;
若所述匹配结果为匹配成功,则按照省市区对频道信息进行分级,得到频道信息对应的城市信息,将频道信息和城市信息进行存储。
3.一种网页频道导航栏提取系统,其特征在于,包括:获取模块,用于获取待识别网页的网页源码,所述网页源码包含网页频道导航栏,所述网页频道导航栏包括至少一个频道,包括:对待识别网页的URL进行URL下载,得到URL下载结果;
判断所述URL下载结果是否为空;
若所述URL下载结果为空,则返回URL异常;
若所述URL下载结果不为空,则判断网页请求状态码是否等于预设状态码;
若网页请求状态码不等于预设状态码,则返回URL异常;
若网页请求状态码等于预设状态码,则待识别网页的网页源码下载成功;
第一处理模块,用于对所述网页源码进行编码格式处理和非正文标签去除处理,得到网页正文源码;包括:
包括:
通过chardet库对所述网页源码进行编码类型匹配,得到编码类型匹配结果;
若编码类型匹配结果为匹配成功,则将所述网页源码按照匹配到的编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;
若编码类型匹配结果为匹配失败,则从网页源码中识别编码类型;
若从网页源码中能够识别出编码类型,则将网页源码按照识别出的编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;
若从网页源码中不能够识别出编码类型,则将网页源码按照预设编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;
对转换后的网页源码进行非正文标签去除处理,得到网页正文源码;第二处理模块,用于通过匹配频道标志符号、频道关键词和发文时间对所述网页正文源码进行网页频道导航栏的位置定位,得到定位后的源码;其包括:判断网页正文源码中是否包含频道标志符号;
若网页正文源码中包含频道标志符号,则根据所述频道标志符号进行网页频道导航栏的位置定位,得到定位后的源码;
若网页正文源码中不包含频道标志符号,则判断网页正文源码中是否包含频道关键词;
若网页正文源码中包含频道关键词,则根据所述频道关键词进行网页频道导航栏的位置定位,得到定位后的源码;
若网页正文源码中不包含频道关键词,则判断网页正文源码中是否包含发文时间;
若网页正文源码中包含发文时间,则遍历网页正文源码中的所有html标签,查找超链接和文本,所述超链接和文本所在位置即为网页频道导航栏的所在位置,得到定位后的源码
若网页正文源码中不包含发文时间,则网页频道导航栏的位置定位异常;
第一判断模块,用于判断所述定位后的源码是否包含a标签;
第三处理模块,用于若定位后的源码包含a标签,则通过a标签对定位后的源码进行分割,得到网页频道导航栏的频道分割数组;
第四处理模块,用于若定位后的源码不包含a标签,则通过频道标志符号对定位后的源码进行分割,得到网页频道导航栏的频道分割数组;
第五处理模块,用于对所述频道分割数组按照正序排列进行分级,依次获取所述频道分割数组中每一个频道所对应的频道文本和频道URL;
第二判断模块,用于判断频道URL是否存在;
第六处理模块,用于若频道URL不存在,则将URL赋值为空;
第三判断模块,用于若频道URL存在,则判断所述频道URL是否正常;包括:判断所述频道URL中是否包含待识别网页的网站域名;
第七处理模块,用于若所述频道URL不正常,则将URL赋值为空;
第八处理模块,用于若所述频道URL正常,则将URL赋值为所述频道URL;
第九处理模块,用于根据所述频道文本和所述URL赋值得到网页频道导航栏的频道信息。
4.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-2任意一项所述的网页频道导航栏提取方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-2任意一项所述的网页频道导航栏提取方法。
说明书 :
网页频道导航栏提取方法、系统、电子设备及存储介质
技术领域
背景技术
用。但是现在各大媒体以及新闻网站众多,网站的模板样式也是层出不穷,针对不同网站编
写不同解析规则已经无法应对越来越多的网站。
发明内容
则。
一个频道;对所述网页源码进行编码格式处理和非正文标签去除处理,得到网页正文源码;
通过匹配频道标志符号、频道关键词和发文时间对所述网页正文源码进行网页频道导航栏
的位置定位,得到定位后的源码;判断所述定位后的源码是否包含a标签;若定位后的源码
包含a标签,则通过a标签对定位后的源码进行分割,得到网页频道导航栏的频道分割数组;
若定位后的源码不包含a标签,则通过频道标志符号对定位后的源码进行分割,得到网页频
道导航栏的频道分割数组;对所述频道分割数组按照正序排列进行分级,依次获取所述频
道分割数组中每一个频道所对应的频道文本和频道URL;判断频道URL是否存在;若频道URL
不存在,则将频道URL赋值为空;若URL存在,则判断所述频道URL是否正常;若所述频道URL
不正常,则将URL赋值为空;若所述频道URL正常,则将URL赋值为所述频道URL;根据所述频
道文本和所述URL赋值得到网页频道导航栏的频道信息。
URL异常;若所述URL下载结果不为空,则判断网页请求状态码是否等于预设状态码;若网页
请求状态码不等于预设状态码,则返回URL异常;若网页请求状态码等于预设状态码,则待
识别网页的网页源码下载成功。
匹配结果;若编码类型匹配结果为匹配成功,则将所述网页源码按照匹配到的编码类型所
对应的编码规则进行编码转换,得到转换后的网页源码;若编码类型匹配结果为匹配失败,
则从网页源码中识别编码类型;若从网页源码中能够识别出编码类型,则将网页源码按照
识别出的编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;若从网页源
码中不能够识别出编码类型,则将网页源码按照预设编码类型所对应的编码规则进行编码
转换,得到转换后的网页源码;对转换后的网页源码进行非正文标签去除处理,得到网页正
文源码。
否包含频道标志符号;若网页正文源码中包含频道标志符号,则根据所述频道标志符号进
行网页频道导航栏的位置定位,得到定位后的源码;若网页正文源码中不包含频道标志符
号,则判断网页正文源码中是否包含频道关键词;若网页正文源码中包含频道关键词,则根
据所述频道关键词进行网页频道导航栏的位置定位,得到定位后的源码;若网页正文源码
中不包含频道关键词,则判断网页正文源码中是否包含发文时间;若网页正文源码中包含
发文时间,则根据所述发文时间进行网页频道导航栏的位置定位,得到定位后的源码;若网
页正文源码中不包含发文时间,则网页频道导航栏的位置定位异常。
遍历网页正文源码中的所有html标签,查找超链接和文本,所述超链接和文本所在位置即
为网页频道导航栏的所在位置,得到定位后的源码。
匹配结果为匹配失败,则将频道信息进行存储;若所述匹配结果为匹配成功,则按照省市区
对频道信息进行分级,得到频道信息对应的城市信息,将频道信息和城市信息进行存储。
航栏包括至少一个频道;第一处理模块,用于对所述网页源码进行编码格式处理和非正文
标签去除处理,得到网页正文源码;第二处理模块,用于通过匹配频道标志符号、频道关键
词和发文时间对所述网页正文源码进行网页频道导航栏的位置定位,得到定位后的源码;
第一判断模块,用于判断所述定位后的源码是否包含a标签;第三处理模块,用于若定位后
的源码包含a标签,则通过a标签对定位后的源码进行分割,得到网页频道导航栏的频道分
割数组;第四处理模块,用于若定位后的源码不包含a标签,则通过频道标志符号对定位后
的源码进行分割,得到网页频道导航栏的频道分割数组;第五处理模块,用于对所述频道分
割数组按照正序排列进行分级,依次获取所述频道分割数组中每一个频道所对应的频道文
本和频道URL;第二判断模块,用于判断频道URL是否存在;第六处理模块,用于若频道URL不
存在,则将URL赋值为空;第三判断模块,用于若频道URL存在,则判断所述频道URL是否正
常;第七处理模块,用于若所述频道URL不正常,则将URL赋值为空;第八处理模块,用于若所
述频道URL正常,则将URL赋值为所述频道URL;第九处理模块,用于根据所述频道文本和所
述URL赋值得到网页频道导航栏的频道信息。
用于若所述URL下载结果为空,则返回URL异常;第三处理单元,用于若所述URL下载结果不
为空,则判断网页请求状态码是否等于预设状态码;第四处理单元,用于若网页请求状态码
不等于预设状态码,则返回URL异常;第五处理单元,用于若网页请求状态码等于预设状态
码,则待识别网页的网页源码下载成功。
为匹配成功,则将所述网页源码按照匹配到的编码类型所对应的编码规则进行编码转换,
得到转换后的网页源码;第八处理单元,用于若编码类型匹配结果为匹配失败,则从网页源
码中识别编码类型;第九处理单元,用于若从网页源码中能够识别出编码类型,则将网页源
码按照识别出的编码类型所对应的编码规则进行编码转换,得到转换后的网页源码;第十
处理单元,用于若从网页源码中不能够识别出编码类型,则将网页源码按照预设编码类型
所对应的编码规则进行编码转换,得到转换后的网页源码;第十一处理单元,用于对转换后
的网页源码进行非正文标签去除处理,得到网页正文源码。
频道标志符号进行网页频道导航栏的位置定位,得到定位后的源码;第三判断单元,用于若
网页正文源码中不包含频道标志符号,则判断网页正文源码中是否包含频道关键词;第十
三处理单元,用于若网页正文源码中包含频道关键词,则根据所述频道关键词进行网页频
道导航栏的位置定位,得到定位后的源码;第四判断单元,用于若网页正文源码中不包含频
道关键词,则判断网页正文源码中是否包含发文时间;第十四处理单元,用于若网页正文源
码中包含发文时间,则根据所述发文时间进行网页频道导航栏的位置定位,得到定位后的
源码;第十五处理单元,用于若网页正文源码中不包含发文时间,则网页频道导航栏的位置
定位异常。
位置即为网页频道导航栏的所在位置,得到定位后的源码。
行存储;第十二处理模块,用于若所述匹配结果为匹配成功,则按照省市区对频道信息进行
分级,得到频道信息对应的城市信息,将频道信息和城市信息进行存储。
算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任
意一项描述的网页频道导航栏提取方法。
频道导航栏提取方法。
网页频道导航栏包括至少一个频道;对所述网页源码进行编码格式处理和非正文标签去除
处理,得到网页正文源码;通过匹配频道标志符号、频道关键词和发文时间对所述网页正文
源码进行网页频道导航栏的位置定位,得到定位后的源码;判断所述定位后的源码是否包
含a标签;若定位后的源码包含a标签,则通过a标签对定位后的源码进行分割,得到网页频
道导航栏的频道分割数组;若定位后的源码不包含a标签,则通过频道标志符号对定位后的
源码进行分割,得到网页频道导航栏的频道分割数组;对所述频道分割数组按照正序排列
进行分级,依次获取所述频道分割数组中每一个频道所对应的频道文本和频道URL;判断频
道URL是否存在;若频道URL不存在,则将URL赋值为空;若频道URL存在,则判断所述频道URL
是否正常;若所述频道URL不正常,则将URL赋值为空;若所述频道URL正常,则将URL赋值为
所述频道URL;根据所述频道文本和所述URL赋值得到网页频道导航栏的频道信息。该方法
先对待识别网页进行网页源码下载,对网页源码进行编码格式处理和多余数据的处理;之
后,通过频道标志符号、频道关键词和发文时间进行频道位置的定位;然后,通过a标签和频
道标志符号进行频道信息的提取,最终得到对网页频道导航栏的频道信息;实现了频道的
自动识别与提取,无需针对不同网站编写不同解析规则。
附图说明
附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前
提下,还可以根据这些附图获得其他的附图。
具体实施方式
人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
导航栏中包括至少一个频道。例如,新浪辽宁新闻的网页中,网页频道导航栏为新浪辽宁>
新闻频道>本地新闻>正文,该导航栏包括四个频道,分别为新浪辽宁、新闻频道、本地新闻
和正文。
转换为utf-8,防止因编码问题导致获取到的数据不正确;接下来过滤掉一些非正文标签
(如script、style等),留下正文标签,正文标签为包含在内部的标签,如
div、span、ul、li等标签,将非正文标签进行滤除,避免非正文标签对频道定位造成干扰,提
高频道定位的准确性。
包括“/”、“>”、“-”、“→”等,本实施例对此仅作示意性说明,不以此为限。不同网页中频道的
常用词也不同,频道关键词也是基于对大量网页中频道常用词进行统计分析得到的,具体
可包括“正文”、“首页”、“位置”等频道常用词。发文时间是网页中文章的发布时间。
位,如果通过关键词还无法定位到想要的数据,再通过正则等方式匹配文章的发文日期进
行频道定位。
栏中的频道信息。
前域名的链接则保留并存储,和文本信息组成频道导航栏数据。
取每一个频道所对应的频道文本和频道URL。例如网页频道导航栏为和讯网>新闻,其包含
两个频道,分别为和讯网和新闻,先对和讯网进行频道文本和频道URL的获取,之后,再对新
闻进行频道文本和频道URL的获取。
到频道URL,也就是源码中包含频道URL的相关信息,但是URL的文本内容可能不正常,故需
要判断频道URL是否正常。
如,环球网的域名为huanqiu.com,则环球网中网页链接中均含有上述域名信息;又例如,新
浪网的域名为sina.com.cn,则新浪网中网页链接中均含有上述域名。当然,在其它实施例
中,可以通过URL关键字来判断URL是否正常,具体可根据实际需求合理设置。
示。
="/"),部分代码如下。
级,依次获取正文内容、频道URL,若URL存在则判断URL是否为正常URL,正常URL进行赋值;
最后返回数据结果。
码,提取a标签中的频道链接和文本,判断链接为当前域名的链接则保留并存储,将当前域
名的链接和文本信息组成频道导航栏数据。通过特殊符号以及空格分割源码,查找标签是
否在href属性,存在则获取href里的链接,若判断链接为当前域名的链接则保留并存储,将
当前域名的链接和文本信息组成频道导航栏数据。
位;然后,通过a标签和频道标志符号进行频道信息的提取,最终得到对网页频道导航栏的
频道信息;实现了频道的自动识别与提取,无需针对不同网站编写不同解析规则。
的下载地址存在。
败,则是提供的URL无法正常打开进行浏览,这时程序会退出,以便后续检验所提供的URL是
否为正常URL。
码,则执行步骤S106。
务器拒绝请求;这些状态码均是服务器没有成功处理下载请求返回的状态码。
看是否获取到源码;未获取到源码则返回异常;成功获取到源码则检测状态码是否为200;
其他状态码则返回异常;状态码为200时则往下进行编码处理。
utf-8、UTF-8-SIG、SHIFT_JIS、GB2312、Big5、EUC-JP、ascii、CP932、EUC-KR、UTF-16、ISO-
8859-5、IBM866、ISO-8859-1、Windows-1252、ISO-8859-9等,本实施例对此仅作示意性说
明,不以此为限。通过chardet库对网页源码进行编码类型匹配,即将网页源码与chardet库
中的编码类型进行逐一比较,查看网页源码的编码类型是否与chardet库中的编码类型相
匹配,得到编码类型匹配结果。
法正常查看的乱码,为了网页源码内容的正常获取,将网页源码按照匹配到的编码类型所
对应的编码规则进行编码转换,得到转换后的网页源码。
码;未匹配到编码类型时便获取网页源码的编码类型。
当然,在其它实施例中,预设编码类型也可以设置为其它类型,如GBK2312等,根据需要合理
设置即可。
源码进行非正文标签的去除,滤除干扰信息,提高频道定位的准确性。
码类型进行识别和编码转换,保证网页源码的编码正确,防止因编码问题导致获取到的数
据不正常;对转换后的网页源码进行非正文标签去除,仅保留正文标签,避免非正文标签中
的文本影响频道定位的准确性。
示,包括步骤S301-S307。
S303。
导航栏通过频道标志符号进行频道分割,故可通过网页正文源码中是否包含有频道标志符
号来对导航栏进行定位。
个源码。
不包含频道关键词,则执行步骤S305。
过频道标志符号进行频道定位,则可通过频道关键词进行定位识别。
码。
发文时间,则执行步骤S307。
置即为网页频道导航栏的所在位置,得到定位后的源码。网页正文源码中包含发文时间,则
遍历网页正文源码中的所有HTML标签,查找存在超链接的标签和文本,如果存在超链接的
标签和对应文本,则进行获取,基本可以定位到所在位置即为网页频道导航栏的所在位置。
的数据优先通过一些频道常见的特殊符号(例:|>-→)来进行定位,如果未获取到具体的频
道数据,再通过“正文”、“首页”、“位置”等频道常用的关键词进行定位,如果通过关键词还
无法定位到想要的数据,再通过文章的发文日期进行定位;使得定位更加快速。
便知道频道信息发生在哪一个城市,让用户通过文章链接,能够清楚的了解到当前新闻所
涉及到的地区或城市。
数据,匹配到市级信息时便创建市级字段,为二级字段,未匹配到则忽略;以下地区信息从
高到低依次去频道信息中进行匹配,匹配结果分级整合。
进行存储;为有单独需求城市信息的用户提取出城市信息。
定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统置较佳地以软件来实现,但
是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
模块7、第二判断模块8、第六处理模块9、第三判断模块10、第七处理模块11、第八处理模块
12和第九处理模块13。
所述URL下载结果是否为空,详细内容参考步骤S102所述;第二处理单元,用于若所述URL下
载结果为空,则返回URL异常,详细内容参考步骤S103所述;第三处理单元,用于若所述URL
下载结果不为空,则判断网页请求状态码是否等于预设状态码,详细内容参考步骤S104所
述;第四处理单元,用于若网页请求状态码不等于预设状态码,则返回URL异常,详细内容参
考步骤S105所述;第五处理单元,用于若网页请求状态码等于预设状态码,则待识别网页的
网页源码下载成功,详细内容参考步骤S106所述。
述;第七处理单元,用于若编码类型匹配结果为匹配成功,则将所述网页源码按照匹配到的
编码类型所对应的编码规则进行编码转换,得到转换后的网页源码,详细内容参考步骤
S202所述;第八处理单元,用于若编码类型匹配结果为匹配失败,则从网页源码中识别编码
类型,详细内容参考步骤S203所述;第九处理单元,用于若从网页源码中能够识别出编码类
型,则将网页源码按照识别出的编码类型所对应的编码规则进行编码转换,得到转换后的
网页源码,详细内容参考步骤S204所述;第十处理单元,用于若从网页源码中不能够识别出
编码类型,则将网页源码按照预设编码类型所对应的编码规则进行编码转换,得到转换后
的网页源码,详细内容参考步骤S205所述;第十一处理单元,用于对转换后的网页源码进行
非正文标签去除处理,得到网页正文源码,详细内容参考步骤S206所述。
正文源码中包含频道标志符号,则根据所述频道标志符号进行网页频道导航栏的位置定
位,得到定位后的源码,详细内容参考步骤S302所述;第三判断单元,用于若网页正文源码
中不包含频道标志符号,则判断网页正文源码中是否包含频道关键词,详细内容参考步骤
S303所述;第十三处理单元,用于若网页正文源码中包含频道关键词,则根据所述频道关键
词进行网页频道导航栏的位置定位,得到定位后的源码,详细内容参考步骤S304所述;第四
判断单元,用于若网页正文源码中不包含频道关键词,则判断网页正文源码中是否包含发
文时间,详细内容参考步骤S305所述;第十四处理单元,用于若网页正文源码中包含发文时
间,则根据所述发文时间进行网页频道导航栏的位置定位,得到定位后的源码,详细内容参
考步骤S306所述;第十五处理单元,用于若网页正文源码中不包含发文时间,则网页频道导
航栏的位置定位异常,详细内容参考步骤S307所述。
接和文本所在位置即为网页频道导航栏的所在位置,得到定位后的源码。
若所述匹配结果为匹配失败,则将频道信息进行存储,详细内容参考步骤S15所述;第十一
处理模块,用于若所述匹配结果为匹配成功,则按照省市区对频道信息进行分级,得到频道
信息对应的城市信息,将频道信息和城市信息进行存储,详细内容参考步骤S16所述。
述功能的器件。
(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-
Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、
分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何
常规的处理器等。
序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从
而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的网页频道导航栏提
取方法。
创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,
例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存
储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至
网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及
其组合。
中,该程序在执行时,可包括如上述网页频道导航栏提取方法的实施例的流程。其中,存储
介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random
Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或
固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
所限定的范围之内。