会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 请求书 / 声明 / 一种新闻网页内容的抽取方法

一种新闻网页内容的抽取方法

阅读:947发布:2021-02-25

IPRDB可以提供一种新闻网页内容的抽取方法专利检索,专利查询,专利分析的服务。并且本发明新闻网页内容的抽取方法,该方法包括:先将页面解析成树结构,然后观察每个树节点,计算该节点及其子节点中纯文字数、长链接数和短链接数,并根据纯文字数占整个页面中的纯文字数的比例,长链接数和短链接数与纯文字数之间的比例,计算出哪个节点是最底层的包含正文的节点,经过关键词广告及版权声明处理器过滤,从而抽取出正文。,下面是一种新闻网页内容的抽取方法专利的具体信息内容。

1.一种去除噪音信息的新闻网页内容抽取方法,其特征在于,该方法包括以下步骤:解析Html页面,将html转换成标准xml格式,并过滤掉非显示的标记;

生成文档树结构(DOMTree)并遍历该计算页面包含的正文数,短链接数和长链接数;

一层一层计算每个节点的权重,找到最权重最大的节点,该节点就是包含正文的节点。

2.根据权利要求1所述的方法,其特征在于,步骤A中所述细化为:A1分析原始文档,补足html规范中需要的TAG,和缺少结尾的TAG,以及处理不规范的TAG属性的写法,将非良构的html页变成良构的;

A2 过滤掉

联系方式

©2019-2023 上海吉码数字技术有限公司 版权所有,并保留所有权利 沪ICP备20016256号-6 沪公网安备31011702005475号