一种新闻网页内容的抽取方法专利检索-声明请求书国际申请第I章专利权专利检索查询-专利查询网

积极推动地理标志专门立法

2022-03-10 地理标志，立法，知识产权
保护知识产权是对创新最大的激励

2022-03-10 保护知识产权，创新，激励
谢商华：加快制定知识产权基本法

2022-03-10 知识产权基本法
擦亮“双奥之城”品牌

2022-03-10 双奥，知识产权
让冰雪运动“热”力全开

2022-03-10 冰雪运动，知识产权
携手共奋进　走好强国路

2022-03-10 强国，知识产权
坚持创新引领　方能稳中求进

2022-03-10 创新，稳中求进，知识产权
答好“两张卷” 奋进新征程

2022-03-10 知识产权
专家解读政府工作报告中的创新和知识产权相关部署

2022-03-10 政府工作报告，创新，知识产权
今年政府工作报告指出：加强知识产权保护和运用

2022-03-10 政府工作报告，知识产权保护

一种新闻网页内容的抽取方法

阅读：947发布：2021-02-25

IPRDB可以提供一种新闻网页内容的抽取方法专利检索，专利查询，专利分析的服务。并且本发明新闻网页内容的抽取方法，该方法包括：先将页面解析成树结构，然后观察每个树节点，计算该节点及其子节点中纯文字数、长链接数和短链接数，并根据纯文字数占整个页面中的纯文字数的比例，长链接数和短链接数与纯文字数之间的比例，计算出哪个节点是最底层的包含正文的节点，经过关键词广告及版权声明处理器过滤，从而抽取出正文。，下面是一种新闻网页内容的抽取方法专利的具体信息内容。

权利要求

1.一种去除噪音信息的新闻网页内容抽取方法，其特征在于，该方法包括以下步骤：解析Html页面，将html转换成标准xml格式，并过滤掉非显示的标记；

生成文档树结构（DOMTree）并遍历该计算页面包含的正文数，短链接数和长链接数；

一层一层计算每个节点的权重，找到最权重最大的节点，该节点就是包含正文的节点。

2.根据权利要求1所述的方法，其特征在于，步骤A中所述细化为：A1分析原始文档，补足html规范中需要的TAG，和缺少结尾的TAG，以及处理不规范的TAG属性的写法，将非良构的html页变成良构的；

A2 过滤掉

友情链接

知嘟嘟专利交易国家知识产权局中国商标网

一种新闻网页内容的抽取方法

友情链接

联系方式