会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
热词
    • 1. 发明申请
    • Web Crawler Scheduler that Utilizes Sitemaps from Websites
    • 使用网站站点地图的Web爬虫计划程序
    • US20150242508A1
    • 2015-08-27
    • US14606882
    • 2015-01-27
    • GOOGLE INC.
    • Sascha Benjamin BrawerMax IbelRalph Michael KellerNarayanan Shivakumar
    • G06F17/30
    • G06F17/30864
    • Systems and methods for scheduling documents for crawling are disclosed in which sitemap information is updated for a first website identified by a sitemap by downloading updated sitemap information for the first website and scheduling documents for crawling in accordance with the updated sitemap information for the first website. The sitemap information includes one or more sitemap indexes, where each respective sitemap index in the one or more sitemap indices includes a list of URLs corresponding to documents stored at a corresponding website in a plurality of websites, the plurality of websites including the first website, and each sitemap index in the one or more sitemap indexes includes information identifying one or more of: a last modification date of a URL in the list of URLs, a change frequency of a document specified by the URL, a document title, an authority of the document, and a priority of the document.
    • 公开了用于调度用于爬行的文档的系统和方法,其中通过根据第一网站的更新的站点地图信息下载针对第一网站的更新的站点地图信息和用于爬行的调度文档,针对由站点地图标识的第一网站更新了站点地图信息。 所述站点地图信息包括一个或多个站点地图索引,其中所述一个或多个站点地图索引中的每个相应的站点索引索引包括对应于存储在多个网站中的相应网站上的文档的URL的列表,所述多个网站包括第一网站, 并且所述一个或多个站点地图索引中的每个站点索引包括标识以下URL中的一个或多个的信息:URL列表中的URL的最后修改日期,URL指定的文档的变化频率,文档标题, 文件和文件的优先权。
    • 2. 发明授权
    • Web crawler scheduler that utilizes sitemaps from websites
    • Web爬网程序调度程序利用网站的站点地图
    • US09355177B2
    • 2016-05-31
    • US14606882
    • 2015-01-27
    • GOOGLE INC.
    • Sascha Benjamin BrawerMax IbelRalph Michael KellerNarayanan Shivakumar
    • G06F7/00G06F17/30
    • G06F17/30864
    • Systems and methods for scheduling documents for crawling are disclosed in which sitemap information is updated for a first website identified by a sitemap by downloading updated sitemap information for the first website and scheduling documents for crawling in accordance with the updated sitemap information for the first website. The sitemap information includes one or more sitemap indexes, where each respective sitemap index in the one or more sitemap indices includes a list of URLs corresponding to documents stored at a corresponding website in a plurality of websites, the plurality of websites including the first website, and each sitemap index in the one or more sitemap indexes includes information identifying one or more of: a last modification date of a URL in the list of URLs, a change frequency of a document specified by the URL, a document title, an authority of the document, and a priority of the document.
    • 公开了用于调度用于爬行的文档的系统和方法,其中通过根据第一网站的更新的站点地图信息下载针对第一网站的更新的站点地图信息和用于爬行的调度文档,针对由站点地图标识的第一网站更新了站点地图信息。 所述站点地图信息包括一个或多个站点地图索引,其中所述一个或多个站点地图索引中的每个相应的站点索引索引包括对应于存储在多个网站中的相应网站上的文档的URL的列表,所述多个网站包括第一网站, 并且所述一个或多个站点地图索引中的每个站点索引包括标识以下URL中的一个或多个的信息:URL列表中的URL的最后修改日期,由URL指定的文档的变化频率,文档标题, 文件和文件的优先权。