一种暗网威胁信息获取方法转让专利

申请号 : CN202210166145.3

文献号 : CN114710315B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张弛胡晴余文豪

申请人 : 中国兵器工业信息中心

摘要 :

本发明涉及一种暗网威胁信息获取方法,属于互联网信息技术领域。本方法提出了可扩展的具隐蔽性的自动化接入架构,可绕过反爬策略的多暗网爬虫引擎,是一种能够广泛获取暗网桥节点和暗网网站的反隐蔽技术。首先,搭建客户端接入暗网,监测暗网交互流量。然后,通过暗网中部署中继节点,监测流经中继节点的流量。最后,利用分布式爬虫,收集暗网隐藏服务器地址。本方法提出了可扩展的多服务暗网接入架构,实现了多暗网服务的自动化的接入,能够防止信息泄露、克服暗网桥节点的动态性和分布性。同时,本方法获取了尽可能全面的桥节点、解决暗网隐藏服务的分布式、高隐匿性特点,获取尽可能广泛的暗网网站域名。

权利要求 :

1.一种暗网威胁信息获取方法,其特征在于,包括以下步骤:

步骤S1:搭建客户端接入暗网,监测暗网交互流量;

其中,制作包含洋葱路由Tor网络、FreeNet网络、ZeroNet网络以及I2P在内的各类节点容器、客户端容器和服务器端容器,并建立暗网封闭环境,进行域名搜集,发现孤立以及未公布节点;

步骤S2:通过暗网中部署中继节点,监测流经中继节点的流量,包括以下步骤:步骤S2.1:在客户端上建立一个Guard中继节点,将Guard中继节点用作由其自身构建的所有电路进入Tor网络的第一跳入口;通过投放多个中继节点,从而获取更多流量信息;

步骤S2.2:运行中继节点,进行时序分析、协议分析,获取隐蔽网桥节点,获取隐蔽网桥节点信息;

步骤S2.3:每间隔一段时间t,向设定的邮箱地址发送请求隐蔽网桥节点的邮件,并从得到回复的邮件中抽取Tor的隐蔽网桥节点,按照预定格式存储到节点资源数据库中;在固定时间段内,提升资源节点收集数量;

步骤S2.4:扫描使用各类暗网匿名通信协议的服务,通过中继节点尝试重新连接到与中继节点连接的每个客户端上的可能端口;

步骤S2.5:选定一组端口执行Internet范围内的扫描,在每个IP端口对上启动TLS握手,并在握手成功后收集TLS证书;

如果从IP地址收集的证书与Tor证书关联的模式匹配,则将为证书提供服务的IP地址对应于Tor OR或Tor OR的代理,否则,不将其对应于Tor OR或Tor OR的代理;

步骤S2.6:在扫描时,生成一组运行OR或代理的IP地址;部分IP地址与Tor中继节点相对应,并使用与网桥相同类型的证书;使用收集器CollecTor的“网络状态共识”将IP分类为中继节点;任何不与Tor中继节点对应的IP地址,都属于发现的IP地址;

步骤S2.7:通过Tor协议连接到扫描的OR端口上发现的IP地址,下载网桥描述符;描述符成功下载,则表示IP地址已验证;

步骤S2.8:将收集到的描述符的IP地址,与出现在描述符内容中的IP地址进行比较;两个IP地址之间的差异表示已验证的IP地址对应于一个代理,该代理将流量转发到描述符所属的IP地址上运行的描述符所属于的后端OR;如果未发现差异,则验证的IP地址对应于网桥;

步骤S2.9:由于下载的描述符包含网桥未消毒的指纹,首先对其进行哈希处理,获得消毒的指纹;

在收集器CollecTor中搜索经过消毒处理的指纹;如果找到,则描述符属于一个公共网桥,否则它属于一个私有网桥;对于公共网桥,将IP地址映射到特定网桥,从而能够访问收集器CollecTor中的所有历史数据;

步骤S3:利用分布式爬虫,收集暗网隐藏服务器地址,包括以下步骤:步骤S3.1:通过开源的全文搜索框架Solr,直接搜索Nutch获取的页面信息;为爬取下来的页面维护一个索引,对抓取结果进行复杂条件查询、模糊查询;

步骤S3.2:指定数据源获取信息,使抓取更有针对性及目的性;同时,针对不同暗网网站,生成定制抽取模板,抽取有效信息;

步骤S3.3:动态设置用户代理User‑Agent,禁用Cookies,设置延迟下载,使用IP地址池;

最终,形成大规模的分布式暗网爬虫平台,对暗网进行实时爬取更新存储。

2.如权利要求1所述的一种暗网威胁信息获取方法,其特征在于,步骤S1包括以下步骤:利用SHA1算法对公钥计算并取前10个字符,利用Base32方式进行编码,得到匿名服务域名;

通过I2P客户端地址簿获取域名地址;每个I2P节点在本地保存维护一个hosts.txt,其中包含域名;通过搜集I2P节点地址簿,完成网站域名搜集;

FreeNet通过索引网站直接获取FreeNet键值。

说明书 :

一种暗网威胁信息获取方法

技术领域

[0001] 本发明涉及一种暗网威胁信息获取技术,属于互联网信息技术领域。

背景技术

[0002] 随着世界各国对明网加强了监督和管制,高匿名性和匿踪性的暗网受到大量的非法分子的。因此,研究暗网空间资源并对其进行实时监控,对于国家和社会的安全具有重要意义。
[0003] 通过对暗网空间当前提供的服务情况、暗网节点和网站隐匿资源分布情况等进行探测分析,并实时监控暗网中犯罪交易信息,实现重要军事、政治威胁情报的获取和暗网空间的安全态势分析。采用主动探测和被动采集相关技术手段,构建完整的暗网空间网络威胁信息获取框架,实现暗网节点、域名和网络安全漏洞及数据交易信息的获取和建模分析,解决当前匿名网络中暗网流量和内容隐蔽性高、难以构建全面的网络安全监测体系的问题。
[0004] 暗网内资源的数量和质量都优于明网,搜集暗网资源的意义重大。但是,暗网自身的特点导致收集信息的难度大。
[0005] 现有技术主要针对深网中除暗网以外的资源,即一些隐匿在搜索表单后的web数据库。少部分针对暗网的研究,一般只爬取与某个特定主题相关的内容,或者仅分析某个特定的暗网协议。

发明内容

[0006] 本发明的目的是针对现有技术存在的缺陷,为有效解决暗网流量无法准确识别的技术问题,创造性地提出一种暗网威胁信息获取方法。
[0007] 本发明的创新点在于:在暗网信息获取上,提出了可扩展的具隐蔽性的自动化接入架构,可绕过反爬策略的多暗网爬虫引擎,是一种能够广泛获取暗网桥节点和暗网网站的反隐蔽技术。
[0008] 首先,搭建客户端接入暗网,监测暗网交互流量。
[0009] 然后,通过暗网中部署中继节点,监测流经中继节点的流量。
[0010] 最后,利用分布式爬虫,收集暗网隐藏服务器地址。
[0011] 有益效果
[0012] 本发明,对比现有技术,具有以下优点:
[0013] 1.本方法提出了可扩展的多服务暗网接入架构,实现了多暗网服务的自动化的接入,能够防止信息泄露、克服暗网桥节点的动态性和分布性。
[0014] 2.本方法获取了尽可能全面的桥节点、解决暗网隐藏服务的分布式、高隐匿性特点,获取尽可能广泛的暗网网站域名。

附图说明

[0015] 图1是本发明所述大规模自动化封闭暗网环境流量采集架构示意图;
[0016] 图2是本发明所述暗网爬虫架构示意图。

具体实施方式

[0017] 下面结合附图对本发明方法做进一步详细说明。
[0018] 如图1所示,一种暗网威胁信息获取方法,包括以下步骤:
[0019] 步骤S1:搭建客户端接入暗网,监测暗网交互流量。
[0020] 具体地,步骤S1包括以下步骤:
[0021] 步骤S1.1:制作包含Tor(The Onion Router,洋葱路由)、FreeNet(一种完全分布式的P2P匿名发布网络)、ZeroNet(零网,一种去中心化网络)以及I2P(一个在匿名网络环境下进行安全数据传输的框架)在内的各类节点容器、客户端容器和服务器端容器,并建立大规模暗网封闭环境,进行域名搜集,发现孤立以及未公布节点。
[0022] 步骤S1.2:利用SHA1算法对公钥计算并取前10个字符,利用Base32方式进行编码,得到匿名服务域名。
[0023] 步骤S1.3:通过I2P客户端地址簿获取域名地址。每个I2P节点在本地保存维护一个hosts.txt,其中包含域名。通过搜集I2P节点地址簿,完成网站域名搜集。
[0024] 步骤S1.4:FreeNet通过索引网站(如Enzo’s Index、The Filtered Index和Nerdageddon等),直接获取FreeNet键值。
[0025] 其中,Zeronet可以从官方网站搜集网站域名,通过本地host等json文件搜集暗网域名。
[0026] 步骤S2:通过暗网中部署中继节点,监测流经中继节点的流量。
[0027] 具体地,步骤S2包括以下步骤:
[0028] 步骤S2.1:在客户端上建立一个Guard中继,将Guard中继用作由其自身构建的所有电路进入Tor网络的第一跳入口。通过投放多个中继节点,从而获取更多流量信息。
[0029] 步骤S2.2:运行中继节点,进行时序分析、协议分析,获取隐蔽桥节点,获取网桥节点信息。
[0030] 步骤S2.3:每间隔一段时间t,向设定的邮箱地址(如bridges@torproject.org)发送请求桥节点的邮件,并从得到回复的邮件中抽取Tor的网桥节点,按照预定格式存储到节点资源数据库中。在固定时间段内,提升资源节点收集数量。
[0031] 步骤S2.4:扫描使用各类暗网匿名通信协议的服务,通过中继节点尝试重新连接到与中继连接的每个客户端上的可能端口。
[0032] 步骤S2.5:选定一组端口执行Internet范围内的扫描,在每个IP端口对上启动TLS握手,并在握手成功后收集TLS(安全传输层协议)证书。
[0033] 如果从IP地址收集的证书与Tor证书关联的模式匹配,则将为证书提供服务的IP地址对应于TorOR(或TorOR的代理),否则,不将其对应于TorOR(或TorOR的代理)。
[0034] 步骤S2.6:在扫描时,生成一组运行OR(或代理)的IP地址。部分IP地址与Tor中继相对应,并使用与网桥相同类型的证书。使用收集器CollecTor的“网络状态共识”将IP分类为中继。任何不与Tor中继对应的IP地址,都属于发现的IP地址。
[0035] 步骤S2.7:通过Tor协议连接到扫描的OR端口上发现的IP地址,下载网桥描述符。描述符成功下载,则表示IP地址已验证。
[0036] 步骤S2.8:将收集到的描述符的IP地址,与出现在描述符内容中的IP地址进行比较。两个IP地址之间的差异表示已验证的IP地址对应于一个代理,该代理将流量转发到描述符所属的IP地址上运行的描述符所属于的后端OR。如果未发现差异,则验证的IP地址对应于网桥。
[0037] 步骤S2.9:由于下载的描述符包含桥未消毒的指纹,首先对其进行哈希处理,获得消毒的指纹。
[0038] 在收集器CollecTor中搜索经过消毒处理的指纹。如果找到,则描述符属于一个公共桥,否则它属于一个私有桥。对于公共网桥,将IP地址映射到特定网桥(即经过处理的指纹),从而能够访问收集器CollecTor中的所有历史数据。
[0039] 步骤S3:利用分布式爬虫,收集暗网隐藏服务器地址。如图2所示。
[0040] 具体地,步骤S3包括以下步骤:
[0041] 步骤S3.1:通过开源的全文搜索框架Solr,直接搜索Nutch(一个开源Java实现的搜索引擎)获取的页面信息。为爬取下来的页面维护一个索引,对抓取结果进行复杂条件查询、模糊查询。
[0042] 步骤S3.2:指定数据源获取信息,使抓取更有针对性及目的性。同时,针对不同暗网网站,生成定制抽取模板,抽取有效信息。
[0043] 步骤S3.3:动态设置用户代理User‑Agent,禁用Cookies,设置延迟下载,使用IP地址池(VPN和代理IP)。
[0044] 最终,形成大规模的分布式暗网爬虫平台,对暗网进行实时爬取更新存储,实现了对大规模暗网网站内容搜集。