基于多源异构遥感数据关联构建及多用户数据匹配方法转让专利

申请号 : CN202010447854.X

文献号 : CN111666313B

文献日 : 2023-02-07

本发明公开了一种基于多源异构遥感数据关联构建及多用户数据匹配方法，包括如下步骤：步骤一：输入遥感业务数据集和遥感产品数据集；步骤二：进行数据清洗和预处理；步骤三：进行数据分类建模；步骤四：知识抽取，包括遥感业务数据的属性抽取和遥感产品数据的特征提取；步骤五：进行多源异构知识融合，将多个知识构建链接关系，根据对遥感数据抽取出的元数据信息，融合不同本体数据的属性相似度来构建多个知识体系的链接关系；步骤六：关联关系模型构建；步骤七：对已采集的大量用户身份和行为数据进行挖掘分析，构建用户画像标签；步骤八：用户的身份和行为进行相似度计算；步骤九：进行个性化用户画像模型构建，与关联关系构建模型中的结果进行匹配。

1.一种基于多源异构遥感数据关联构建及多用户数据匹配方法，其特征在于，包括如下步骤：步骤一：输入遥感业务数据集和遥感产品数据集，所述遥感业务数据集包括目标、轨迹、文本、图片数据；遥感产品数据包括Sar影像、全色影像、多光谱影像数据、可见光数据遥感影像数据；

步骤二：进行数据清洗和预处理，所述数据清洗包括：对于遥感业务数据进行语法检查、拼写检查、缺失值处理、去重处理、去除无效字符和噪声处理；所述预处理包括对于遥感产品数据，借助人工判读进行影像质量检查，对于变形、云雾干扰的影像首先进行影像预处理；包括剔除不必要的厚云区域，进行云雾去除；进行形变校正，针对SAR成像存在几何形变导致机场、道路发生弯曲，运用图像非均匀采样的方法进行形变校正，采用双线性插值、或立方插值方法进行像元位置或像元间距重新采样；

步骤三：进行数据分类建模，数据分类建模输入为步骤二进行清洗后的数据集，分类器采用数据挖掘中关联规则挖掘的方法，基于关联规则的分类，首先用关联规则挖掘算法从训练数据本体样本集中挖掘出所有指定置信度的类关联规则；然后从挖掘出的类关联规则中迭代出最优规则用于分类，最后运用最优规则将表征同一事物的本体聚集到一起，将多个异构本体合并为全局统一本体；

步骤四：知识抽取，包括遥感业务数据的属性抽取和遥感产品数据的特征提取；所述遥感业务数据的属性抽取包括名称、时间、空间、上传者、所属国家、数据格式、关键词、元数据信息的抽取；所述元数据信息包括数据类别、数据名称、分辨率、所属卫星、传感器、包含目标、景号、位置、范围、产品级别、拇指图；所述特征提取首先根据遥感影像的相谱显著性图，提取感兴趣区域；在感兴趣区域内进行同质滤波，结合相谱显著性图，确认待检测目标区域；在目标区域内，计算各目标的主轴方向，提取目标的S‑HOG特征描述子；根据目标的形状知识，对目标的S‑HOG特征描述子进行判别，进行目标判断识别和提取；

步骤五：进行多源异构知识融合，将多个知识构建链接关系，根据对遥感数据抽取出的元数据信息，通过融合不同本体数据的属性相似度来构建多个知识体系的链接关系；

步骤六：关联关系模型构建，通过对本体知识的抽取和融合，在数据库建立索引，运用图数据库构建知识图谱拓扑关系，得到关联关系构建模型；

步骤七：对已采集的大量用户身份和行为数据进行挖掘分析，构建用户画像标签，在对原始数据进行整合和筛选后，根据数据的属性和重要性，将数据划分为两类标签数据，分别是静态标签数据和动态标签数据；

步骤八：针对不同类用户的身份和行为进行相似度计算，通过静态标签数据和动态标签数据进行挖掘分析，进行相似度计算，对庞大的用户群体进行归类；

步骤九：进行个性化用户画像模型构建，步骤八相似度计算的输出为一类用户的行为习惯，将之与关联关系构建模型中的结果进行匹配。

2.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法，其特征在于：所述步骤一中的目标为能够从遥感影像上提取到的物体，包括舰船、港口飞机、机场、标志性地标建筑物，所述轨迹为物体运动轨迹，包括：舰船轨迹，无人机航迹线，所述图片为与影像相关的缩略图、与目标相关的公开图片。

3.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法，其特征在于：所述步骤五中，通过融合不同本体数据的属性相似度来构建多个知识体系的链接关系，所述数据的属性是指元数据信息的属性，对于遥感影像产品，通过特征提取、语义分析的方式提取出舰船目标，舰船目标作为元数据信息，包括位置、型号、大小多个属性值，通过属性值集的比对，判断本体数据是否有关联性。

4.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法，其特征在于：所述步骤七，将数据划分为两类标签数据，分别是静态标签数据和动态标签数据，具体包括：静态标签数据抽取，静态标签数据的内容稳定无变动，存储格式为结构化形式；

动态标签数据抽取，动态标签数据是用户与业务系统交互过程中不断变化的行为信息，动态标签数据主要包括浏览行为信息、下载行为信息、评价行为信息。

5.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法，其特征在于：所述步骤八中，用户偏好相似度计算包括：以用户的行为习惯作为用户偏好考量依据，选择代表用户行为深度的3个标签，分别是浏览、下载及评价，并为这3个标签设置权重，分别用v、d、e表示，权重值分别为1/6、1/2、1/

3；若对当前产品有相应行为则在相应行为值上加上对应权值，否则加0，用pref表示用户对一个产品的偏好程度，即偏好值，则：pref＝v+d+e (1)

对每一个用户重复上述步骤，得到用户偏好集。

6.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法，其特征在于，所述步骤八中，用户身份相似度计算包括：从构建好的用户画像标签中选择较能代表用户社会身份的5个标签，分别是机构、组织、类型、行业、国籍，并为这5个标签设置权重，分别用s1、s2、s3、s4、s5表示，权重值分别设置为2/9、2/9、2/9、2/9、1/9；通过对比两两用户之间的5个身份标签来计算用户身份相似度，假设对应标签相同，则加上对应权重，否则为0，用simI(u,v)表示用户u与用户v的身份相似度，则：simI(u,v)＝s1+s2+s3+s4+s5 (2)。

7.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法，其特征在于，所述步骤九中用户画像模型构建包括：用户‑数据模型构建包括，构建包括用户‑数据矩阵，代表用户对产品的偏好值；

结合用户身份相似度和用户行为相似度计算用户相似度，得到用户对产品的测偏好值集合；

最后进行关联数据的用户匹配，根据获取到的用户预测偏好值集合，匹配到用户感兴趣数据列表集，通过关联关系构建层，得到和用户感兴趣数据相关的所有关联数据拓扑集。

8.根据权利要求7所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法，其特征在于，用户‑数据模型构建包括：构建用户‑数据矩阵，R(n,m)＝pref，pref表示用户对数据的偏好值，即第n个用户对第m个产品的偏好值；

在用户‑数据矩阵的基础上以余弦相似性度量用户偏好相似性，余弦相似性通过计算向量之间的余弦夹角来度量用户相似性；设用户u和用户v之间的相似度为simcoll(u,v)，用户u的偏好值表示为向量u，用户v的偏好值表示为向量v，则simcoll(u,v)计算如下：

9.根据权利要求7所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法，其特征在于，所述用户相似度计算，用户相似度结合了用户身份相似度simI和用户行为相似度simcoll(u,v)，λ用于调节参数，其中0≤λ≤1，具体计算如公式所示：sim(u,v)＝λ×simI(u，v)+(1‑λ)×simcoll(u,v) (4)在得到用户相似度之后，取目标用户相似度值最高的k个用户作为目标用户的最近邻用户，然后根据最近邻用户对产品的偏好值预测目标用户的偏好；计算公式如下：代表与用户u

最近的k个邻居用户集合，P(u,m)表示用户u对产品m的预测偏好值；分别为用户u和用户v的喜好均值；根据该公式逐个计算出用户u未访问过的所有产品的预测偏好值，得到预测偏好值集合。

基于多源异构遥感数据关联构建及多用户数据匹配方法

技术领域

[0001] 本发明涉及数据处理领域，尤其涉及一种基于多源异构遥感数据关联构建及多用户数据匹配方法。

背景技术

[0002] 近年来，我国遥感对地观测技术的飞速发展，某些领域已跻身国际前列，遥感数据被广泛应用于国民经济和社会发展各个领域。为满足不断深化的应用需求，卫星数量不断增多，遥感影像分辨率/幅宽不断提升、可见光、高光谱、SAR等各种遥感数据大量获取，每日达10TB以上，对不同领域的用户，如何准确、智能地识别用户需求，并及时进行遥感数据产品的精准推荐,满足不同用户的业务需求，是遥感数据应用推广、实现商业价值面临的极大挑战。

[0003] 在遥感数据推广服务相关领域，现有系统都是用户通过与计算机可视化终端交互的方式，从庞大的数据库筛选出数据的方式进行遥感数据的浏览、下载以及制作；在遥感数据用户画像构建领域，现有系统对用户划分的力度较大，一般都是从行业或者业务模式进行粗粒度划分，如部队、科研所、政府部门、高等院校，不能具体到应用需求层面进行用户画像的构建。

[0004] 遥感大数据时代来源多样、数据量庞大、关联关系复杂。在用户面临日以TB级量级的数据增长率，单景遥感数据量大小也是GB级，现有系统大多是通过人机交互调用遥感数据的一方面不能及时的发现可用的数据，另一方面借助人工判读的方式来判断提取数据的有用信息，存在效率低下，并且没有统一衡量标准；另外对用户的精准定位方面，考虑到遥感数据用户种类多样化，现有系统缺乏对用户的多维度了解，不能结合用户信息进行数据使用意图的推测和建模分析，难以提供以用户需求为导向的精准推荐服务。

发明内容

[0005] 本发明的目的是解决由抽象的遥感数据到具体的信息知识的转换，通过数据特征融合等手段建立多源异构数据之间的关联关系，为数据智能推荐提供数据基础；再者深度挖掘用户信息，对用户进行挖掘建模，为用户提供以需求为导向的精准推荐服务。

[0006] 本发明将挖掘和知识图谱技术运用到遥感技术领域，运用数据挖掘技术进行特征提取，构建面向多源异构遥感数据的特征融合与知识推理框架，实现多源数据的组织关联，为后续数据应用提供支撑；同时通过挖掘分析技术，全面系统地搜集用户信息资源，对用户背景信息、行为习惯等主要特征进行挖掘分析，建立个性化用户画像模型，结合数据关联建模，进行数据匹配。该方法最大化的挖掘数据的可用信息，并及时的进行多源异构数据的共享，使得用户全面、概括的掌握感兴趣数据的所有信息，最大化的实现了遥感数据使用价值。

[0007] 本发明的提出一种基于多源异构遥感数据关联构建及多用户数据匹配方法，包括如下步骤：

[0008] 步骤一：输入遥感业务数据集和遥感产品数据集，所述遥感业务数据集包括目标、轨迹、文本、图片数据；遥感产品数据包括Sar影像、全色影像、多光谱影像数据、可见光数据遥感影像数据；

[0009] 步骤二：进行数据清洗和预处理，所述数据清洗包括：对于遥感业务数据进行语法检查、拼写检查、缺失值处理、去重处理、去除无效字符和噪声处理；所述预处理包括对于遥感产品数据，借助人工判读进行影像质量检查，对于变形、云雾干扰的影像首先进行影像预处理；包括剔除不必要的厚云区域，进行云雾去除；进行形变校正，针对SAR成像存在几何形变导致机场、道路发生弯曲，运用图像非均匀采样的方法进行形变校正，采用双线性插值、或立方插值方法进行像元位置或像元间距重新采样；

[0010] 步骤三：进行数据分类建模，数据分类建模输入为步骤二进行清洗后的数据集，分类器采用数据挖掘中关联规则挖掘的方法，基于关联规则的分类，首先用关联规则挖掘算法从训练数据本体样本集中挖掘出所有指定置信度的类关联规则；然后从挖掘出的类关联规则中迭代出最优规则用于分类，最后运用最优规则将表征同一事物的本体聚集到一起，将多个异构本体合并为全局统一本体；

[0011] 步骤四：知识抽取，包括遥感业务数据的属性抽取和遥感产品数据的特征提取；所述遥感业务数据的属性抽取包括名称、时间、空间、上传者、所属国家、数据格式、关键词、元数据信息的抽取；所述元数据信息包括数据类别、数据名称、分辨率、所属卫星、传感器、包含目标、景号、位置、范围、产品级别、拇指图；所述特征提取首先根据遥感影像的相谱显著性图，提取感兴趣区域；在感兴趣区域内进行同质滤波，结合相谱显著性图，确认待检测目标区域；在目标区域内，计算各目标的主轴方向，提取目标的S‑HOG特征描述子；根据目标的形状知识，对目标的S‑HOG特征描述子进行判别，进行目标判断识别和提取；

[0012] 步骤五：进行多源异构知识融合，将多个知识构建链接关系，根据对遥感数据抽取出的元数据信息，通过融合不同本体数据的属性相似度来构建多个知识体系的链接关系；

[0013] 步骤六：关联关系模型构建，通过对本体知识的抽取和融合，在数据库建立索引，运用图数据库构建知识图谱拓扑关系，得到关联关系构建模型；

[0014] 步骤七：对已采集的大量用户身份和行为数据进行挖掘分析，构建用户画像标签，在对原始数据进行整合和筛选后，根据数据的属性和重要性，将数据划分为两类标签数据，分别是静态标签数据和动态标签数据；

[0015] 步骤八：针对不同类用户的身份和行为进行相似度计算，通过静态标签数据和动态标签数据进行挖掘分析，进行相似度计算，对庞大的用户群体进行归类；

[0016] 步骤九：进行个性化用户画像模型构建，步骤八相似度计算的输出为一类用户的行为习惯，将之与关联关系构建模型中的结果进行匹配。

[0017] 进一步的，所述步骤一中的目标为能够从遥感影像上提取到的物体，包括舰船、港口飞机、机场、标志性地标建筑物，所述轨迹为物体运动轨迹，包括：舰船轨迹，无人机航迹线，所述图片为与影像相关的缩略图、与目标相关的公开图片。

[0018] 进一步的，所述步骤五中，通过融合不同本体数据的属性相似度来构建多个知识体系的链接关系，所述数据的属性是指元数据信息的属性，对于遥感影像产品，通过特征提取、语义分析的方式提取出舰船目标，舰船目标作为元数据信息，包括位置、型号、大小多个属性值，通过属性值集的比对，判断本体数据是否有关联性。

[0019] 进一步的，所述步骤七，将数据划分为两类标签数据，分别是静态标签数据和动态标签数据，具体包括：

[0020] 静态标签数据抽取，静态标签数据的内容稳定无变动，存储格式为结构化形式；

[0021] 动态标签数据抽取，动态标签数据是用户与业务系统交互过程中不断变化的行为信息，动态标签数据主要包括浏览行为信息、下载行为信息、评价行为信息。

[0022] 进一步的，所述步骤八中，用户偏好相似度计算包括：

[0023] 以用户的行为习惯作为用户偏好考量依据，选择代表用户行为深度的3个标签，分别是浏览、下载及评价，并为这3个标签设置权重，分别用v、d、e表示，权重值分别为1/6、1/2、1/3；若对当前产品有相应行为则在相应行为值上加上对应权值，否则加0，用pref表示用户对一个产品的偏好程度，即偏好值，则：

[0024] pref＝v+d+e (1)

[0025] 对每一个用户重复上述步骤，得到用户偏好集。

[0026] 进一步的，其特征在于，所述步骤八中，用户身份相似度计算包括：

[0027] 从构建好的用户画像标签中选择较能代表用户社会身份的5个标签，分别是机构、组织、类型、行业、国籍，并为这5个标签设置权重，分别用s1、s2、s3、s4、s5表示，权重值分别设置为2/9、2/9、2/9、2/9、1/9；通过对比两两用户之间的5个身份标签来计算用户身份相似度，假设对应标签相同，则加上对应权重，否则为0，用simI(u,v)表示用户u与用户v的身份相似度，则：

[0028] simI(u,v)＝s1+s2+s3+s4+s5 (2)

[0029] 进一步的，所述步骤九中用户画像模型构建包括：

[0030] 用户‑数据模型构建包括，构建包括用户‑数据矩阵，代表用户对产品的偏好值；

[0031] 结合用户身份相似度和用户行为相似度计算用户相似度，得到用户对产品的测偏好值集合；

[0032] 最后进行关联数据的用户匹配，根据获取到的用户预测偏好值集合，匹配到用户感兴趣数据列表集，通过关联关系构建层，得到和用户感兴趣数据相关的所有关联数据拓扑集。

[0033] 进一步的，用户‑数据模型构建包括：构建用户‑数据矩阵，R(n,m)＝pref，pref表示用户对数据的偏好值，即第n个用户对第m个产品的偏好值；

[0034] 在用户‑数据矩阵的基础上以余弦相似性度量用户偏好相似性，余弦相似性通过计算向量之间的余弦夹角来度量用户相似性；设用户u和用户v之间的相似度为simcoll(u,v)，用户u的偏好值表示为向量u，用户v的偏好值表示为向量v，则simcoll(u,v)计算如下：

[0035]

[0036] 进一步的，所述用户相似度计算，用户相似度结合了用户身份相似度simI和用户行为相似度simcoll(u,v)，λ用于调节参数，其中0≤λ≤1，具体计算如公式所示：

[0037] sim(u,v)＝λ×simI(u，v)+(1‑λ)×simcoll(u,v) (4)

[0038] 在得到用户相似度之后，取目标用户相似度值最高的k个用户作为目标用户的最近邻用户，然后根据最近邻用户对产品的偏好值预测目标用户的偏好；计算公式如下：

[0039] 代表与用户u最近的k个邻居用户集合，P(u,m)表示用户u对产品m的预测偏好值；分别为用户u和用户v的喜好均值；根据该公式逐个计算出用户u未访问过的所有产品的预测偏好值，得到预测偏好值集合。

[0040] 有益效果：

[0041] 本发明的方法相对于现有技术的优点时：本发明盘活了遥感海量存档数据，一是解决遥感数据到具体的知识的转换，通过数据属性抽取、特征提取、数据融合等手段建立多源异构数据之间的关联关系；同时对用户属性、行为、习惯等信息进行挖掘建模，旨在为用户及时的提供以需求为导向的精准推荐服务。本发明经过试验证明可行，对大数据量处理速度快，实现遥感数据资源的精准推荐。与现有技术相比解决了不同用户获取多源异构遥感数据量太大难以精准定位的问题。

附图说明

[0042] 图1本发明的关联关系构建流程图；

[0043] 图2本发明关联关系拓扑关系图例；

[0044] 图3本发明一种基于多源异构遥感数据关联构建及多用户数据匹配方法总体流程图。

具体实施方式

[0045] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

[0046] 根据本发明的一个实施例，提出一种基于多源异构遥感数据关联构建及多用户数据匹配方法，进行关联关系构建，运用数据挖掘、文本分析、语义识别等方法对遥感各类本体数据进行特征抽取、模型抽象和规范化描述，运用知识图谱技术构建本体数据的关联关系，数据建模层是实现智能推荐的基础支撑。主要过程包括：

[0047] 1、原始数据输入。数据输入是整个关联关系建模的基础，本项目主要研究SAR、可见光、多光谱、三维模型、重点目标、文本、轨迹等遥感产品数据和遥感业务数据构成的多源数据，数据共有特征有位置、目标、属性、时间等信息。

[0048] 2、数据聚合分类。为了构建全局统一的关联关系，各个业务领域构建完成自己的图谱关系模型后，通过异构本体关联挖掘，将表征同一事物的本体聚集到一起，通过跨域本体集成将多个异构本体合并为全局统一本体。

[0049] 3、知识抽取。知识抽取层是从本体数据中提取出实体、属性以及实体间关系3类知识元素。实体代表客观存在的事物，实体抽取是从原始本体数据中提取出实体，首先需要发现实体，然后不断对实体数据进行属性填充，包括实体描述、图片、同义实体名等；关系抽取是在不同概念的实体间建立关系，包括实体、属性以及实体间关系3类知识元素，解决实体间语义链接的问题。

[0050] 4、知识融合。将不同来源的实体通过跨域知识表示学习模型和文本语义识别，建立实体关系表示模型，实现多个知识图谱的跨域语义融合。

[0051] 5、关联关系构建。在现有知识融合后的数据表(目标特性库、测试样本库、目标知识库)上抽象出关系模型，创建主要实体，属性，关联边，将多领域、多来源、多种类的信息，实现多源数据的组织关联。

[0052] 具体的，根据本发明的一个实施例，结合图1所示的流程图，如下：

[0053] 步骤一：输入遥感业务数据集和遥感产品数据集。遥感业务数据集包括目标、轨迹、文本、图片等数据；遥感产品数据包括Sar影像、全色影像、多光谱影像数据、可见光数据等遥感影像数据。

[0054] 步骤二：数据清洗和预处理，对于遥感业务数据进行语法检查、拼写检查、缺失值处理、去重处理、去除无效字符和噪声处理；对于遥感产品数据进行粗检查，借助人工判读进行影像质量检查，对于变形、云雾干扰的影像首先进行影像预处理；

[0055] 薄云雾去除：剔除不必要的厚云区域，运用现用云判工具进行云雾去除，提升图像质量。

[0056] 形变校正：针对SAR成像存在几何形变导致机场、道路发生弯曲，影响后续影像提取精度的问题，针对Sar影像，运用图像非均匀采样的方法进行形变校正，图像重采样可以采用双线性插值、立方插值等精度较高的方法。

[0057] 步骤三：数据分类建模

[0058] 分类器运用的是数据挖掘中关联规则挖掘的方法，基于关联规则的分类，首先用关联规则挖掘算法从训练数据本体样本集中挖掘出所有指定置信度的关联规则；然后从挖掘出的类关联规则中迭代出最优规则用于分类。最后运用最优规则将表征同一事物的本体聚集到一起，将多个异构本体合并为全局统一本体。

[0059] 步骤四：知识抽取。

[0060] 知识抽取包括遥感业务数据的属性抽取和遥感产品数据的特征提取。

[0061] 遥感业务数据的知识抽取主要包括名称、时间、空间、上传者、所属国家、数据格式、关键词等元数据信息的抽取。

[0062] 遥感产品数据的知识抽取包括属性抽取和特征提取两部份。属性抽取主要包括数据类别、数据名称、分辨率、所属卫星、传感器、包含目标、景号、位置、范围、产品级别、拇指图等元数据信息。特征提取首先根据遥感影像的相谱显著性图，提取感兴趣区域；在感兴趣区域内进行同质滤波，结合相谱显著性图，确认待检测目标区域；在目标区域内，计算各目标的主轴方向，提取目标的S‑HOG特征描述子；根据目标的形状知识，对目标的S‑HOG特征描述子进行判别，进行目标判断识别和提取。

[0063] 步骤五：知识融合。知识融合即是将两个或多个知识构建链接关系。根据对遥感数据抽取出的元数据信息，通过融合不同本体数据的属性(元数据信息的属性)相似度来构建多个知识体系的链接关系。如对于遥感影像产品，通过特征提取、语义分析等的方式提取出舰船目标，舰船目标作为元数据信息，可以有位置、型号、大小等多个属性值，通过属性值集的比对，判断本体数据是否有关联性。

[0064] 步骤六：关联关系构建。通过对本体知识的抽取和融合，在数据库建立索引，运用图数据库构建知识图谱拓扑关系。表现形式如图2所示。根据提取出的实体和实体关系，将系统中用到的数据进行入库，本发明使用的是图形数据库用于知识图谱的存储，可以直接进行直观的拓扑展示，图2中展示是在系统目录选择一景影像后构建的拓扑关系图示例。

[0065] 完成关联关系构建后，本发明进一步进行用户画像构建层，通过挖掘分析技术，全面系统地搜集用户信息资源，对用户背景信息、行为习惯等主要特征进行挖掘分析，建立个性化用户画像模型。参见图3，主要过程包括如下步骤：

[0066] 步骤七：构建用户画像标签。对已采集的大量用户身份和行为数据进行挖掘分析。在对原始数据进行整合和筛选后，根据数据的属性和重要性，将数据划分为两类标签数据，分别是静态标签数据和动态标签数据。

[0067] 1.1静态标签数据抽取。静态标签数据的内容稳定无变动，存储格式为结构化形式。

[0068] 1.2动态标签数据抽取。动态标签数据是用户与业务系统交互过程中不断变化的行为信息。动态标签数据主要包括浏览行为信息、下载行为信息、评价行为信息。

[0069] 步骤八：相似度计算。相似度计算针对不同类用户的身份和行为，通过静态标签数据和动态标签数据进行挖掘分析，进行相似度统计，目的是为庞大的用户群体进行归类，提高智能推荐的效率。本发明提出身份相似度计算和用户偏好相似度计算两种策略。

[0070] 步骤九：个性化用户画像模型构建。相似度计算的输出为一类用户的行为习惯，与关联关系构建模型中的结果进行匹配。具体流程图如图3所示。

[0071] 所述步骤七具体包括：属性抽取，在对原始数据进行整合和筛选后，根据数据的属性，划分为静态数据标签和动态数据标签；

[0072] 静态数据标签的抽取，主要是用户属性信息，主要包括用户名、用户ID、密码、邮箱、联系方式、机构、组织、类型、行业、国籍等；

[0073] 动态标签数据抽取，主要包括浏览行为信息、下载行为信息、评价行为信息。访问行为信息主要包含：用户所在单位、用户访问时间、用户访问次数、用户访问的IP、用户访问模块；下载行为信息主要包括下载单位、下载数据类型、下载数据次数、下载数据大小、下载数据卫星载荷、下载数据类型、下载数据分辨率；评价行为信息主要包括评价分级、评价内容、评价用户。

[0074] 所述步骤八中，用户身份相似度计算和用户偏好相似度计算两种策略。

[0075] 用户身份相似度计算包括：从构建好的用户画像标签中选择较能代表用户社会身份的5个标签，分别是机构、组织、类型、行业、国籍，并为这5个标签设置权重，分别用s1、s2、s3、s4、s5表示，权重值分别设置为2/9、2/9、2/9、2/9、1/9。通过对比两两用户之间的5个身份标签来计算用户身份相似度，假设对应标签相同，则加上对应权重，否则为0，用simI(u,v)表示用户u与用户v的身份相似度，则：

[0076] simI(u,v)＝s1+s2+s3+s4+s5 (1)

[0077] 其中，用户偏好相似度计算包括：以用户的行为习惯作为用户偏好考量依据，选择较能代表用户行为深度的3个标签，分别是浏览、下载及评价，并为这3个标签设置权重，分别用v、d、e表示，权重值分别为1/6、1/2、1/3。若对当前产品有相应行为则在相应行为值上加上对应权值，否则加0，用pref表示用户对一个产品的偏好程度，即偏好值，则：

[0078] pref＝v+d+e (2)

[0079] 对每一个用户重复上述步骤，得到用户偏好集；

[0080] 所述步骤九中用户画像模型构建，具体包括用户‑数据模型构建、用户相似度计算和关联数据的用户匹配。

[0081] 1.用户‑数据模型构建。构建用户‑数据矩阵，如下表1所示，其中R(n,m)＝pref，表示用户对数据的偏好值，即用户n对产品m的偏好值。

[0082] 表1用户‑数据矩阵

[0083] p1 p2 …… pm
u1 R(1,1) R(1,2) …… R(1,m)
u2 R(2,1) R(2,2) …… R(2,m)
…… … …… …… ……
un R(n,1) R(n,2) …… R(n,m)

[0084] pm代表第m个产品；un代表第n个用户。

[0085] 最后在用户‑数据矩阵的基础上以余弦相似性度量用户偏好相似性，余弦相似性通过计算向量之间的余弦夹角来度量用户相似性。设用户u和用户v之间的相似度为simcoll(u,v)，用户u的偏好值表示为向量u，用户v的偏好值表示为向量v，则simcoll(u,v)计算如下：

[0086]

[0087] 2.用户相似度计算，用户相似度结合了用户身份相似度simI和用户行为相似度simcoll(u,v)，λ用于调节参数，其中0≤λ≤1，具体计算如公式所示：

[0088] sim(u,v)＝λ×simI(u，v)+(1‑λ)×simcoll(u,v)(4)

[0089] 在得到用户相似度之后，取目标用户相似度值最高的k个用户作为目标用户的最近邻用户，然后就可以根据最近邻用户对产品的偏好值预测目标用户的偏好；计算公式如下：

[0090] 代表与用户u最近的k个邻居用户集合，P(u,m)表示用户u对产品m的预测偏好值；分别为用户u和用户v的喜好均值；根据该公式逐个计算出用户u未访问过的所有产品的预测偏好值，得到预测偏好值集合。

[0091] 3.关联数据的用户匹配。根据获取到的用户预测偏好值集合，可以匹配到用户感兴趣数据列表集，通过关联关系构建层，可以得到和用户感兴趣数据相关的所有关联数据拓扑集，该集合以拓扑或数据集的方式自动推送到用户端，供用户查看。

[0092] 该方法最大化的挖掘数据的可用信息，并及时的进行多源异构数据的共享，使得用户全面、概括的掌握感兴趣数据的所有信息，最大化的实现了遥感数据使用价值。

[0093] 尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

基于多源异构遥感数据关联构建及多用户数据匹配方法转让专利

申请号 : CN202010447854.X

文献号 : CN111666313B

文献日 : 2023-02-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张丽 , 金家栋 , 史经业 , 苏婉艳 , 赵娜 , 杜晓辉 , 孙鑫鑫 , 李双雷 , 马冯 , 郭国龙

申请人 : 中科星图股份有限公司

摘要 :

权利要求 :

说明书 :