一种基于社交网络的团购信息检索方法和系统转让专利

申请号 : CN202310230872.6

文献号 : CN116089740B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 曹国栋

申请人 : 深圳市针线科技有限公司

摘要 :

本发明提出了一种基于社交网络的团购信息检索方法和系统,涉及社交网络与信息检索领域。所述系统包括用户画像模块、社交网络整合模块、团购信息挖掘模块和信息传播模块,用户画像模块负责采集和分析用户的个人信息和社交网络行为特征,建立用户画像,社交网络整合模块建立用户与团购信息之间的关系模型,团购信息挖掘模块提高信息检索的准确度和质量,信息传播模块将团购信息在社交网络中进行传播,提高商品信息的曝光率和影响力。本发明的有益效果:提高团购平台的竞争力,为团购平台带来更多商业机会和收益,提供个性化的团购推荐服务,以提高用户的满意度。

权利要求 :

1.一种基于社交网络的团购信息检索系统,其特征在于,包括用户画像模块、社交网络整合模块、团购信息挖掘模块和信息传播模块,用户画像模块负责采集和分析用户的个人信息和社交网络行为特征,建立用户画像,社交网络整合模块整合多个社交网络,建立用户与团购信息之间的关系模型;团购信息挖掘模块利用改进的KMP算法对团购信息进行挖掘和分析,提高信息检索的准确度和质量;信息传播模块将团购信息在社交网络中进行传播;

所述团购信息挖掘模块用于从各个团购平台抓取、解析、存储和更新团购信息,所述团购信息挖掘模块包括抓取单元、解析单元、存储单元、更新单元,具体如下:抓取单元:用于抓取各个团购平台的网页数据,通过网络爬虫技术实现,在抓取数据时,对各个团购平台的网站结构进行分析;

解析单元:用于解析抓取到的数据,将其中的团购信息提取出来,并进行结构化处理,在解析数据时,对不同团购平台的网站结构进行适配;

存储单元:用于将解析出来的团购信息存储到数据库中,在存储数据时,需要考虑数据的结构化存储和索引;

更新单元:用于定期更新团购信息,在更新数据时,对已有数据进行增量更新;

所述解析单元具体为:

团购信息挖掘模块接收到用户向系统发送的检索指令后,解析单元根据用户的指令需求,将信息进行解密并完成特征的匹配,采用了改进的KMP算法,具体步骤如下:(1)假设用户检索的字符串为第a个产品的第b个信息,记为 且 第a个产品的第b个信息的字符串由字符组成,记为 其中, 为第a个产品的第b个信息的第1个字符, 为第a个产品的第b个信息的第2个字符, 为第a个产品的第b个信息的最后一个字符,字符的格式为数组,如果完全匹配,则返回模式串在该信息的集合B的具体位置,否则返回0值,寻找信息的集合中长度最大的前缀和后缀;

(2)然后将B中各前缀后缀的公共元素最大长度数值整体右移一位,并对初始位移位置值赋值为‑1,求出下一位移所包含的字符集合;

(3)利用下一位移所包含的字符集合进行匹配,即当信息的集合B和用户检索的字符串匹配成功,如果信息的集合B和用户检索的字符串 匹配失败时,需要让信息的集合B每次右移1位,让后一级用户检索的字符串 和信息的集合B继续匹配;

进一步更新信息的集合B,记每次右移的步数为γ,定义集合:

定义算法中模式串 为:

其中, 为信息的集合B的空集, 为信息的集合B的特征值,如果用户检

索的字符串 与信息的集合B的一次匹配失败,记此时用户检索的字符串 与模式串的当前位置分别为p1和p2,且信息的集合B对应模式串的首字符位置为x(x

2.根据权利要求1所述一种基于社交网络的团购信息检索系统,其特征在于,所述用户画像模块首先建立数据资源库,会从用户的社交网络账户中检索相关信息,包括用户的用户名和兴趣爱好,相关信息通过云端传输的方式保存至数据资源库,数据资源库采用MySQL框架,同时嵌入了结构体的方式对每个用户以用户名的方式进行统一管理,若用户没有填写相关内容,则该项的值记为“Null”。

3.根据权利要求1所述一种基于社交网络的团购信息检索系统,其特征在于,所述社交网络整合模块的运行包括以下几个步骤:(1)数据清洗:对采集到的相关数据进行清洗和处理,去除无效数据和重复数据;(2)个性化推荐:根据用户画像和关系分析结果,为用户推荐符合其兴趣爱好和购买需求的团购信息。

4.根据权利要求1所述一种基于社交网络的团购信息检索系统,其特征在于,所述信息传播模块是对团购信息进行传播和推送,根据用户画像和团购信息的特点,生成相应的推送策略,负责管理推送的通道。

5.根据权利要求4所述一种基于社交网络的团购信息检索系统,其特征在于,所述信息传播模块还能记录推送的历史记录,所述信息传播模块为用户提供定制化的团购信息推送服务。

6.根据权利要求1‑5任一项所述的基于社交网络的团购信息检索系统应用于团购信息检索的方法。

说明书 :

一种基于社交网络的团购信息检索方法和系统

技术领域

[0001] 本发明涉及社交网络与信息检索领域,具体地说,涉及一种基于社交网络的团购信息检索方法和系统。

背景技术

[0002] 随着互联网的快速发展,团购已成为人们生活中不可或缺的一部分。伴随着团购的不断扩大,越来越多的团购网站涌现出来。然而,用户面对如此众多的团购信息,如何快速准确地找到所需要的信息,成为了一个亟待解决的问题。而传统的搜索引擎在团购信息检索中效果并不理想,需要开发一种新的方法和系统来满足用户的需求。因此,本专利的研究背景就是为了解决团购信息检索的难题。通过运用社交网络和信息挖掘技术,将用户的社交行为、历史团购数据以及其他相关因素综合考虑,建立一个基于社交网络的团购信息检索系统,为用户提供更加准确、个性化、及时的团购信息检索服务。目前,国内外已经有许多研究工作探索了基于社交网络的信息检索方法。但是这些方法主要针对的是文本信息,而团购信息的特殊性使得传统方法并不适用。因此,研究一个基于社交网络的团购信息检索方法和系统显得尤为重要和有价值。

发明内容

[0003] 本发明的目的在于提供一种基于社交网络的团购信息检索方法和系统,以解决上述背景技术中提出的问题。
[0004] 为实现上述目的,提供了一种基于社交网络的团购信息检索系统,其特征在于,包括用户画像模块、社交网络整合模块、团购信息挖掘模块和信息传播模块,用户画像模块负责采集和分析用户的个人信息和社交网络行为特征,建立用户画像,社交网络整合模块整合多个社交网络,建立用户与团购信息之间的关系模型;团购信息挖掘模块利用改进的KMP算法对团购信息进行挖掘和分析,提高信息检索的准确度和质量;信息传播模块将团购信息在社交网络中进行传播。
[0005] 进一步的,所述用户画像模块首先建立数据资源库,会从用户的社交网络账户中检索相关信息,包括用户的用户名和兴趣爱好,相关信息通过云端传输的方式保存至数据资源库,数据资源库采用MySQL框架,同时嵌入了结构体的方式对每个用户以用户名的方式进行统一管理,若用户没有填写相关内容,则该项的值记为“Null”。
[0006] 进一步的,所述社交网络整合模块的运行包括以下几个步骤:(1)数据清洗:对采集到的相关数据进行清洗和处理,去除无效数据和重复数据;(2)个性化推荐:根据用户画像和关系分析结果,为用户推荐符合其兴趣爱好和购买需求的团购信息。
[0007] 通过将社交网络平台的数据整合进来,更加准确地了解用户的兴趣爱好和购买习惯,从而提高团购信息检索和推荐的准确性和个性化程度,用户通过社交网络分享自己的购物体验和评价,为其他用户提供参考,进一步提升系统的用户体验和信任度。
[0008] 进一步的,所述团购信息挖掘模块是整个系统中非常重要的模块,主要用于从各个团购平台抓取、解析、存储和更新团购信息,以便于用户能够通过系统获取到最新的团购信息,该模块主要包括以下四个单元抓取单元、解析单元、存储单元、更新单元,上述四种单元功能具体如下:
[0009] 抓取单元:该单元用于抓取各个团购平台的网页数据,通过网络爬虫技术实现,在抓取数据时,需要对各个团购平台的网站结构进行分析,以确保数据的准确性和完整性。
[0010] 解析单元:该单元用于解析抓取到的数据,将其中的团购信息提取出来,并进行结构化处理,在解析数据时,需要对不同团购平台的网站结构进行适配,以确保数据的正确解析和提取,具体为:
[0011] 团购信息挖掘模块接收到用户向系统发送的检索指令后,解析单元能够根据用户的指令需求,将信息进行解密并完成特征的匹配,采用了改进的KMP算法,具体步骤如下:
[0012] (1)假设用户检索的字符串为第 个产品的第 个信息,记为 ,且 ,第个产品的第 个信息的字符串由字符组成,记为 ,其中,为第 个产品的第 个信息的第1个字符, 为第 个产品的第 个信息的第2个字符, 为第 个产品的第 个信息的最后一个字符,字符的格式为数组,如果完全匹配,则返回模式串在该信息的集合 的具体位置,否则返回0值,寻找信息的集合中长度最大且相的前缀和后缀;
[0013] (2)然后将 中各前缀后缀的公共元素最大长度数值整体右移一位,并对初始位移位置值赋值为‑1,求出下一位移所包含的字符集合;
[0014] (3)利用下一位移所包含的字符集合进行匹配,即当信息的集合 和用户检索的字符串 匹配成功,如果信息的集合 和用户检索的字符串 匹配失败时,需要让信息的集合 每次右移1位,让后一级用户检索的字符串 和信息的集合B继续匹配。
[0015] 本发明进一步更新信息的集合B,记每次右移的步数为 ,定义集合: =,定义算法中模式串 为:
[0016] 其中,为信息的集合B的空集, 为信息的集合B的特征值,如果用户检索的字符串 与信息的集合B的一次匹配失败,记此时用户检索的字符串 与模式串的当前位置分别为 和 ,且信息的集合B对应模式串的首字符位置为x(x,否则令 , 重新比较,直到迭代结束,使得用户检索的字符串
能完全匹配到某个信息的集合。
[0017] 存储单元:该单元用于将解析出来的团购信息存储到数据库中,以便于后续的检索和展示,在存储数据时,需要考虑数据的结构化存储和索引,以提高数据的检索效率。
[0018] 更新单元:该单元用于定期更新团购信息,以确保系统中的团购信息始终保持最新,在更新数据时,需要对已有数据进行增量更新,以减少系统资源的浪费。
[0019] 通过上述团购信息挖掘模块,实现对各个团购平台的数据抓取、解析、存储和更新,从而为用户提供最新的团购信息,实现对团购信息的实时更新和增量更新,保证系统中的数据始终保持最新和准确。
[0020] 进一步的,所述信息传播模块主要功能是对团购信息进行传播和推送,以便用户能够及时了解到最新的团购活动和优惠信息,根据用户画像和团购信息的特点,生成相应的推送策略,负责管理推送的通道,包括短信、邮件、APP消息,以确保推送的信息能够及时准确地送达到用户手中,并且能记录推送的历史记录,以便后续进行推送效果的评估和优化,所述信息传播模块能够为用户提供定制化的团购信息推送服务,提高用户的参与度和满意度,同时也能为团购平台带来更多的流量和收益。
[0021] 本发明的有益效果:团购信息挖掘模块利用改进的KMP算法对团购信息进行挖掘和分析,提高信息检索的准确度和质量,其中KMP算法最大的优点在于,它能够利用已经匹配的字符,跳过一些不可能匹配的位置,从而减少匹配次数,提高匹配效率。具体而言,KMP算法利用了模式串中的前缀和后缀的重复性质,预处理出一个数组,该数组记录了在模式串中每个位置之前的最长公共前缀和后缀的长度。在匹配过程中,当出现不匹配的字符时,可以利用数组中的信息,将模式串向右移动一定的距离,而不是像暴力匹配一样每次只移动一位,从而提高匹配速度。另外,KMP算法的空间复杂度为O(m),其中m是模式串的长度,因此在实际应用中,KMP算法所需的内存空间较小。本发明对KMP算法进一步改进优化,通过不断的更新信息集合,改变右移的步数,轮回制的对比用户检索的字符串和模式串的字符,不断地收敛迭代,使得用户检索的字符串能完全匹配到某个信息的集合。此外本发明的有益效果还在于:提高用户在团购信息获取过程中的效率和准确性,减少信息的重复和冗余,从而提高用户的满意度和体验,主要包括以下方面:1.提高团购信息获取效率:传统的团购信息获取方法主要依赖于搜索引擎或团购网站的浏览,用户需要耗费大量时间来筛选和比较不同的团购信息。本专利提出的基于社交网络的团购信息检索方法和系统,通过整合不同的社交网络数据,为用户提供更加高效和精准的团购信息检索服务,大大缩短了用户的信息获取时间。2.提高团购信息的准确性:传统的团购信息检索方法主要依赖于用户手动输入关键词进行搜索,存在关键词不准确或不全面的问题。本专利提出的基于社交网络的团购信息检索方法和系统,通过用户画像模块和社交网络整合模块,获取用户的兴趣爱好和社交网络行为数据,以此为基础,实现对团购信息的个性化推荐和精准匹配,从而提高团购信息的准确性。3.降低信息的重复和冗余:传统的团购信息获取方法中,同一信息在不同平台或网站上可能会出现多次,导致信息的重复和冗余,影响用户的信息获取体验。本专利提出的基于社交网络的团购信息检索方法和系统,通过信息挖掘模块实现对不同平台和网站上的团购信息进行整合和去重,为用户提供更加干净和精简的团购信息。4.提高用户的满意度和体验:通过提高团购信息获取效率和准确性,降低信息的重复和冗余,本专利所提出的基于社交网络的团购信息检索方法和系统,能够大大提高用户的满意度和体验,让用户能够更加轻松地获取到自己感兴趣的团购信息。

附图说明

[0022] 利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
[0023] 图1是本发明结构示意图。

具体实施方式

[0024] 结合以下实例对本发明作进一步描述。
[0025] 参见图1,本发明旨在提供一种基于社交网络的团购信息检索方法和系统,以解决上述背景技术中提出的问题。
[0026] 为实现上述目的,提供了一种基于社交网络的团购信息检索系统,其特征在于,包括用户画像模块、社交网络整合模块、团购信息挖掘模块和信息传播模块,用户画像模块负责采集和分析用户的个人信息和社交网络行为特征,建立用户画像,社交网络整合模块整合多个社交网络,建立用户与团购信息之间的关系模型;团购信息挖掘模块利用改进的KMP算法对团购信息进行挖掘和分析,提高信息检索的准确度和质量;信息传播模块将团购信息在社交网络中进行传播。
[0027] 具体的,所述用户画像模块首先建立数据资源库,会从用户的社交网络账户中检索相关信息,包括用户的用户名和兴趣爱好,相关信息通过云端传输的方式保存至数据资源库,数据资源库采用MySQL框架,同时嵌入了结构体的方式对每个用户以用户名的方式进行统一管理,若用户没有填写相关内容,则该项的值记为“Null”。
[0028] 具体的,所述社交网络整合模块的运行包括以下几个步骤:(1)数据清洗:对采集到的相关数据进行清洗和处理,去除无效数据和重复数据;(2)个性化推荐:根据用户画像和关系分析结果,为用户推荐符合其兴趣爱好和购买需求的团购信息。
[0029] 通过将社交网络平台的数据整合进来,更加准确地了解用户的兴趣爱好和购买习惯,从而提高团购信息检索和推荐的准确性和个性化程度,用户通过社交网络分享自己的购物体验和评价,为其他用户提供参考,进一步提升系统的用户体验和信任度。
[0030] 具体的,所述团购信息挖掘模块是整个系统中非常重要的模块,主要用于从各个团购平台抓取、解析、存储和更新团购信息,以便于用户能够通过系统获取到最新的团购信息,该模块主要包括以下四个单元抓取单元、解析单元、存储单元、更新单元,上述四种单元功能具体如下:
[0031] 抓取单元:该单元用于抓取各个团购平台的网页数据,通过网络爬虫技术实现,在抓取数据时,需要对各个团购平台的网站结构进行分析,以确保数据的准确性和完整性。
[0032] 解析单元:该单元用于解析抓取到的数据,将其中的团购信息提取出来,并进行结构化处理,在解析数据时,需要对不同团购平台的网站结构进行适配,以确保数据的正确解析和提取,具体为:
[0033] 团购信息挖掘模块接收到用户向系统发送的检索指令后,解析单元能够根据用户的指令需求,将信息进行解密并完成特征的匹配,采用了改进的KMP算法,具体步骤如下:
[0034] (1)假设用户检索的字符串为第 个产品的第 个信息,记为 ,且 ,第个产品的第 个信息的字符串由字符组成,记为 ,其中,为第 个产品的第 个信息的第1个字符, 为第 个产品的第 个信息的第2个字符, 为第 个产品的第 个信息的最后一个字符,字符的格式为数组,如果完全匹配,则返回模式串在该信息的集合 的具体位置,否则返回0值,寻找信息的集合中长度最大且相的前缀和后缀;
[0035] (2)然后将 中各前缀后缀的公共元素最大长度数值整体右移一位,并对初始位移位置值赋值为‑1,求出下一位移所包含的字符集合;
[0036] (3)利用下一位移所包含的字符集合进行匹配,即当信息的集合 和用户检索的字符串 匹配成功,如果信息的集合 和用户检索的字符串 匹配失败时,需要让信息的集合 每次右移1位,让后一级用户检索的字符串 和信息的集合B继续匹配。
[0037] 本发明进一步更新信息的集合B,记每次右移的步数为 ,定义集合: =,定义算法中模式串 为:
[0038] 其中,为信息的集合B的空集, 为信息的集合B的特征值,如果用户检索的字符串 与信息的集合B的一次匹配失败,记此时用户检索的字符串 与模式串的当前位置分别为 和 ,且信息的集合B对应模式串的首字符位置为x(x,否则令 , 重新比较,直到迭代结束,使得用户检索的字符串
能完全匹配到某个信息的集合。
[0039] 存储单元:该单元用于将解析出来的团购信息存储到数据库中,以便于后续的检索和展示,在存储数据时,需要考虑数据的结构化存储和索引,以提高数据的检索效率。
[0040] 更新单元:该单元用于定期更新团购信息,以确保系统中的团购信息始终保持最新,在更新数据时,需要对已有数据进行增量更新,以减少系统资源的浪费。
[0041] 通过上述团购信息挖掘模块,实现对各个团购平台的数据抓取、解析、存储和更新,从而为用户提供最新的团购信息,实现对团购信息的实时更新和增量更新,保证系统中的数据始终保持最新和准确。
[0042] 具体的,所述信息传播模块主要功能是对团购信息进行传播和推送,以便用户能够及时了解到最新的团购活动和优惠信息,根据用户画像和团购信息的特点,生成相应的推送策略,负责管理推送的通道,包括短信、邮件、APP消息,以确保推送的信息能够及时准确地送达到用户手中,并且能记录推送的历史记录,以便后续进行推送效果的评估和优化,所述信息传播模块能够为用户提供定制化的团购信息推送服务,提高用户的参与度和满意度,同时也能为团购平台带来更多的流量和收益。
[0043] 本实施例的有益效果:团购信息挖掘模块利用改进的KMP算法对团购信息进行挖掘和分析,提高信息检索的准确度和质量,其中KMP算法最大的优点在于,它能够利用已经匹配的字符,跳过一些不可能匹配的位置,从而减少匹配次数,提高匹配效率。具体而言,KMP算法利用了模式串中的前缀和后缀的重复性质,预处理出一个数组,该数组记录了在模式串中每个位置之前的最长公共前缀和后缀的长度。在匹配过程中,当出现不匹配的字符时,可以利用数组中的信息,将模式串向右移动一定的距离,而不是像暴力匹配一样每次只移动一位,从而提高匹配速度。另外,KMP算法的空间复杂度为O(m),其中m是模式串的长度,因此在实际应用中,KMP算法所需的内存空间较小。本发明对KMP算法进一步改进优化,通过不断的更新信息集合,改变右移的步数,轮回制的对比用户检索的字符串和模式串的字符,不断地收敛迭代,使得用户检索的字符串能完全匹配到某个信息的集合。此外本发明的有益效果还在于:提高用户在团购信息获取过程中的效率和准确性,减少信息的重复和冗余,从而提高用户的满意度和体验,主要包括以下方面:1.提高团购信息获取效率:传统的团购信息获取方法主要依赖于搜索引擎或团购网站的浏览,用户需要耗费大量时间来筛选和比较不同的团购信息。本专利提出的基于社交网络的团购信息检索方法和系统,通过整合不同的社交网络数据,为用户提供更加高效和精准的团购信息检索服务,大大缩短了用户的信息获取时间。2.提高团购信息的准确性:传统的团购信息检索方法主要依赖于用户手动输入关键词进行搜索,存在关键词不准确或不全面的问题。本专利提出的基于社交网络的团购信息检索方法和系统,通过用户画像模块和社交网络整合模块,获取用户的兴趣爱好和社交网络行为数据,以此为基础,实现对团购信息的个性化推荐和精准匹配,从而提高团购信息的准确性。3.降低信息的重复和冗余:传统的团购信息获取方法中,同一信息在不同平台或网站上可能会出现多次,导致信息的重复和冗余,影响用户的信息获取体验。本专利提出的基于社交网络的团购信息检索方法和系统,通过信息挖掘模块实现对不同平台和网站上的团购信息进行整合和去重,为用户提供更加干净和精简的团购信息。4.提高用户的满意度和体验:通过提高团购信息获取效率和准确性,降低信息的重复和冗余,本专利所提出的基于社交网络的团购信息检索方法和系统,能够大大提高用户的满意度和体验,让用户能够更加轻松地获取到自己感兴趣的团购信息。
[0044] 最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者同替换,而不脱离本发明技术方案的实质和范围。