一种搜索用户的方法与装置转让专利

申请号 : CN201110380325.3

文献号 : CN103136226B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 胡文翠王佳强潘树燊文勖李强

申请人 : 深圳市腾讯计算机系统有限公司

摘要 :

本发明公开了一种搜索用户的方法及装置。该方法包括:获取社区中各用户信息,并对获取的用户信息进行处理,生成索引信息;接收用户输入的搜索关键词,分别在存储的用户信息以及索引信息中查询该搜索关键词对应的索引信息及用户信息,并将查询得到的结果输出。应用本发明,可以扩展搜索手段、提升搜索效率。

权利要求 :

1.一种搜索用户的方法,其特征在于,该方法包括:获取社区中各用户信息;

对所述用户信息进行分词处理,得到候选索引词语;

根据预先设置的词语过滤策略对所述候选索引词语进行过滤,得到索引词语,所述过滤包括从所述候选索引词语中去除无意义词语;

对所述索引词语进行索引处理,得到索引信息,所述索引信息用于映射进行处理前的用户信息;

接收用户输入的搜索关键词,分别在存储的所述用户信息以及所述索引信息中查询该搜索关键词对应的索引信息及用户信息,并将查询得到的结果输出;

所述方法还包括:

对用户信息中的用户昵称进行多元字符组合处理,并将得到的多元字符组合作为备注的索引信息。

2.如权利要求1所述的方法,其特征在于,进一步包括:获取索引信息对应的用户,查询该用户发表的信息;

基于各用户发表的信息,获取用户行为特征信息;

根据获取的用户行为特征信息计算用户优先级分数并排序,输出排序前N位的用户对应的索引信息结果,其中,N为自然数。

3.如权利要求2所述的方法,其特征在于,进一步包括:获取排序前N位的用户,与执行搜索的用户的好友信息进行匹配,根据匹配结果调整排序,将调整排序后的用户对应的索引信息结果输出。

4.如权利要求1所述的方法,其特征在于,进一步包括:对各用户发表的信息进行分词处理,得到候选索引词语。

5.如权利要求2或3所述的方法,其特征在于,所述用户行为特征信息包括:用户质量特征属性、文本质量特征属性、传播热度特征属性以及时间纬度特征属性中的一个或其任意组合。

6.如权利要求5所述的方法,其特征在于,所述计算用户优先级分数包括:分别获取用户质量特征属性值、文本质量特征属性值、传播热度特征属性值以及时间纬度特征属性值;

将预先设置的权重系数分别与获取的用户质量特征属性值、文本质量特征属性值、传播热度特征属性值以及时间纬度特征属性值相乘;

计算相乘后得到的各值的和,作为所述用户优先级分数。

7.一种搜索用户的装置,其特征在于,该装置包括:信息挖掘模块以及搜索查询模块,其中,信息挖掘模块,用于获取社区中各用户信息;

切分处理单元,用于对所述用户信息进行分词处理,得到候选索引词语;

过滤单元,用于根据预先设置的词语过滤策略对候选索引词语进行过滤,得到索引词语,所述过滤包括从所述候选索引词语中去除无意义词语;

索引处理单元,用于对索引词语进行索引处理,得到索引信息,所述索引信息用于映射进行处理前的用户信息;

搜索查询模块,用于接收用户输入的搜索关键词,分别在存储的所述用户信息以及所述索引信息中查询该搜索关键词对应的索引信息及用户信息,并将查询得到的结果;

所述信息挖掘模块进一步包括:

字符组合索引单元,用于对用户信息中的用户昵称进行多元字符组合处理,并将得到的多元字符组合作为备注的索引信息。

8.如权利要求7所述的装置,其特征在于,进一步包括:用户行为特征信息获取模块、优先级分数计算及排序模块,其中,用户行为特征信息获取模块,用于获取索引信息对应的用户,查询该用户发表的信息,基于各用户发表的信息,获取用户行为特征信息;

优先级分数计算及排序模块,用于根据获取的用户行为特征信息计算用户优先级分数并排序后输出排序前N位的用户对应的索引信息结果,其中,N为自然数。

9.如权利要求8所述的装置,其特征在于,进一步包括:匹配模块,用于获取排序前N位的用户,与执行搜索的用户的好友信息进行匹配,根据匹配结果调整排序,将调整排序后的用户对应的索引信息结果输出。

10.如权利要求7所述的装置,其特征在于,所述切分处理单元进一步用于获取社区中各用户发表的信息,并对信息进行分词处理,得到候选索引词语。

说明书 :

一种搜索用户的方法与装置

技术领域

[0001] 本发明涉及计算机通信技术,特别涉及一种搜索用户的方法与装置。

背景技术

[0002] 随着计算机网络技术的发展,通过点对点的技术来实现互联网上的即时沟通的即时通信(IM,Instant Messaging)软件工具应用越来越普遍,IM已经被大多数的用户所接受并成为用户日常生活以及工作中必不可少的一部分,用户通过IM软件,可以实现与朋友、同事以及同学之间的交流与沟通。
[0003] 微型博客作为IM工具应用的一部分,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过个人PC、移动电话等终端设备,通过140个字左右的一句话来表达自己情感,与关注自己的用户分享,从而实现个人信息即时分享、用户间互动,是目前发展最为迅猛的互联网业务。
[0004] 由于微型博客应用的广泛性,用户可以方便地通过IM客户端进行社区内用户信息咨询与搜索,例如,通过与类似数据库搜索的方法实现用户信息搜索,举例来说,用户登录社区,在社区的搜索栏中输入用户昵称或用户名等搜索关键词,搜索引擎(搜索服务器)根据完全匹配算法(例如,字符串匹配算法)查询与用户昵称相匹配的用户信息中的用户昵称,并将该用户昵称信息向用户展示。
[0005] 由上述可见,现有搜索用户的方法,通过用户昵称或用户名等搜索关键词在社区内进行用户搜索,搜索手段单一,难以满足搜索用户日益增长的信息搜索需求;进一步地,采用与搜索关键词完全匹配的搜索方法,使得搜索结果可能遗漏搜索用户所需信息,搜索效率较低,降低了用户的搜索体验;而且,展示的用户信息中的用户昵称或用户名内容较少,缺少对该用户的辅助性描述信息。

发明内容

[0006] 有鉴于此,本发明提出一种搜索用户的方法,能够提升搜索效率。
[0007] 本发明还提出一种搜索用户的装置,能够提升搜索效率。
[0008] 为达到上述目的,本发明提供了一种搜索用户的方法,该方法包括:
[0009] 获取社区中各用户信息;
[0010] 对所述用户信息进行分词处理,得到候选索引词语;
[0011] 根据预先设置的词语过滤策略对候选索引词语进行过滤,得到索引词语,所述过滤包括从所述候选索引词语中去除无意义词语;
[0012] 对索引词语进行索引处理,得到索引信息,所述索引信息用于映射进行处理前的用户信息;
[0013] 接收用户输入的搜索关键词,分别在存储的所述用户信息以及所述索引信息中查询获取该搜索关键词对应的索引信息及用户信息,并将查询得到的结果输出。
[0014] 进一步包括:
[0015] 获取索引信息对应的用户,查询该用户发表的信息;
[0016] 基于各用户发表的信息,获取用户行为特征信息;
[0017] 根据获取的用户行为特征信息计算用户优先级分数并排序,输出排序前N位的用户对应的索引信息结果,其中,N为自然数。
[0018] 进一步包括:
[0019] 获取排序前N位的用户,与执行搜索的用户的好友信息进行匹配,根据匹配结果调整排序,将调整排序后的用户对应的索引信息结果输出。
[0020] 进一步包括:
[0021] 对各用户发表的信息进行分词处理,得到候选索引词语。
[0022] 进一步包括:
[0023] 对用户信息中的用户昵称进行多元字符组合处理,并将得到的多元字符组合作为索引信息。
[0024] 所述用户行为特征信息包括:用户质量特征属性、文本质量特征属性、传播热度特征属性以及时间纬度特征属性中的一个或其任意组合。
[0025] 所述计算用户优先级分数包括:
[0026] 分别获取用户质量特征属性值、文本质量特征属性值、传播热度特征属性值以及时间纬度特征属性值;
[0027] 将预先设置的权重系数分别与获取的用户质量特征属性值、文本质量特征属性值、传播热度特征属性值以及时间纬度特征属性值相乘;
[0028] 计算相乘后得到的各值的和,作为所述用户优先级分数。
[0029] 一种搜索用户的装置,该装置包括:信息挖掘模块以及搜索查询模块,其中,[0030] 信息挖掘模块,用于获取社区中各用户信息;
[0031] 切分处理单元,用于对所述用户信息进行分词处理,得到候选索引词语;
[0032] 过滤单元,用于根据预先设置的词语过滤策略对候选索引词语进行过滤,得到索引词语,所述过滤包括从所述候选索引词语中去除无意义词语;
[0033] 索引处理单元,用于对索引词语进行索引处理,得到索引信息,所述索引信息用于映射进行处理前的用户信息;
[0034] 搜索查询模块,用于接收用户输入的搜索关键词,分别在存储的所述用户信息以及所述索引信息中查询该搜索关键词对应的索引信息及用户信息,并将查询得到的结果输出,并将查询得到的结果输出。
[0035] 进一步包括:用户行为特征信息获取模块、优先级分数计算及排序模块,其中,[0036] 用户行为特征信息获取模块,用于获取索引信息对应的用户,查询该用户发表的信息,基于各用户发表的信息,获取用户行为特征信息;
[0037] 优先级分数计算及排序模块,用于根据获取的用户行为特征信息计算用户优先级分数并排序后输出排序前N位的用户对应的索引信息结果,其中,N为自然数。
[0038] 进一步包括:
[0039] 匹配模块,用于获取排序前N位的用户,与执行搜索的用户的好友信息进行匹配,根据匹配结果调整排序,将调整排序后的用户对应的索引信息结果输出。
[0040] 所述切分处理单元进一步用于获取社区中各用户发表的信息,并对信息进行分词处理,得到候选索引词语。
[0041] 所述信息挖掘模块进一步包括:
[0042] 字符组合索引单元,用于对用户信息中的用户昵称进行多元字符组合处理,并将得到的多元字符组合作为备注的索引信息。
[0043] 由上述的技术方案可见,本发明实施例提供的一种搜索用户的方法及装置,获取社区中各用户信息,并对获取的用户信息进行处理,生成索引信息;接收用户输入的搜索关键词,分别在存储的用户信息以及索引信息中查询获取该搜索关键词对应的索引信息及用户信息,并将查询得到的结果输出。这样,通过对用户进行索引处理,使得执行搜索的用户只要输入索引信息中的任一索引信息作为搜索关键词,都能够获取该用户信息以及设置的与该用户对应的索引信息,不仅扩展了搜索手段,而且可以获取尽可能多的该用户相关信息,从而提升搜索效率以及用户搜索体验。

附图说明

[0044] 图1为本发明实施例的搜索用户的方法流程示意图。
[0045] 图2为本发明实施例的搜索用户的方法具体流程示意图。
[0046] 图3为本发明实施例的搜索用户的装置结构示意图。

具体实施方式

[0047] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
[0048] 现有通过用户昵称采用字符串完全匹配算法搜索用户的方法,需要用户输入准确的用户昵称或用户名,如果输入的用户昵称或用户名不准确,则会导致搜索失败,使得搜索手段单一,难以满足搜索用户日益增长的信息搜索需求,搜索效率较低。本发明实施例中,考虑对用户信息进行切词以及分词处理,并对切词以及分词处理的用户信息进行索引处理以提供用户的辅助性描述信息,从而扩展与用户输入的搜索关键词相匹配的索引,在展示用户信息的同时,将该用户对应的索引信息一并展示,提升用户的搜索体验。
[0049] 图1为本发明实施例的搜索用户的方法流程示意图。参见图1,该流程包括:
[0050] 步骤101,获取社区中各用户信息,并对获取的用户信息进行处理,生成索引信息;
[0051] 本步骤中,用户信息是指用户在业务内的个人资料信息,包括:用户名、用户标识(ID)、用户昵称、个人说明等,其数据结构具体可参见相关技术文献,在此不再赘述。其中,个人说明包括:说明文本以及备注描述文本。
[0052] 对获取的用户信息进行处理,生成索引信息包括:
[0053] A11、对用户信息进行分词处理,得到候选索引词语;
[0054] 本步骤中,可以根据用户信息中的用户名、用户昵称、备注描述文本、说明文本,进行分词处理,得到各候选索引词语。其中,备注描述文本包括用户的学习经历、职业生涯等。
[0055] 关于进行分词处理的流程,属于现有技术,具体可参见相关技术文献,在此不再赘述。
[0056] 进一步地,还可以对各用户发表的信息,基于数据挖掘并进行索引处理。即执行步骤A11′。
[0057] A11′、对各用户发表的信息进行分词处理,得到候选索引词语;
[0058] A12、根据预先设置的词语过滤策略对候选索引词语进行过滤,得到索引词语;
[0059] 本步骤中,经分词处理后得到的各词语中,包括一些停用词以及无关词性词,该停用词以及无关词性词对用户的搜索来说是冗余的,不具有实际意义,因而,需要进行过滤。其中,停用词是指无意义的常见词或一些符号,例如,“的”、“能”、“在”、“和”、“他”等,无关词性词包括:连词、状态词、语气虚词、形容词、代词等,例如,代词有“你”、“我”、“他”等,连词有“和”、“与”等。
[0060] A13、对索引词语进行索引处理,作为索引信息。
[0061] 本步骤中,对索引词语进行索引处理后,即将索引信息映射为进行分词处理前的对应用户信息,这样,如果用户输入的搜索关键词包含索引词语,则根据该索引词语,可以搜索到该索引词语映射的用户信息,从而扩展了搜索手段。
[0062] 较佳地,对过滤得到的索引词语中的名词、人名(尤其是名人)、机构名、职业名词、地点名称加以索引,作为备注的索引信息,这样,可以确保用户在通过搜索关键词(例如,用户昵称)进行搜索时,同时能够获取该搜索关键词对应的用户信息中设置的索引信息,并进行展示,以扩展搜索手段,提升搜索效率。
[0063] 本发明实施例中,在对用户信息中的各个文本字段进行切分、索引后,还可以对用户名或用户昵称进行多元的字符组合,并将得到的多元字符组合作为备注的索引信息。即进一步包括:
[0064] A14、对用户信息中的用户昵称进行多元字符组合处理,并将得到的多元字符组合作为备注的索引信息。
[0065] 本步骤中,通过对用户昵称进行多元字符组合处理,可以提高与用户输入的搜索关键词的匹配概率,降低对用户输入的搜索关键词的准确度要求。例如,如果用户昵称为“ABCD”,则经过大小写转换、全半角转换、繁简体转换等处理,并进行多元字符组合,会分别建立备注的索引信息:A、B、C、D、ABC、BCD,其中,A、B、C、D为一元分词,ABC、BCD为三元分词,这样,可以使得用户输入的搜索关键词包括备注的索引中的任意一个索引词时,都能搜索到该索引词对应的用户昵称信息。当然,实际应用中,也可以采用二元字符组合并分别建立备注的索引信息,例如,AB、AC、AD、BC、BD、CD。
[0066] 上述说明的是建立索引的分词方式,实际应用中,对于用户的检索请求,其分词的方式与建立索引的方式可以略有不同,例如,对于长度不大于2的搜索关键词进行一元切词,例如“AB”,可以直接切分成A和B;而对于长度大于等于3的搜索关键词,例如“ABCD”,可以切分成三元分词的形式,即:ABC和BCD。这样,对于用户昵称为ABCD,搜索用户可以通过以下几种搜索关键词,搜索(召回)该用户的情况:
[0067] 1.输入a或b或c或d,那么请求通过一元分词召回;
[0068] 2.输入ab或bc或cd,那么请求被分词一元分词,也能被召回;
[0069] 3.输入abc或bcd,直接三元分词召回;
[0070] 4.输入abcd,可以通过三元分词召回。
[0071] 步骤102,接收用户输入的搜索关键词,分别在存储的用户信息以及索引信息中查询该搜索关键词对应的索引信息及用户信息,并将查询得到的结果输出。
[0072] 本步骤中,在接收到用户输入的搜索关键词后,从提供搜索服务的用户信息以及生成的索引信息中进行搜索,即根据完全匹配算法查询与搜索关键词相匹配的用户信息,以及,在生成的索引信息中查询与搜索关键词相匹配的索引信息,并将搜索得到的索引信息、或者,索引信息及用户信息返回给用户。这样,在存储的用户信息中如果查询不到与搜索关键词相匹配的用户信息,还可以从存储的索引信息中查询与搜索关键词相匹配的索引信息并展示给用户,不仅扩展了搜索手段,也提升搜索效率,而且,可以获取尽可能多的该用户相关信息,提升了用户搜索体验。
[0073] 实际应用中,在搜索得到搜索关键词对应的索引信息、或者,索引信息及用户信息后,还可以进一步包括:
[0074] 步骤103,获取索引信息对应的用户,查询该用户发表的信息;
[0075] 本步骤中,基于用户的订阅关系,获取用户所在的社交圈,其中,订阅关系即用户之间的关系表达,例如,用户A订阅用户B形成订阅关系后,则用户B发出的所有信息都会推送到用户A,同样,用户A发出的所有信息都会推送到用户B,社交圈指的是用户在各产品社区中好友的并集。
[0076] 从用户所在的社交圈中,查询用户在社交圈发表的信息。
[0077] 步骤104,基于各用户发表的信息,获取用户行为特征信息;
[0078] 本步骤中,用户行为特征信息包括:用户质量特征属性、文本质量特征属性、传播热度特征属性以及时间纬度特征属性中的一个或其任意组合。其中,
[0079] 用户质量特征属性,用以标识用户发表的信息质量,通常以发表的数量进行表征并采用归一化处理,使得归一化处理后的用户质量特征属性值的区间范围为[0,1],1表示最活跃的一个用户,即发表的信息数量最多的用户对应的用户质量特征属性值,0表示没有发表信息的用户对应的用户质量特征属性值。
[0080] 文本质量特征属性,用以标识用户发表的信息中包含的名词数量,可以采用归一化处理,文本质量特征属性值的区间范围为[0,1],1表示发表的信息中包含的名词数量最多的一个用户,即发表的信息中包含的名词数量最多的用户对应的文本质量特征属性值,0表示没有发表信息的用户对应的文本质量特征属性值。关于获取信息中包含的名词,可以通过前述的分词处理并进行统计得到。
[0081] 传播热度特征属性,用以标识用户发表的各信息的转播数、评论数以及浏览次数,可以根据预先设置的策略对转播数、评论数以及浏览次数进行复合计算,并通过归一化处理得到一个传播热度特征属性值;
[0082] 时间纬度特征属性,用以标识用户发表的各信息的时间,搜索到的用户发表的信息越晚,表明该信息的时效性越强,其对应的归一化的时间纬度特征属性值也越大。例如,以搜索服务器存储的最早的信息时间戳至当前时间为时间纬度,并均分为预先设置数量的时间段,举例来说,搜索服务器存储的最早的信息时间戳信息为10个小时之前,则时间维度可以设置为(1,2,3,4,5,6,7,8,9,10),每一个刻度表示过去的一个时间单位(小时),即1表示信息时间戳信息为1小时之前,并设置每个刻度对应的时间纬度特征属性值,例如,1对应的时间纬度特征属性值为1,10对应的时间纬度特征属性值为0等。
[0083] 步骤105,根据获取的用户行为特征信息计算用户优先级分数并排序。
[0084] 本步骤中,计算用户优先级分数公式为:
[0085] v=ξ1×userank+ξ2×textrank+ξ3×hotrank+ξ4×timerank
[0086] 式中,
[0087] v为用户优先级分数;
[0088] userank为用户质量特征属性值;
[0089] textrank为文本质量特征属性值;
[0090] hotrank为传播热度特征属性值;
[0091] timerank为时间纬度特征属性值;
[0092] ξ1、ξ2、ξ3、ξ4为权重系数,可根据实际需要确定,较佳地,0≤ξi≤1,[0093] 在得到用户优先级分数后,根据优先级分数高低进行排序,并按照预先设置的策略,输出排序前N位的用户对应的索引信息结果,其中,N为自然数。这样,基于信息的用户质量特征属性、文本质量特征属性、传播热度特征属性以及时间纬度特征属性,采用综合相关性的排序方式,满足用户在社区内的信息搜索需求,这是传统搜索引擎难以实现的,可以进一步提供增强的索引信息结果,使索引信息结果更符合搜索用户的需求,从而进一步提升搜索效率以及搜索用户的搜索体验。
[0094] 较佳地,对于排序前N位的用户,还可以进一步与用户的好友圈中的好友信息进行匹配,根据匹配结果调整排序,将调整排序后的用户对应的索引结果向搜索用户展示,即进一步包括步骤106。
[0095] 步骤106,获取排序前N位的用户,与执行搜索的用户的好友信息进行匹配,根据匹配结果调整排序,将调整排序后的用户对应的索引信息结果输出。
[0096] 本步骤中,举例来说,根据用户离线级别属性分数进行排序,取前5位用户,依序为用户1~用户5,然后,与用户的好友圈中的好友信息进行匹配,其中,用户2、用户3以及用户5为搜索用户的好友,即与用户的好友圈中的好友信息匹配成功,则调整排序后的用户分别为:用户2、用户3、用户5、用户1以及用户4,也就是说,与用户的好友圈中的好友信息匹配成功的用户优先级最高,其对应的索引信息优先向搜索用户展示。这样,通过将排序前N位的用户再与搜索用户的好友进行匹配,优先展示与搜索用户好友匹配成功的用户,更进一步提升了搜索用户的搜索体验。
[0097] 由上述可见,本发明实施例的搜索用户的方法,通过获取社区中各用户信息,并基于数据挖掘在获取的用户信息中增加备注的索引信息;根据用户输入的搜索关键词,在社区中查询获取该搜索关键词对应的索引信息及用户信息并输出。这样,通过对用户进行索引处理,使得该用户中包含有多个索引信息,因而,搜索用户只要输入索引信息中的任一索引信息作为搜索关键词,都能够获取该用户信息以及设置的与该用户对应的索引信息,从而为搜索用户提供辅助性描述信息,扩展了搜索手段,满足了搜索用户日益增长的信息搜索需求,使搜索用户获取尽可能多的该用户相关信息,从而提升搜索效率以及用户搜索体验。
[0098] 以下以用户名为张三、昵称为xiaoz19889898、个人说明内容为IT民工,贫穷小白领的用户为例,对本发明实施例的搜索方法进行说明。
[0099] 图2为本发明实施例的搜索用户的方法具体流程示意图。参见图2,该流程包括:
[0100] 步骤201,获取用户信息;
[0101] 本步骤中,搜索服务器获取用户信息,并提取其中的文本信息,保留用户信息的主干:张三/xiaoz/IT民工贫穷小白领。
[0102] 步骤202,进行分词处理,得到候选索引词语;
[0103] 本步骤中,根据现有的分词处理算法,对张三/xiaoz/IT民工贫穷小白领进行分词处理,并对用户昵称进行多元的字符组合,切分及组合后的结果是:
[0104] 张、三、张三;
[0105] x、i、a、o、z、xia、iao、aoz;
[0106] IT、民工、贫穷、小、白领。
[0107] 步骤203,对候选索引词语进行过滤,并对过滤得到的候选索引词语进行索引处理,作为备注的索引信息;
[0108] 本步骤中,从候选索引词语中去除无意义词语:IT、贫穷、小等,保留民工、白领,并为过滤后的候选索引词语建立索引,即通过建立的索引词语,能够索引到该索引词语对应的用户,通过该用户,能够获取该用户信息中其他设置的索引信息。
[0109] 步骤204,将备注的索引信息加载到搜索服务器;
[0110] 本步骤中,将备注的索引信息加载到搜索服务器,具体可参见相关技术文献,在此不再赘述。
[0111] 步骤205,接收用户输入的搜索关键词,与搜索服务器中的用户信息及索引信息进行匹配,如果命中,返回搜索结果;否则,返回搜索无结果的提示信息。
[0112] 本步骤中,如果用户输入的搜索关键词为“张三”,则经过与搜索服务器中的索引进行匹配,向搜索用户返回匹配的索引结果:张三:用户昵称为xiaoz19889898、民工白领。如果用户输入的搜索关键词为“三”,则经过与搜索系统中的索引进行匹配,向搜索用户返回匹配的索引结果除包括张三:用户昵称为xiaoz19889898、民工白领外,还包括与“三”匹配的其他用户的索引信息,例如,搜索服务器中存储的关于赵三的索引信息。
[0113] 图3为本发明实施例的搜索用户的装置结构示意图。参见图3,该装置包括:信息挖掘模块以及搜索查询模块,其中,
[0114] 信息挖掘模块,用于获取社区中各用户信息,并对获取的用户信息进行处理,生成索引信息;
[0115] 搜索查询模块,用于接收用户输入的搜索关键词,分别在存储的用户信息以及索引信息中查询该搜索关键词对应的索引信息及用户信息,并将查询得到的结果输出。
[0116] 其中,信息挖掘模块包括:切分处理单元、过滤单元以及索引处理单元(图中未示出),其中,
[0117] 切分处理单元,用于对用户信息进行分词处理,得到候选索引词语;
[0118] 本发明实施例中,根据用户的用户名、用户昵称、备注描述文本、说明文本,进行分词处理,得到各候选索引词语。
[0119] 过滤单元,用于根据预先设置的词语过滤策略对候选索引词语进行过滤,得到索引词语;
[0120] 索引处理单元,用于对索引词语进行索引处理,作为备注的索引信息。
[0121] 本发明实施例中,较佳地,对过滤得到的索引词语中的名词、人名(尤其是名人)、机构名、职业名词、地点名称加以索引,作为备注的索引信息。
[0122] 切分处理单元进一步用于获取社区中各用户发表的信息,并对信息进行分词处理,得到候选索引词语。
[0123] 信息挖掘模块进一步包括:
[0124] 字符组合索引单元,用于对用户信息中的用户昵称进行多元字符组合处理,并将得到的多元字符组合作为备注的索引信息。
[0125] 该装置进一步包括:用户行为特征信息获取模块、优先级分数计算及排序模块,其中,
[0126] 用户行为特征信息获取模块,用于获取索引信息对应的用户,查询该用户发表的信息,基于各用户发表的信息,获取用户行为特征信息;
[0127] 本发明实施例中,用户行为特征信息包括:用户质量特征属性、文本质量特征属性、传播热度特征属性以及时间纬度特征属性。其中,
[0128] 优先级分数计算及排序模块,用于根据获取的用户行为特征信息计算用户优先级分数并排序后输出排序前N位的用户对应的索引信息结果,其中,N为自然数。
[0129] 较佳地,该装置进一步包括:
[0130] 匹配模块,用于获取排序前N位的用户,与执行搜索的用户的好友信息进行匹配,根据匹配结果调整排序,将调整排序后的用户对应的索引信息结果输出。
[0131] 实际应用中,该搜索用户的装置可以是搜索服务器。
[0132] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。