数据聚类方法和数据聚类系统转让专利

申请号 : CN201510259872.4

文献号 : CN106294394B

文献日 : 2019-10-15

本发明提出了一种数据聚类方法和一种数据聚类系统，其中，所述方法包括：接收创建命令，创建反馈词集合；根据所述反馈词集合对当前数据进行聚类，以将所述当前数据聚类成多个当前类别，并将所述多个当前类别呈现给用户；接收所述用户对所述多个当前类别的第一反馈，以对所述反馈词集合进行更新。通过本发明的技术方案，通过用户的反馈对反馈词集合进行更新，从而使根据更新后的反馈词集合对数据进行聚类得到的类别是用户所感兴趣的，进而提高了数据聚类的准确率和效率。

1.一种数据聚类方法，其特征在于，包括：

接收创建命令，创建反馈词集合；

根据所述反馈词集合对当前数据进行聚类，以将所述当前数据聚类成多个当前类别，并将所述多个当前类别呈现给用户；

接收所述用户对所述多个当前类别的第一反馈，以对所述反馈词集合进行更新；

根据所述反馈词集合对所述当前数据进行聚类，以将所述当前数据聚类成所述多个当前类别，具体包括：对所述当前数据进行聚类，以将所述当前数据聚类成多个聚类类别；

获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重；

根据所述反馈词集合更新所述第一中心词的所述第一词权重，以在所述多个聚类类别中确定所述多个当前类别。

2.根据权利要求1所述的数据聚类方法，其特征在于，还包括：判断所述第一中心词是否与所述反馈词集合中的反馈词匹配；

在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时，将所述第一中心词的所述第一词权重取反，以得到所述第一中心词的第三词权重；

在判断结果为否时，设置所述第一中心词的所述第一词权重为第一预设值，以得到所述第一中心词的第三词权重，其中，所述第三词权重与所述第一预设值相同；

根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重，并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。

3.根据权利要求2所述的数据聚类方法，其特征在于，接收所述用户对所述多个当前类别的所述第一反馈，以对所述反馈词集合进行更新，具体包括：获取所述多个当前类别中的每个当前类别的第二中心词；

根据所述第二中心词和所述第一反馈，对所述反馈词集合进行更新。

4.根据权利要求3所述的数据聚类方法，其特征在于，还包括：接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈；

根据所述关键词和所述第二反馈，对所述反馈词集合进行更新。

5.根据权利要求4所述的数据聚类方法，其特征在于，对所述反馈词集合进行更新，具体包括：判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词；

在判断结果为是时，对所述目标反馈词的所述第二词权重进行更新；

否则，将所述第二中心词或所述关键词添加到所述反馈词集合中，并设置所述第二中心词或所述关键词的权重初值。

6.一种数据聚类系统，其特征在于，包括：

创建单元，接收创建命令，创建反馈词集合；

聚类单元，根据所述反馈词集合对当前数据进行聚类，以将所述当前数据聚类成多个当前类别，并将所述多个当前类别呈现给用户；

第一接收单元，接收所述用户对所述多个当前类别的第一反馈，以对所述反馈词集合进行更新；

所述聚类单元具体包括：

分类单元，用于对所述当前数据进行聚类，以将所述当前数据聚类成多个聚类类别；

第一获取单元，用于获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重；

确定单元，用于根据所述反馈词集合更新所述第一中心词的所述第一词权重，以在所述多个聚类类别中确定所述多个当前类别。

7.根据权利要求6所述的数据聚类系统，其特征在于，所述聚类单元还包括：第一判断单元，用于判断所述第一中心词是否与所述反馈词集合中的反馈词匹配；

处理单元，用于在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时，将所述第一中心词的所述第一词权重取反，以得到所述第一中心词的第三词权重；

设置单元，用于在判断结果为否时，设置所述第一中心词的所述第一词权重为第一预设值，以得到所述第一中心词的第三词权重，其中，所述第三词权重与所述第一预设值相同；以及所述确定单元具体用于：根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重，并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。

8.根据权利要求7所述的数据聚类系统，其特征在于，所述第一接收单元具体包括：第二获取单元，用于获取所述多个当前类别中的每个当前类别的第二中心词；

第一更新单元，用于根据所述第二中心词和所述第一反馈，对所述反馈词集合进行更新。

9.根据权利要求8所述的数据聚类系统，其特征在于，还包括：第二接收单元，用于接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈；

第二更新单元，用于根据所述关键词和所述第二反馈，对所述反馈词集合进行更新。

10.根据权利要求9所述的数据聚类系统，其特征在于，还包括：第二判断单元，用于判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词；

第三更新单元，用于在判断结果为是时，对所述目标反馈词的所述第二词权重进行更新；

添加单元，用于在判断结果为否时，将所述第二中心词或所述关键词添加到所述反馈词集合中，并设置所述第二中心词或所述关键词的权重初值。

数据聚类方法和数据聚类系统

技术领域

[0001] 本发明涉及数据处理技术领域，具体而言，涉及一种数据聚类方法和一种数据聚类系统。

背景技术

[0002] 目前，相关技术中的数据聚类都是对一定规模的当前数据进行聚类，得到当前数据的多个类别，然后将这多个类别的聚类结果呈现给用户。但是，呈现给用户的聚类结果通常不是用户感兴趣的，具体有以下两种情况：

[0003] (1)异常数据，在当前数据中可能存在这样一类数据：单纯从分析和聚类的角度，这些数据与正常的数据无异，其聚类特征良好，因此，各种数据聚类的算法都无法将其判定为异常数据，但用户并不关心这类数据，不希望呈现此类数据的聚类结果。

[0004] (2)特殊的聚类要求，聚类分析的结果最终是为客户服务的，因此，当前数据的聚类结果纯粹从数据和数据分析的角度是毫无疑问合适的，其聚类特征也是非常明显的，但在具体应用中，由于业务的需要，对当前数据有特殊的聚类需求，而在聚类分析的当前数据中无法发现与特殊的聚类需求对应的聚类结果，只有通过用户反馈，才能得到用户真正感兴趣的聚类结果。

[0005] 因此，如何对当前数据进行聚类得到的是用户感兴趣的聚类结果，从而提高数据聚类的准确率和效率，成为亟待解决的问题。

发明内容

[0006] 本发明正是基于上述问题，提出了一种新的技术方案，通过用户的反馈对反馈词集合进行更新，则根据更新后的反馈词集合对数据进行聚类，得到的聚类结果是用户所感兴趣的，从而提高了数据聚类的准确率和效率。

[0007] 有鉴于此，本发明的一方面提出了一种数据聚类方法，包括：接收创建命令，创建反馈词集合；根据所述反馈词集合对当前数据进行聚类，以将所述当前数据聚类成多个当前类别，并将所述多个当前类别呈现给用户；接收所述用户对所述多个当前类别的第一反馈，以对所述反馈词集合进行更新。

[0008] 在该技术方案中，根据用户对聚类结果中的多个当前类别的第一反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的反馈聚类得到的，进而将用户可能关心的类别呈现给用户，同时淘汰用户不感兴趣的类别，进一步地提高了数据聚类的准确率和效率。

[0009] 在上述技术方案中，优选地，根据所述反馈词集合对所述当前数据进行聚类，以将所述当前数据聚类成所述多个当前类别，具体包括：对所述当前数据进行聚类，以将所述当前数据聚类成多个聚类类别；获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重；根据所述反馈词集合更新所述第一中心词的所述第一词权重，以在所述多个聚类类别中确定所述多个当前类别。

[0010] 在该技术方案中，由于反馈词集合是根据用户的需求来创建或更新的，因此，根据反馈词集合对多个聚类类别的第一中心词的第一词权重进行更新，即是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别，即是根据用户的需求确定的多个当前类别，从而使呈现给用户的多个当前类别是用户感兴趣或关心的类别，进而提高了数据聚类的准确率和效率。

[0011] 在上述技术方案中，优选地，还包括：判断所述第一中心词是否与所述反馈词集合中的反馈词匹配；在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时，将所述第一中心词的所述第一词权重取反，以得到所述第一中心词的第三词权重；在判断结果为否时，设置所述第一中心词的所述第一词权重为第一预设值，以得到所述第一中心词的第三词权重，其中，所述第三词权重与所述第一预设值相同；根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重，并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。

[0012] 在该技术方案中，根据多个聚类类别中的每个聚类类别的第一中心词是否在反馈词集合中，对第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别，由于反馈词集合是根据用户的需求来创建或更新的，因此，是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别时，是根据用户的需求确定的多个当前类别，进而使呈现给用户的多个当前类别是用户感兴趣或关心的类别，进一步地提高了数据聚类的准确率和效率。

[0013] 在上述技术方案中，优选地，接收所述用户对所述多个当前类别的所述第一反馈，以对所述反馈词集合进行更新，具体包括：获取所述多个当前类别中的每个当前类别的第二中心词；根据所述第二中心词和所述第一反馈，对所述反馈词集合进行更新。

[0014] 在该技术方案中，根据多个当前类别中的每个当前类别的第二中心词和用户对多个当前类别的第一反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的反馈聚类得到的，进而将用户可能感兴趣的类别呈现给用户，同时淘汰用户不感兴趣的类别，进一步地提高了数据聚类的准确率和聚类效率。

[0015] 在上述技术方案中，优选地，还包括：接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈；根据所述关键词和所述第二反馈，对所述反馈词集合进行更新。

[0016] 在该技术方案中，还可以根据用户输入的关键词以及用户对该关键词的第二反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的第二反馈聚类得到的，进而将用户可能感兴趣的类别呈现给用户，同时淘汰用户不感兴趣的类别，这样，根据用户输入的关键词和第二反馈聚类的结果更加具有针对性，从而使聚类的结果更加准确。

[0017] 在上述技术方案中，优选地，对所述反馈词集合进行更新，具体包括：判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词；在判断结果为是时，对所述目标反馈词的所述第二词权重进行更新；否则，将所述第二中心词或所述关键词添加到所述反馈词集合中，并设置所述第二中心词或所述关键词的权重初值。

[0018] 在该技术方案中，在根据用户对多个当前类别的第一反馈或根据用户输入的关键词与其第二反馈对反馈词集合进行更新时，根据反馈词集合中是否存在与每个当前类别的第二中心词或关键词匹配的目标反馈词，对反馈词集合进行更新，从而使更新后的反馈词集合更符合用户的需求，进而使根据更新后的反馈词再次进行聚类时得到的是用户感兴趣的类别。

[0019] 本发明的另一方面提出了一种数据聚类系统，包括：创建单元，接收创建命令，创建反馈词集合；聚类单元，根据所述反馈词集合对当前数据进行聚类，以将所述当前数据聚类成多个当前类别，并将所述多个当前类别呈现给用户；第一接收单元，接收所述用户对所述多个当前类别的第一反馈，以对所述反馈词集合进行更新。

[0020] 在该技术方案中，根据用户对聚类结果中的多个当前类别的第一反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的反馈聚类得到的，进而将用户可能关心的类别呈现给用户，同时淘汰用户不感兴趣的类别，进一步地提高了数据聚类的准确率和效率。

[0021] 在上述技术方案中，优选地，所述聚类单元具体包括：分类单元，用于对所述当前数据进行聚类，以将所述当前数据聚类成多个聚类类别；第一获取单元，用于获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重；确定单元，用于根据所述反馈词集合更新所述第一中心词的所述第一词权重，以在所述多个聚类类别中确定所述多个当前类别。

[0022] 在该技术方案中，由于反馈词集合是根据用户的需求来创建或更新的，因此，根据反馈词集合对多个聚类类别的第一中心词的第一词权重进行更新，即是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别，即是根据用户的需求确定的多个当前类别，从而使呈现给用户的多个当前类别是用户感兴趣或关心的类别，进而提高了数据聚类的准确率和效率。

[0023] 在上述技术方案中，优选地，所述聚类单元还包括：第一判断单元，用于判断所述第一中心词是否与所述反馈词集合中的反馈词匹配；处理单元，用于在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时，将所述第一中心词的所述第一词权重取反，以得到所述第一中心词的第三词权重；设置单元，用于在判断结果为否时，设置所述第一中心词的所述第一词权重为第一预设值，以得到所述第一中心词的第三词权重，其中，所述第三词权重与所述第一预设值相同；以及所述确定单元具体用于：根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重，并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。

[0024] 在该技术方案中，根据多个聚类类别中的每个聚类类别的第一中心词是否在反馈词集合中，对第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别，由于反馈词集合是根据用户的需求来创建或更新的，因此，是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别时，是根据用户的需求确定的多个当前类别，进而使呈现给用户的多个当前类别是用户感兴趣或关心的类别，进一步地提高了数据聚类的准确率和效率。

[0025] 在上述技术方案中，优选地，所述第一接收单元具体包括：第二获取单元，用于获取所述多个当前类别中的每个当前类别的第二中心词；第一更新单元，用于根据所述第二中心词和所述第一反馈，对所述反馈词集合进行更新。

[0026] 在该技术方案中，根据多个当前类别中的每个当前类别的第二中心词和用户对多个当前类别的第一反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的反馈聚类得到的，进而将用户可能感兴趣的类别呈现给用户，同时淘汰用户不感兴趣的类别，进一步地提高了数据聚类的准确率和聚类效率。

[0027] 在上述技术方案中，优选地，还包括：第二接收单元，用于接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈；第二更新单元，用于根据所述关键词和所述第二反馈，对所述反馈词集合进行更新。

[0028] 在该技术方案中，还可以根据用户输入的关键词以及用户对该关键词的第二反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的第二反馈聚类得到的，进而将用户可能感兴趣的类别呈现给用户，同时淘汰用户不感兴趣的类别，这样，根据用户输入的关键词和第二反馈聚类的结果更加具有针对性，从而使聚类的结果更加准确。

[0029] 在上述技术方案中，优选地，还包括：第二判断单元，用于判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词；第三更新单元，用于在判断结果为是时，对所述目标反馈词的所述第二词权重进行更新；添加单元，用于在判断结果为否时，将所述第二中心词或所述关键词添加到所述反馈词集合中，并设置所述第二中心词或所述关键词的权重初值。

[0030] 在该技术方案中，在根据用户对多个当前类别的第一反馈或根据用户输入的关键词与其第二反馈对反馈词集合进行更新时，根据反馈词集合中是否存在与每个当前类别的第二中心词或关键词匹配的目标反馈词，对反馈词集合进行更新，从而使更新后的反馈词集合更符合用户的需求，进而使根据更新后的反馈词再次进行聚类时得到的是用户感兴趣的类别。

[0031] 通过本发明的技术方案，通过用户的反馈对反馈词集合进行更新，从而使根据更新后的反馈词集合对数据进行聚类得到的类别是用户所感兴趣的，进而提高了数据聚类的准确率和效率。

附图说明

[0032] 图1示出了根据本发明的一个实施例的数据聚类方法的流程示意图；

[0033] 图2示出了根据本发明的一个实施例的数据聚类系统的结构示意图；

[0034] 图3示出了根据本发明的另一个实施例的数据聚类方法的流程示意图。

具体实施方式

[0035] 为了可以更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

[0036] 在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

[0037] 图1示出了根据本发明的一个实施例的数据聚类方法的流程示意图。

[0038] 如图1所示，根据本发明的一个实施例的数据聚类方法，包括：

[0039] 步骤102，接收创建命令，创建反馈词集合；

[0040] 步骤104，根据所述反馈词集合对当前数据进行聚类，以将所述当前数据聚类成多个当前类别，并将所述多个当前类别呈现给用户；

[0041] 步骤106，接收所述用户对所述多个当前类别的第一反馈，以对所述反馈词集合进行更新。

[0042] 在该技术方案中，根据用户对聚类结果中的多个当前类别的第一反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的反馈聚类得到的，进而将用户可能关心的类别呈现给用户，同时淘汰用户不感兴趣的类别，进一步地提高了数据聚类的准确率和效率。

[0043] 在上述技术方案中，优选地，根据所述反馈词集合对所述当前数据进行聚类，以将所述当前数据聚类成所述多个当前类别，具体包括：对所述当前数据进行聚类，以将所述当前数据聚类成多个聚类类别；获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重；根据所述反馈词集合更新所述第一中心词的所述第一词权重，以在所述多个聚类类别中确定所述多个当前类别。

[0044] 在该技术方案中，由于反馈词集合是根据用户的需求来创建或更新的，因此，根据反馈词集合对多个聚类类别的第一中心词的第一词权重进行更新，即是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别，即是根据用户的需求确定的多个当前类别，从而使呈现给用户的多个当前类别是用户感兴趣或关心的类别，进而提高了数据聚类的准确率和效率。

[0045] 在上述技术方案中，优选地，还包括：判断所述第一中心词是否与所述反馈词集合中的反馈词匹配；在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时，将所述第一中心词的所述第一词权重取反，以得到所述第一中心词的第三词权重；在判断结果为否时，设置所述第一中心词的所述第一词权重为第一预设值，以得到所述第一中心词的第三词权重，其中，所述第三词权重与所述第一预设值相同；根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重，并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。

[0046] 在该技术方案中，根据多个聚类类别中的每个聚类类别的第一中心词是否在反馈词集合中，对第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别，由于反馈词集合是根据用户的需求来创建或更新的，因此，是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别时，是根据用户的需求确定的多个当前类别，进而使呈现给用户的多个当前类别是用户感兴趣或关心的类别，进一步地提高了数据聚类的准确率和效率，具体地，当第一中心词与反馈词集合中的反馈词匹配时，如果与第一中心词匹配的反馈词的第二词权重为负数，则说明用户对第一中心词所在的聚类类别不感兴趣，将将第一中心词的第一词权重取反，以得到第一中心词的第三词权重，如果与第一中心词匹配的反馈词的第二词权重为正数，则说明用户对第一中心词所在的聚类类别感兴趣，将第一中心词的第一词权重保持不变，另一方面，当第一中心词与反馈词集合中的反馈词不匹配时，设置第一中心词的所述第一词权重为第一预设值，例如设置为零，从而得到第一中心词的第三词权重，在得到第一中心词的第三词权重之后，将每个聚类类别的所有中心词的第三词权重相加，得到每个聚类类别的总词权重，当任一聚类类别的总词权重为正数时，则说明任一聚类类别是用户感兴趣的，可以将任一聚类类别确定为多个当前类别中的一个，当任一聚类类别的总词权重为负数时，则说明任一聚类类别是用户不感兴趣的，可以将任一聚类类别从多个聚类类别中删除，从而在多个聚类类别中筛选出多个当前类别。

[0047] 在上述技术方案中，优选地，接收所述用户对所述多个当前类别的所述第一反馈，以对所述反馈词集合进行更新，具体包括：获取所述多个当前类别中的每个当前类别的第二中心词；根据所述第二中心词和所述第一反馈，对所述反馈词集合进行更新。

[0048] 在该技术方案中，根据多个当前类别中的每个当前类别的第二中心词和用户对多个当前类别的第一反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的反馈聚类得到的，进而将用户可能感兴趣的类别呈现给用户，同时淘汰用户不感兴趣的类别，进一步地提高了数据聚类的准确率和聚类效率。

[0049] 在上述技术方案中，优选地，还包括：接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈；根据所述关键词和所述第二反馈，对所述反馈词集合进行更新。

[0050] 在该技术方案中，还可以根据用户输入的关键词以及用户对该关键词的第二反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的第二反馈聚类得到的，进而将用户可能感兴趣的类别呈现给用户，同时淘汰用户不感兴趣的类别，这样，根据用户输入的关键词和第二反馈聚类的结果更加具有针对性，从而使聚类的结果更加准确。

[0051] 在上述技术方案中，优选地，对所述反馈词集合进行更新，具体包括：判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词；在判断结果为是时，对所述目标反馈词的所述第二词权重进行更新；否则，将所述第二中心词或所述关键词添加到所述反馈词集合中，并设置所述第二中心词或所述关键词的权重初值。

[0052] 在该技术方案中，在根据用户对多个当前类别的第一反馈或根据用户输入的关键词与其第二反馈对反馈词集合进行更新时，根据反馈词集合中是否存在与每个当前类别的第二中心词或关键词匹配的目标反馈词，对反馈词集合进行更新，从而使更新后的反馈词集合更符合用户的需求，进而使根据更新后的反馈词再次进行聚类时得到的是用户感兴趣的类别，具体地，当第二中心词在反馈词集合中时，如果用户对第二中心词所在的当前类别的反馈为正反馈，则将反馈词集合中的与第二中心词匹配的反馈词的第二词权重减第二预设值，例如，将反馈词集合中的与第二中心词匹配的反馈词的第二词权重减1，如果用户对第二中心词所在的当前类别的反馈为负反馈，则将反馈词集合中的与第二中心词匹配的反馈词的第二词权重加第二预设值，例如，将反馈词集合中的与第二中心词匹配的反馈词的第二词权重加1，另一方面，当第二中心词不在反馈词集合中时，如果用户对第二中心词所在的当前类别的反馈为正反馈，则将第二中心词添加到反馈词集合中，并设置与第二中心词匹配的反馈词的第二词权重为第三预设值，例如，设置与第二中心词匹配的反馈词的第二词权重为1，如果用户对第二中心词所在的当前类别的反馈为负反馈，则将第二中心词添加到反馈词集合中，并设置与第二中心词匹配的反馈词的第二词权重为第四预设值，优选地，第三预设值与第四预设值互为相反数，例如，设置与第二中心词匹配的反馈词的第二词权重为-1。

[0053] 图2示出了根据本发明的一个实施例的数据聚类系统200的结构示意图。

[0054] 如图2所示，根据本发明的一个实施例的数据聚类系统200，包括：创建单元202，接收创建命令，创建反馈词集合；聚类单元204，根据所述反馈词集合对当前数据进行聚类，以将所述当前数据聚类成多个当前类别，并将所述多个当前类别呈现给用户；第一接收单元206，接收所述用户对所述多个当前类别的第一反馈，以对所述反馈词集合进行更新。

[0055] 在该技术方案中，根据用户对聚类结果中的多个当前类别的第一反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的反馈聚类得到的，进而将用户可能关心的类别呈现给用户，同时淘汰用户不感兴趣的类别，进一步地提高了数据聚类的准确率和效率。

[0056] 在上述技术方案中，优选地，所述聚类单元204具体包括：分类单元2042，用于对所述当前数据进行聚类，以将所述当前数据聚类成多个聚类类别；第一获取单元2044，用于获取所述多个聚类类别中的每个聚类类别的第一中心词以及所述第一中心词的第一词权重；确定单元2046，用于根据所述反馈词集合更新所述第一中心词的所述第一词权重，以在所述多个聚类类别中确定所述多个当前类别。

[0057] 在该技术方案中，由于反馈词集合是根据用户的需求来创建或更新的，因此，根据反馈词集合对多个聚类类别的第一中心词的第一词权重进行更新，即是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别，即是根据用户的需求确定的多个当前类别，从而使呈现给用户的多个当前类别是用户感兴趣或关心的类别，进而提高了数据聚类的准确率和效率。

[0058] 在上述技术方案中，优选地，所述聚类单元204还包括：第一判断单元2048，用于判断所述第一中心词是否与所述反馈词集合中的反馈词匹配；处理单元20410，用于在判断结果为是且与所述第一中心词匹配的所述反馈词的第二词权重为负数时，将所述第一中心词的所述第一词权重取反，以得到所述第一中心词的第三词权重；设置单元20412，用于在判断结果为否时，设置所述第一中心词的所述第一词权重为第一预设值，以得到所述第一中心词的第三词权重，其中，所述第三词权重与所述第一预设值相同；以及所述确定单元2046具体用于：根据所述第一中心词的所述第三词权重计算所述每个聚类类别的总词权重，并根据所述每个聚类类别的所述总词权重在所述多个聚类类别中确定所述多个当前类别。

[0059] 在该技术方案中，根据多个聚类类别中的每个聚类类别的第一中心词是否在反馈词集合中，对第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别，由于反馈词集合是根据用户的需求来创建或更新的，因此，是根据用户的需求对多个聚类类别的第一中心词的第一词权重进行更新，从而在多个聚类类别中确定多个当前类别时，是根据用户的需求确定的多个当前类别，进而使呈现给用户的多个当前类别是用户感兴趣或关心的类别，进一步地提高了数据聚类的准确率和效率，具体地，当第一中心词与反馈词集合中的反馈词匹配时，如果与第一中心词匹配的反馈词的第二词权重为负数，则说明用户对第一中心词所在的聚类类别不感兴趣，将将第一中心词的第一词权重取反，以得到第一中心词的第三词权重，如果与第一中心词匹配的反馈词的第二词权重为正数，则说明用户对第一中心词所在的聚类类别感兴趣，将第一中心词的第一词权重保持不变，另一方面，当第一中心词与反馈词集合中的反馈词不匹配时，设置第一中心词的所述第一词权重为第一预设值，例如设置为零，从而得到第一中心词的第三词权重，在得到第一中心词的第三词权重之后，将每个聚类类别的所有中心词的第三词权重相加，得到每个聚类类别的总词权重，当任一聚类类别的总词权重为正数时，则说明任一聚类类别是用户感兴趣的，可以将任一聚类类别确定为多个当前类别中的一个，当任一聚类类别的总词权重为负数时，则说明任一聚类类别是用户不感兴趣的，可以将任一聚类类别从多个聚类类别中删除，从而在多个聚类类别中筛选出多个当前类别。

[0060] 在上述技术方案中，优选地，所述第一接收单元206具体包括：第二获取单元2062，用于获取所述多个当前类别中的每个当前类别的第二中心词；第一更新单元2064，用于根据所述第二中心词和所述第一反馈，对所述反馈词集合进行更新。

[0061] 在该技术方案中，根据多个当前类别中的每个当前类别的第二中心词和用户对多个当前类别的第一反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的反馈聚类得到的，进而将用户可能感兴趣的类别呈现给用户，同时淘汰用户不感兴趣的类别，进一步地提高了数据聚类的准确率和聚类效率。

[0062] 在上述技术方案中，优选地，还包括：第二接收单元208，用于接收所述用户输入的关键词以及所述用户对所述关键词的第二反馈；第二更新单元210，用于根据所述关键词和所述第二反馈，对所述反馈词集合进行更新。

[0063] 在该技术方案中，还可以根据用户输入的关键词以及用户对该关键词的第二反馈，对反馈词集合进行更新，由此，根据更新后的反馈词集合再次进行聚类，从而使此次的聚类结果是根据用户的第二反馈聚类得到的，进而将用户可能感兴趣的类别呈现给用户，同时淘汰用户不感兴趣的类别，这样，根据用户输入的关键词和第二反馈聚类的结果更加具有针对性，从而使聚类的结果更加准确。

[0064] 在上述技术方案中，优选地，还包括：第二判断单元212，用于判断所述反馈词集合中是否存在与所述第二中心词或所述关键词匹配的目标反馈词；第三更新单元214，用于在判断结果为是时，对所述目标反馈词的所述第二词权重进行更新；添加单元216，用于在判断结果为否时，将所述第二中心词或所述关键词添加到所述反馈词集合中，并设置所述第二中心词或所述关键词的权重初值。

[0065] 在该技术方案中，在根据用户对多个当前类别的第一反馈或根据用户输入的关键词与其第二反馈对反馈词集合进行更新时，根据反馈词集合中是否存在与每个当前类别的第二中心词或关键词匹配的目标反馈词，对反馈词集合进行更新，从而使更新后的反馈词集合更符合用户的需求，进而使根据更新后的反馈词再次进行聚类时得到的是用户感兴趣的类别，具体地，当第二中心词在反馈词集合中时，如果用户对第二中心词所在的当前类别的反馈为正反馈，则将反馈词集合中的与第二中心词匹配的反馈词的第二词权重减第二预设值，如果用户对第二中心词所在的当前类别的反馈为负反馈，则将反馈词集合中的与第二中心词匹配的反馈词的第二词权重加第二预设值，另一方面，当第二中心词不在反馈词集合中时，如果用户对第二中心词所在的当前类别的反馈为正反馈，则将第二中心词添加到反馈词集合中，并设置与第二中心词匹配的反馈词的第二词权重为第三预设值，如果用户对第二中心词所在的当前类别的反馈为负反馈，则将第二中心词添加到反馈词集合中，并设置与第二中心词匹配的反馈词的第二词权重为第四预设值，优选地，第三预设值与第四预设值互为相反数。

[0066] 图3示出了根据本发明的另一个实施例的数据聚类方法的流程示意图。

[0067] 如图3所示，根据本发明的另一个实施例的数据聚类方法，包括：

[0068] 步骤302，创建反馈词集合。

[0069] 步骤304，根据反馈词集合对当前数据进行聚类，以将当前数据聚类成多个当前类别。

[0070] 步骤306，为用户呈现聚类结果，即将多个当前类别呈现给用户。

[0071] 步骤308，接收用户对多个当前类别的负正向反馈(第一反馈)。

[0072] 步骤310，接收用户输入的关键词以及用户对关键词的第二反馈。

[0073] 步骤312，根据第一反馈或第二反馈，更新反馈词集合，以根据更新后的反馈词集合对数据再次进行聚类，以得到用户感兴趣的数据。

[0074] 以上结合附图详细说明了本发明的技术方案，通过用户的反馈对反馈词集合进行更新，从而使根据更新后的反馈词集合对数据进行聚类得到的类别是用户所感兴趣的，进而提高了数据聚类的准确率和效率。

[0075] 在本发明中，术语“第一”、“第二”、“第三”、“第四”仅用于描述的目的，而不能理解为指示或暗示相对重要性；术语“多个”表示两个或两个以上。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

[0076] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

数据聚类方法和数据聚类系统转让专利

申请号 : CN201510259872.4

文献号 : CN106294394B

文献日 : 2019-10-15

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 于晓明 , 刘克松 , 张丹 , 贺敏 , 刘玮 , 王博 , 马宏远

申请人 : 北大方正集团有限公司 , 北京北大方正电子有限公司

摘要 :

权利要求 :

说明书 :