会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 电脑编程 / 别名 / 一种不同信息源的房产数据同一性判别方法

一种不同信息源的房产数据同一性判别方法

阅读:497发布:2021-02-28

IPRDB可以提供一种不同信息源的房产数据同一性判别方法专利检索,专利查询,专利分析的服务。并且本发明涉及一种不同信息源的房产数据同一性判别方法,属于互联网数据分析与挖掘技术领域。所述同一性判别方法基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性。所述方法能对来源于不同网站的房屋数据去重,能够准确、高效的对来源于不同信息源的房屋数据的同一性判别,并能有效去除重复区域、小区,可以实现面向多源异构的房屋数据的有效融合,为房地产市场分析提供“干净”,“整齐”的数据。,下面是一种不同信息源的房产数据同一性判别方法专利的具体信息内容。

1.一种不同信息源的房产数据同一性判别方法,其特征在于:

所述房产数据同一性判别方法基于已有多源及异构房地产交易网站公布的房屋数据,分析房屋特征,对房屋的同一性进行判别,剔除重复房屋;

具体基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据;

其中,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性;不同网站发布的房屋数据,虽然描述不尽相同,但描述对象为同一房屋时,存在如下相关性:A、房屋地址相同:房屋的地址体现在所在的小区是同一个小区,所在的楼栋属于同一个楼栋;由于很少有网站公布房屋所在楼栋的信息,因此在这方面的判断可以采用所在楼栋的楼层高来判断;

B、房屋的基本属性相同:房屋的基本属性包括房屋面积、户型以及朝向;

C、业主的期望相同:业主在出租以及销售房屋时,对房屋的价格期望是一致的,因此可用其挂牌价格判断;

所述房产数据同一性判别方法,包括如下步骤:

步骤1)针对不同网站对同一城市下的相同区域描述存在差异进行区域去重;

对区域的判别,通过区域名称来判断是否是同一个区域;通过对房屋交易网站中对区域命名的特点,以及人们对区域的称呼习惯的分析,一般对区域的称谓,都有一个“核心词”;有些就直接以该“核心词”命名,有些在“核心词”的后面附加后缀;

步骤1)又包括如下子步骤:

步骤1-1)为了后续统计及分析方便,建立区域信息表,并在该表中设定字段保存从网站采集的区域所在城市和区域名称,以及区域的别名字段和别名来源优先级字段;

区域的别名字段用于标识区域的名称,在对区域操作时,通过区域的别名是否相同,判断是否是同一区域;别名来源优先级用于对别名字段更新的判断;

步骤1-2)确定房地产网站的优先级;

其中,网站源优先级分别为0、1、2,数字越小,优先级越高;

步骤1-3)按照步骤1-2)设定的房地产网站优先级,查询相同城市下的所有区域;将查询得到区域列表两两比较,比较的方法方式是判断区域的名称是否相似,依据判断的结果更新区域的别名,具体为:其中判断区域的名称是否相似,采用规则的方法判断;根据各网站对区域名称的特点,书写判别规则,然后使用判别规则对待判断的区域名称进行判定,如果判定两小区的名称相同,则按照下面的规则更新区域的名称:设当前比较的区域为A、B,若A区域和B区域的名称匹配成功,再判断A、B的别名是否赋值:若A、B的别名都未赋值进行1-3A)操作;若A的别名已赋值且B的别名未赋值进行1-3B)操作;若A的别名未赋值且B的别名已赋值进行1-3C)操作;若A、B的别名已赋值进行1-3D)操作;

1-3A)获取A区域的来源网站的优先级λa,B区域的来源网站的优先级λb;如果λa大于λb,则将B区域的名称作为A区域的别名,λb作为A区域的别名来源优先级,保存在区域信息表,跳至步骤1-4);反之,将A区域的名称作为B区域的别名,λa作为B区域的别名来源优先级,保存在区域信息表,跳至步骤1-4);

1-3B)获取A区域的别名来源优先级λa’,B区域的来源网站的优先级λb;如果λb大于λa’,将A的别名作为B的别名,λa’作为B的别名来源优先级,跳至步骤1-4);反之,将A的别名更新为B的名称,将A区域的别名来源优先级更新为λb,跳至步骤1-4);

1-3C)获取B区域的别名来源优先级λb’,A区域的来源网站的优先级λa;如果λa大于λb’,将B的别名作为A的别名,λb’作为A的别名来源优先级,跳至步骤1-4);反之,将B的别名更新为A的名称,将B区域的别名来源优先级更新为λb,跳至步骤1-4);

1-3D)获取B区域的别名来源优先级λb’,A区域的别名来源优先级λa’;如果λa’大于λb’,将A的别名更新为B的别名,将A的别名来源优先级更新为λb’,跳至步骤1-4);反之,将B的别名更新为A的名称,将B区域的别名来源优先级更新为λa’,跳至步骤1-4);

步骤1-4)通过步骤1-3)比较区域名称并匹配完毕后,将所有区域别名字段为NULL的区域的别名赋值为区域名;

步骤1-5)以区域信息表中的区域别名作为依据进行城市区域的查询和统计;

步骤2)小区去重,即针对城市区域中的小区进行同一性判别,具体包括如下子步骤:步骤2-1)建立小区查重表,保存判别为相同小区的小区标识,该表中设立两个字段:比中源小区标识和比中目标小区标识;

其中,小区标识为小区的ID;

步骤2-2)按照步骤1-2)确定的网站优先级,根据区域信息表,搜索小区表中区域别名相同的小区,并两两比较小区的特征,设待比较的小区为C1、C2,具体包括如下子步骤:步骤2-2-1)计算小区位置差异度,具体采用公式(1)计算:

小区位置差异度=|小区经度差|+|小区纬度差|  (1)

其中,|小区经度差|表示C1的经度与C2的经度差的绝对值,|小区纬度差|表示C1的纬度与C2的纬度差的绝对值;

如果C1、C2没有经纬度信息,则小区位置差异度为0;

步骤2-2-2)计算小区面积相似度,具体采用公式(2)计算:

小区面积相似度=|1-|小区面积差|/Min(小区面积)|  (2)其中,|小区面积差|表示C1的小区面积与C2的小区面积差的绝对值;Min(小区面积)表示C1的小区面积与C2的小区面积中的较小值,如果两者相等,则为C1的小区面积;

如果没有建筑面积信息,则小区面积相似度为1;

步骤2-2-3)计算小区总户数相似度,具体采用公式(3)计算:小区总户数相似度=|1-|小区总户数差|/Min(小区总户数)|  (3)其中,|小区总户数差|表示C1的小区总户数与C2的小区总户数差的绝对值;Min(小区总户数)表示C1的小区总户数与C2的小区总户数中的较小值,如果两者相等,则为C1的小区总户数;

如果小区没有总户数信息,则小区总户数相似度为1;

步骤2-2-4)计算小区名称的相似度,具体采用公式(4)计算:小区名称相似度=1-(eDistance/maxlength(小区名称))  (4)其中,eDistance是C1的小区名称与C2的小区名称的字符串编辑距离,计算方法为,采用插入、修改、删除一个字符的方法,把C1的小区名称转换成C2的小区名称所需要的最少操作步骤数;maxlength(小区名称)是C1的小区名称的长度与C2的小区名称长度的较大值,如果两者相等,则为C1的小区名称的长度;

步骤2-2-5)计算小区物业公司名称的相似度,具体采用公式(5)计算:

1-(eDistance/maxlength(小区物业公司名称))  (5)其中,eDistance是C1的物业公司名称与C2的物业公司名称的字符串编辑距离,计算方法为,采用插入、修改、删除一个字符的方法,把C1的物业公司名称转换成C2的物业公司名称所需要的最少操作步骤数;maxlength(小区物业公司名称)是C1的物业公司名称的长度与C2的物业公司名称长度的较大值,如果两者相等,则为C1的物业公司名称的长度;

步骤2-3)利用步骤2-2中计算的小区特征的相似度,判断小区的同一性;如果小区位置差异度小于设定的阈值T1,并且面积相似度、总户数相似度大于设定的阈值T2、小区名称、物业公司名称的相似度大于设定的阈值T3,则判定为是同一小区;

其中,阈值T1的选取准则为根据经纬度相差0.01度,距离相差约1000米的方法,将T1选取为0.02;阈值T2选取为0.95;阈值T3选取为0.9;

步骤2-4)如果小区C1和C2在步骤2-3中判定为同一小区,则将C1和C2更新到小区查重表,具体为:获取小区C1的来源网站优先级λ1,小区C2的来源网站优先级λ2;如果λ1大于λ2,则将C2作为比中源,C1作为比中目标,保存到小区查重表;否则将C1作为比中源,C2作为比中目标,保存到小区查重表;

步骤3)房屋去重,即进行房屋同一性判别;

其中,所述房屋信息特征包括所在楼栋的层高、所属楼层、挂牌价格、建筑面积、户型结构、户型图以及朝向;再根据所述房屋信息特征判别房屋的同一性;

步骤3)具体包括如下子步骤:

步骤3-1)建立房屋查重表,设立两个字段:比中源房屋标识和比中目标房屋标识;

其中,房屋标识为房屋的ID;

步骤3-2)根据城市的区域,搜索同一区域的小区,建立小区列表cList,并按照网站优先级排序;

步骤3-3)根据小区查重表的信息,将小区列表cList中的小区进行聚类,具体为:步骤3-3A)构建邻接表G,邻接表G中的每一个节点代表小区列表cList中的一个小区;

步骤3-3B)从小区查重表中查询小区列表cList中被判别为同一小区的小区列表rList,rList中的每个元素包含两个信息:比中列表比中源和比中列表比中目标;

步骤3-3C)遍历rList,将比中源和比中目标所对应的小区,在邻接表G中构建一条边;

步骤3-3D)采用深度优先算法,遍历邻接表G,在G中生成森林F,森林F中的每一棵树,是G中的极大连通子图;

其中,F中每一棵树表示一个小区;

步骤3-4)遍历由步骤3-3)中产生的森林F中的每一个树Tree,从房屋表查询得到树Tree所有节点表示的小区中的房屋列表;

步骤3-5)将房屋居室分成5类:1居室、2居室、3居室、4居室以及4居室以上,为每个分类建立列表;将房屋列表中的房屋按照居室数分别添加到相应的分类列表,遍历每个分类列表中的房屋,并两两比较房屋的特征,设待比较的房屋为H1,H2,具体为:步骤3-5-1)判断所在楼栋的层高是否相同,如果楼栋的层高不相同,判断两房屋不相同,结束判断,如果相同,则执行步骤3-5-2)至步骤3-5-4):步骤3-5-2)计算房屋所在的楼层相似度:目前网站在发布房屋信息时,并不发布具体的楼层,而是只描述房屋的大概楼层,并且不同网站的描述也存在差异;

具体计算方法为:根据各网站对楼层的描述,建立各楼层的同义词,比较房屋所在楼层时,如果房屋的楼层属于一对同义词,则其相似度为1,否则0;

步骤3-5-2)计算面积相似度:具体采用公式(6)计算:

|1-|面积差|/Min(面积)|  (6)

其中,|面积差|表示H1的房屋面积与H2的房屋面积差的绝对值;Min(面积)表示H1的房屋面积与H2的房屋面积中的较小值,如果两者相等,则为H1的房屋面积;

步骤3-5-3)计算价格相似度:具体采用公式(7)计算:

|1-|价格差|/Min(价格)|  (7)

其中,|价格差|表示H1的挂牌价格与H2的挂牌价格差的绝对值;Min(价格)表示H1的挂牌价格与H2的挂牌价格中的较小值,如果两者相等,则为H1的挂牌价格;

步骤3-5-4)计算朝向相似度:具体采用公式(8)计算:

1-(eDistance/maxlength(朝向))  (8)其中,eDistance是H1的房屋朝向与H2的房屋朝向的字符串编辑距离,计算方法为,采用插入、修改、删除一个字符的方法,把H1的房屋朝向转换成H2的房屋朝向所需要的最少操作步骤数;maxlength(朝向)是H1的房屋朝向的长度与H2的房屋朝向长度的较大值,如果两者相等,则为H1的房屋朝向的长度;

步骤3-6)若房屋所在的楼层相似度为1,并且其面积相似度、价格相似度大于设定阈值T4;朝向相似度大于设定阈值T5则视为相似房屋;

其中,阈值T4选取为0.95,阈值T5选取为0.5;

步骤3-7)在步骤3-6中判别为相似房屋,由于实际房屋信息中存在许多在楼层,面积、价格、朝向都相似的房屋,需进一步判断房屋的户型结构;目前户型图用较粗的黑线,勾勒出房屋的墙壁轮廓,并配有家具、饰物等,因此比较户型图相似的方法是从户型图中抽取出墙壁的信息,对横向和纵向两个方向的墙壁分布进行比较,具体为:步骤3-7-1)根据房屋H1、H2的URL,下载房屋H1、H2的户型图,并保存,设为image,按照步骤3-7-2)至3-7-10)的方法,分别计算H1、H2的户型图的墙壁信息;

步骤3-7-2)将image转换成分辨率为100*100的图片,设为image100;

步骤3-7-3)将image100转换成灰度图,设为grayimage100;

步骤3-7-4)计算grayimage100的灰度直方图h;

步骤3-7-5)从灰度直方图中抽取表示墙壁线的颜色值,具体为:从左往右扫描直方图h,寻找直方图h中第一个与邻近区域的差值超过设定阈值T6的灰度值g;

其中,阈值T6选取为50;

步骤3-7-6)将步骤3-7-5)中得到的灰度值g对灰度图grayimage100二值化,具体为:遍历grayimage100的所有像素点,如果像素点的灰度值为p(i,j),计算p(i,j)y与g差的绝对值,若|g(i,j)-g|大于设定的阈值T7,将p(i,j)的灰度设为255,否则设为0;

其中,阈值T7选取为10;

步骤3-7-8)去掉户型图中“大面积”物体,具体为:

用特定大小“矩形”扫描户型图,计算矩形内灰度值为0的象素点数pcount,如果pcount超过设定阈值T8,则视为“大面积”物体,将其设为0;

其中,矩形的大小为5*5,阈值T8选取为16;

步骤3-7-9)计算户型图中的墙壁信息,具体方法为:

按行扫描二值化后的的灰度图,计算每行中灰度为0的象素点数,得到每行中灰度为0的象素点直方图rowHist;按列扫描二值化后的的灰度图,计算每列中灰度为0的象素点数,得到每列中灰度为0的象素点直方图colHist;

步骤3-7-10)扫描rowHist,计算rowHist中的凸点,该凸点表示户型图的墙壁,得到户型图墙壁分布序列wallSeq1;扫描colHist,计算colHist中的凸点,得到户型图墙壁分布序列wallSeq2;

其中,wallSeq1和wallSeq2中的元素是如下的序列对:

其中,location的值是rowHist(colHist)中凸点的位置,代表墙壁在户型图中的位置,length是rowHist(colHist)中凸点值,代表墙壁的长度;

步骤3-7-11)计算H1的wallSeq1和H2的wallSeq1的相似度,具体为:步骤3-7-11A)设n1为H1的H1wallSeq1的序列对中元素个数,设n2为H2的H2wallSeq1的序列对中元素个数,i1表示H1的H1wallSeq1的序列对中待比较元素的位置,开始为0,i2表示H2的H2wallSeq1的序列对中待比较元素的位置,开始为0;m为H1wallSeq1、H2wallSeq1中相同的元素个数,开始为0;

步骤3-7-11B)判断i1和i2,若i1小于n1并且i2小于n2,则执行步骤3-7-11C),否则执行步骤3-7-11E);

步骤3-7-11C)计算墙壁位置差异度,具体采用公式(9)计算:diff_location=|H1wallSeq1[i1].location-H2wallSeq1[i2].location|  (9)如果diff1小于阈值T9,i1加1,i2加1,并按照公式(10)计算墙壁长度差异,否则执行步骤3-7-11D):diff_length=|H1wallSeq1[i1].length-H2wallSeq1[i2].length|  (10)如果diff_length小于阈值T10,则m加1;执行步骤3-7-11B);

其中,阈值T9选取为4,阈值T10选取为8;

步骤3-7-11D)如果H1wallSeq1[i1].Location小于H2wallSeq1[i2].Location则i1加

1,否则i2加1;

执行步骤3-7-11B);

步骤3-7-11E)按照公式(11),计算H1wallSeq1和H2wallSeq1的相似度:S1_1=m/max(n1,n2)  (11)

其中max(n1,n2)表示n1和n2的较大值,如果n1等于n2,则为n1;

步骤3-7-12)按照步骤3-7-11的方法计算H1的wallSeq1和H2的wallSeq2的相似度S1_

2,H1的wallSeq2和H2的wallSeq1的相似度S2_1,H1的wallSeq2和H2的wallSeq2的相似度S2_2;

步骤3-7-13)计算H1和H2的户型相似度,具体通过公式(12)、公式(13)计算:S1=max(S1_1,S1_2);  (12)

S2=max(S2_1,S2_2);  (13)

步骤3-8)如果S1和S2都超过设定阈值T11,则判别为相同房屋,并更新房屋信息;

其中,max(S1_1,S1_2)表示S1_1和S1_2的较大值,如果S1_1等于S1_2,则为S1_1,max(S2_1,S2_2)表示S2_1和S2_2的较大值,如果S2_1等于S2_2,则为S2_1,阈值T11选取为0.8;

具体更新方法为:

设房屋H1的来源网站优先级为λ1,房屋H2的来源网站优先级为λ2,若λ1小于λ2,则将H1作为比中源,H2作为比中目标,保存到房屋查重表,否则将H2作为比中源,H1作为比中目标,保存到房屋查重表;

步骤3-9)凡是在房屋查重表的房屋比中目标字段出现的房屋都是重复房屋。

2.根据权利要求1所述的一种不同信息源的房产数据同一性判别方法,其特征在于:步骤1)进行区域判别的原因为:各房屋交易网站的数据均采用一种“城市—>区域—>小区—>房屋”的层次结构;为了确定房屋的位置,要确定房屋所在的小区是否为同一小区,而确定某个小区时,先要确定小区所在的城市区域为同一区域,以提高判别的准确性和效率。

3.根据权利要求1所述的一种不同信息源的房产数据同一性判别方法,其特征在于:步骤2)进行同一性判别的原因在于:各个网站对小区的描述存在差异,在完成步骤1)区域去重之后,各区域的别名对着唯一的区域,可以根据区域的别名,查询得到相同区域中的小区;

其中,小区信息特征包括小区的名称、建筑面积、总户数、物业公司以及小区的经纬度信息;根据这些特征对小区的同一性判别。

4.根据权利要求1所述的一种不同信息源的房产数据同一性判别方法,其特征在于:步骤3)进行同一性判别的原因在于:同一套房屋可能在不同网站挂牌出售,并且各个网站对房屋的描述存在差异,在完成步骤2)小区去重之后,根据小区查重表中信息,对不同网站的相同小区进行聚类;然后根据聚类的结果,查询来源不同网站的相同小区的房屋列表。

说明书全文

一种不同信息源的房产数据同一性判别方法

技术领域

[0001] 本发明涉及一种不同信息源的房产数据同一性判别方法,属于互联网数据分析与挖掘技术领域。

背景技术

[0002] 房地产是国民经济的重要承载体,是我国极为重要的支柱产业。房地产市场状况与价格走势不仅关乎国民经济的整体发展,更牵动和影响着人民的生活水平,近年来房地产市场“风云变幻”,已经成了社会关注的焦点和热点。
[0003] 如何加强监控房地产市场、分析房地产价格走势已经成为一个重要课题。随着我国房地产市场逐步走向成功,二手房市场的核心地位已日益突显,其主导整个市场的能力逐渐增强,特别是北京、上海等城市,其二手房交易量已经占据了大部分房产市场的交易量。
[0004] 关于二手房的交易,随着房地产市场的快速发展和互联网技术的广泛应用,目前网上已有很多房屋交易网站,如链家、我爱我家、中原地产等。这些房屋交易网站为购房者和售房者提供了便利的网络交易平台,售房者在这些网络平台上发布售房信息,购房者在平台上进行交易。由于其操作便捷,信息来源广等特点,这种网络交易方式也越来越受大众的青睐。在这些房屋交易平台发布的数据中,真实的反映了房地产市场状态。并且房屋交易网站覆盖面广,反映的信息实时性强。因此,如何利用这些实时的房屋交易网站上的房产信息进行分析,能更加准确地掌握房产市场情况。
[0005] 如何通过房屋交易网站的数据,对房地产市场分析,已经成为一个分析房地产市场的重要方法。很多房地产研究机构已经认识到房屋交易网站平台发布的房地产信息中所蕴含的价值,纷纷开始利用这些数据展开研究,分析房地产市场走势。例如链家研究院利用链家网站上的房屋交易信息,进行了房地产市场分析,取得了较好的效果。但是其研究的房屋交易范围在本网站的交易数据。也有许多机构开始通过抓取房地产交易网站中的数据,开展研究工作,为房地产市场分析提供了新的研究思路。
[0006] 较好的做法是综合各房地产交易网站中公布的房产交易数据,进行整体分析,能更加真实的反映房地产市场的状态。但是在汇聚多源地产交易网站的房屋数据时,存在同一用户,将同一房屋在不同网站发布房源信息的情况,甚至还有可能将同一房屋在发布到同一网站中。因此在进行房地产市场分析时,必须要对来自多源网站的房屋信息的同一性进行判别,将其中重复房屋剔除,房地产分析系统才能有效使用。
[0007] 在各房地产交易网站发布的房屋信息中,包含了待交易房屋的详细特征。如所在小区/位置、房价、楼层、面积、价格等。可以从抽取房屋关键特征入手,分析房屋的关键特征信息,并以此判别房屋的同一性,剔除重复房屋,为房产市场分析、研究提供准确的、可靠的数据基础。
[0008] 目前有许多的研究者在数据去重领域进行广泛研究,也提出了许多的方法。在这些研究方法中,研究者提出的去重方法,许多都是对通用的文本数据(文档)去重的方法,其基本思路,面向文本数据,计算文本之间的相似度,然后进行去重。
[0009] 但是目前,还没有针对融合多源房地产网站的房屋数据进行去重的方法。房地产交易网站公布的房屋数据,属于半结构化的数据,其中包含了丰富的房屋特征,例如所属小区、面积、所在楼层等,如果采用对网页文本进行判别,则会降低判断的准确性。
[0010] 因此本方明针对房地产交易网站公布的房屋信息,抽取房屋的关键特征,对多源房屋数据的同一性进行判别,去掉重复房屋。以融合这些多源、异构房屋数据,为房地产市场分析提供可以使用准确、有效的数据集,为房地产市场分析提供数据支持。

发明内容

[0011] 本发明的目的在于针对现有房产数据信息源众多、信息混乱且判别准则不明朗的技术缺陷,提出了一种不同信息源的房产数据同一性判别方法,所述房产数据同一性判别方法基于已有多源及异构房地产交易网站公布的房屋数据,分析房屋特征,对房屋的同一性进行判别,剔除重复房屋;产生的数据集可用于房地产分析等相关技术领域。
[0012] 本发明的核心思想是基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据,更加有效的融合多房屋交易平台的网站数据,为对房地产市场分析提供准确、有效的数据支撑。
[0013] 其中,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性;不同网站发布的房屋数据,虽然描述不尽相同,但描述对象为同一房屋时,存在如下相关性:
[0014] 1、房屋地址相同:房屋的地址体现在所在的小区是同一个小区,所在的楼栋属于同一个楼栋;由于很少有网站公布房屋所在楼栋的信息,因此在这方面的判断可以采用所在楼栋的楼层高来判断;
[0015] 2、房屋的基本属性相同:房屋的基本属性包括房屋面积、户型以及朝向;
[0016] 3、业主的期望相同:业主在出租以及销售房屋时,对房屋的价格期望是一致的,因此可用其挂牌价格判断。
[0017] 本发明是通过以下技术方案实现的:
[0018] 所述房产数据同一性判别方法,包括如下步骤:
[0019] 步骤1)针对不同网站对同一城市下的相同区域描述存在差异进行区域去重;
[0020] 进行区域判别的原因为:各房屋交易网站的数据均采用一种“城市—>区域—>小区—>房屋”的层次结构;为了确定房屋的位置,要确定房屋所在的小区是否为同一小区,而确定某个小区时,先要确定小区所在的城市区域为同一区域,以提高判别的准确性和效率;
[0021] 对区域的判别,通过区域名称来判断是否是同一个区域;通过对房屋交易网站中对区域命名的特点,以及人们对区域的称呼习惯的分析,一般对区域的称谓,都有一个“核心词”;有些就直接以该“核心词”命名,有些在“核心词”的后面附加类似“区”、“县”后缀;即:区域名称构成具有较强的规律性,可以采用规则的方法对其判别;
[0022] 步骤1)又包括如下子步骤:
[0023] 步骤1-1)为了后续统计及分析方便,建立区域信息表,并在该表中设定字段保存从网站采集的区域所在城市和区域名称,以及区域的别名字段和别名来源优先级字段;
[0024] 区域的别名字段用于标识区域的名称,在对区域操作时,通过区域的别名是否相同,判断是否是同一区域。别名来源优先级用于对别名字段更新的判断;
[0025] 步骤1-2)确定房地产网站的优先级;
[0026] 其中,网站源优先级分别为0、1、2,数字越小,优先级越高;
[0027] 步骤1-3)按照步骤1-2)设定的房地产网站优先级,查询相同城市下的所有区域。将查询得到区域列表两两比较,比较的方法方式是判断区域的名称是否相似,依据判断的结果更新区域的别名,具体为:
[0028] 其中判断区域的名称是否相似,采用规则的方法判断;根据各网站对区域名称的特点,书写判别规则,然后使用判别规则对待判断的区域名称进行判定,如果判定两小区的名称相同,则按照下面的规则更新区域的名称。设当前比较的区域为A、B,若A区域和B区域的名称匹配成功,再判断A、B的别名是否赋值:若A、B的别名都未赋值进行1-3A)操作;若A的别名已赋值且B的别名未赋值进行1-3B)操作;若A的别名未赋值且B的别名已赋值进行1-3C)操作;若A、B的别名已赋值进行1-3D)操作;
[0029] 1-3A)获取A区域的来源网站的优先级λa,B区域的来源网站的优先级λb。如果λa大于λb,则将B区域的名称作为A区域的别名,λb作为A区域的别名来源优先级,保存在区域信息表,跳至步骤1-4);反之,将A区域的名称作为B区域的别名,λa作为B区域的别名来源优先级,保存在区域信息表,跳至步骤1-4);
[0030] 1-3B)获取A区域的别名来源优先级λa’,B区域的来源网站的优先级λb。如果λb大于λa’,将A的别名作为B的别名,λa’作为B的别名来源优先级,跳至步骤1-4);反之,将A的别名更新为B的名称,将A区域的别名来源优先级更新为λb,跳至步骤1-4);
[0031] 1-3C)获取B区域的别名来源优先级λb’,A区域的来源网站的优先级λa。如果λa大于λb’,将B的别名作为A的别名,λb’作为A的别名来源优先级,跳至步骤1-4);反之,将B的别名更新为A的名称,将B区域的别名来源优先级更新为λb,跳至步骤1-4);
[0032] 1-3D)获取B区域的别名来源优先级λb’,A区域的别名来源优先级λa’。如果λa’大于λb’,将A的别名更新为B的别名,将A的别名来源优先级更新为λb’,跳至步骤1-4);反之,将B的别名更新为A的名称,将B区域的别名来源优先级更新为λa’,跳至步骤1-4);
[0033] 步骤1-4)通过步骤1-3)比较区域名称并匹配完毕后,将所有区域别名字段为NULL的区域的别名赋值为区域名;
[0034] 步骤1-5)以区域信息表中的区域别名作为依据进行城市区域的查询和统计;
[0035] 步骤2)小区去重,即针对城市区域中的小区进行同一性判别;
[0036] 其中,进行同一性判别的原因在于:各个网站对小区的描述存在差异,在完成步骤1)区域去重之后,各区域的别名对着唯一的区域,可以根据区域的别名,查询得到相同区域中的小区。其中,小区信息特征包括小区的名称、建筑面积、总户数、物业公司以及小区的经纬度信息。可以根据这些特征对小区的同一性判别。步骤2)具体包括如下子步骤:
[0037] 步骤2-1)建立小区查重表,保存判别为相同小区的小区标识,该表中设立两个字段:比中源小区标识和比中目标小区标识;
[0038] 其中,小区标识为小区的ID。
[0039] 步骤2-2)按照步骤1-2)确定的网站优先级,根据区域信息表,搜索小区表中区域别名相同的小区,并两两比较小区的特征,设待比较的小区为C1、C2,具体包括如下子步骤:
[0040] 步骤2-2-1)计算小区位置差异度,具体采用公式(1)计算:
[0041] 小区位置差异度=|小区经度差|+|小区纬度差|  (1)
[0042] 其中,|小区经度差|表示C1的经度与C2的经度差的绝对值,|小区纬度差|表示C1的纬度与C2的纬度差的绝对值;
[0043] 如果C1、C2没有经纬度信息,则小区位置差异度为0;
[0044] 步骤2-2-2)计算小区面积相似度,具体采用公式(2)计算:
[0045] 小区面积相似度=|1-|小区面积差|/Min(小区面积)|  (2)
[0046] 其中,|小区面积差|表示C1的小区面积与C2的小区面积差的绝对值;Min(小区面积)表示C1的小区面积与C2的小区面积中的较小值,如果两者相等,则为C1的小区面积;
[0047] 如果没有建筑面积信息,则小区面积相似度为1;
[0048] 步骤2-2-3)计算小区总户数相似度,具体采用公式(3)计算:
[0049] 小区总户数相似度=|1-|小区总户数差|/Min(小区总户数)|  (3)
[0050] 其中,|小区总户数差|表示C1的小区总户数与C2的小区总户数差的绝对值;Min(小区总户数)表示C1的小区总户数与C2的小区总户数中的较小值,如果两者相等,则为C1的小区总户数;
[0051] 如果小区没有总户数信息,则小区总户数相似度为1;
[0052] 步骤2-2-4)计算小区名称的相似度,具体采用公式(4)计算:
[0053] 小区名称相似度=1-(eDistance/maxlength(小区名称))  (4)
[0054] 其中,eDistance是C1的小区名称与C2的小区名称的字符串编辑距离,计算方法为,采用插入、修改、删除一个字符的方法,把C1的小区名称转换成C2的小区名称所需要的最少操作步骤数;maxlength(小区名称)是C1的小区名称的长度与C2的小区名称长度的较大值,如果两者相等,则为C1的小区名称的长度。
[0055] 步骤2-2-5)计算小区物业公司名称的相似度,具体采用公式(5)计算:
[0056] 1-(eDistance/maxlength(小区物业公司名称))  (5)
[0057] 其中,eDistance是C1的物业公司名称与C2的物业公司名称的字符串编辑距离,计算方法为,采用插入、修改、删除一个字符的方法,把C1的物业公司名称转换成C2的物业公司名称所需要的最少操作步骤数;maxlength(小区物业公司名称)是C1的物业公司名称的长度与C2的物业公司名称长度的较大值,如果两者相等,则为C1的物业公司名称的长度。
[0058] 步骤2-3)利用步骤2-2中计算的小区特征的相似度,判断小区的同一性。如果小区位置差异度小于设定的阈值T1,并且面积相似度、总户数相似度大于设定的阈值T2、小区名称、物业公司名称的相似度大于设定的阈值T3,则判定为是同一小区;
[0059] 其中,阈值T1的选取准则为根据经纬度相差0.01度,距离相差约1000米的方法,将T1选取为0.02;阈值T2选取为0.95;阈值T3选取为0.9;
[0060] 步骤2-4)如果小区C1和C2在步骤2-3中判定为同一小区,则将C1和C2更新到小区查重表,具体为:获取小区C1的来源网站优先级λ1,小区C2的来源网站优先级λ2;如果λ1大于λ2,则将C2作为比中源,C1作为比中目标,保存到小区查重表;否则将C1作为比中源,C2作为比中目标,保存到小区查重表;
[0061] 步骤3)房屋去重,即进行房屋同一性判别;
[0062] 其中,进行同一性判别的原因在于:同一套房屋可能在不同网站挂牌出售,并且各个网站对房屋的描述存在差异,在完成步骤2)小区去重之后,根据小区查重表中信息,可对不同网站的相同小区进行聚类;然后根据聚类的结果,查询来源不同网站的相同小区的房屋列表;
[0063] 其中,所述房屋信息特征包括所在楼栋的层高、所属楼层、挂牌价格、建筑面积、户型结构、户型图以及朝向;再根据所述房屋信息特征判别房屋的同一性;
[0064] 步骤3)具体包括如下子步骤:
[0065] 步骤3-1)建立房屋查重表,设立两个字段:比中源房屋标识和比中目标房屋标识;
[0066] 其中,房屋标识为房屋的ID;
[0067] 步骤3-2)根据城市的区域,搜索同一区域的小区,建立小区列表cList,并按照网站优先级排序;
[0068] 步骤3-3)根据小区查重表的信息,将小区列表cList中的小区进行聚类,具体为:
[0069] 步骤3-3A)构建邻接表G,邻接表G中的每一个节点代表小区列表cList中的一个小区;
[0070] 步骤3-3B)从小区查重表中查询小区列表cList中被判别为同一小区的小区列表rList,rList中的每个元素包含两个信息:比中列表比中源和比中列表比中目标;
[0071] 步骤3-3C)遍历rList,将比中源和比中目标所对应的小区,在邻接表G中构建一条边;
[0072] 步骤3-3D)采用深度优先算法,遍历邻接表G,在G中生成森林F,森林F中的每一棵树,是G中的极大连通子图;
[0073] 其中,F中每一棵树表示一个小区;
[0074] 步骤3-4)遍历由步骤3-3)中产生的森林F中的每一个树Tree,从房屋表查询得到树Tree所有节点表示的小区中的房屋列表;
[0075] 步骤3-5)将房屋居室分成5类:1居室、2居室、3居室、4居室以及4居室以上,为每个分类建立列表;将房屋列表中的房屋按照居室数分别添加到相应的分类列表,遍历每个分类列表中的房屋,并两两比较房屋的特征,设待比较的房屋为H1,H2,具体为:
[0076] 步骤3-5-1)判断所在楼栋的层高是否相同,如果楼栋的层高不相同,判断两房屋不相同,结束判断,如果相同,则执行步骤3-5-2)至步骤3-5-4):
[0077] 步骤3-5-2)计算房屋所在的楼层相似度:目前网站在发布房屋信息时,并不发布具体的楼层,而是只描述房屋的大概楼层,并且不同网站的描述也存在差异;
[0078] 具体计算方法为:根据各网站对楼层的描述,建立各楼层的同义词,比较房屋所在楼层时,如果房屋的楼层属于一对同义词,则其相似度为1,否则0;
[0079] 步骤3-5-2)计算面积相似度:具体采用公式(6)计算:
[0080] |1-|面积差|/Min(面积)|  (6)
[0081] 其中,|面积差|表示H1的房屋面积与H2的房屋面积差的绝对值;Min(面积)表示H1的房屋面积与H2的房屋面积中的较小值,如果两者相等,则为H1的房屋面积;
[0082] 步骤3-5-3)计算价格相似度:具体采用公式(7)计算:
[0083] |1-|价格差|/Min(价格)|  (7)
[0084] 其中,|价格差|表示H1的挂牌价格与H2的挂牌价格差的绝对值;Min(价格)表示H1的挂牌价格与H2的挂牌价格中的较小值,如果两者相等,则为H1的挂牌价格;
[0085] 步骤3-5-4)计算朝向相似度:具体采用公式(8)计算:
[0086] 1-(eDistance/maxlength(朝向))  (8)
[0087] 其中,eDistance是H1的房屋朝向与H2的房屋朝向的字符串编辑距离,计算方法为,采用插入、修改、删除一个字符的方法,把H1的房屋朝向转换成H2的房屋朝向所需要的最少操作步骤数;maxlength(朝向)是H1的房屋朝向的长度与H2的房屋朝向长度的较大值,如果两者相等,则为H1的房屋朝向的长度;
[0088] 步骤3-6)若房屋所在的楼层相似度为1,并且其面积相似度、价格相似度大于设定阈值T4;朝向相似度大于设定阈值T5则视为相似房屋;
[0089] 其中,阈值T4选取为0.95,阈值T5选取为0.5;
[0090] 步骤3-7)在步骤3-6中判别为相似房屋,由于实际房屋信息中存在许多在楼层,面积、价格、朝向都相似的房屋,需进一步判断房屋的户型结构;目前户型图用较粗的黑线,勾勒出房屋的墙壁轮廓,并配有家具、饰物等,因此比较户型图相似的方法是从户型图中抽取出墙壁的信息,对横向和纵向两个方向的墙壁分布进行比较,具体为:
[0091] 步骤3-7-1)根据房屋H1、H2的URL,下载房屋H1、H2的户型图,并保存,设为image,按照步骤3-7-2)至3-7-10)的方法,分别计算H1、H2的户型图的墙壁信息;
[0092] 步骤3-7-2)将image转换成分辨率为100*100的图片,设为image100;
[0093] 步骤3-7-3)将image100转换成灰度图,设为grayimage100;
[0094] 步骤3-7-4)计算grayimage100的灰度直方图h;
[0095] 步骤3-7-5)从灰度直方图中抽取表示墙壁线的颜色值,具体为:从左往右扫描直方图h,寻找直方图h中第一个与邻近区域的差值超过设定阈值T6的灰度值g;
[0096] 其中,阈值T6选取为50;
[0097] 步骤3-7-6)将步骤3-7-5)中得到的灰度值g对灰度图grayimage100二值化,具体为:
[0098] 遍历grayimage100的所有像素点,如果像素点的灰度值为p(i,j),计算p(i,j)y与g差的绝对值,若|g(i,j)-g|大于设定的阈值T7,将p(i,j)的灰度设为255,否则设为0;
[0099] 其中,阈值T7选取为10;
[0100] 步骤3-7-8)去掉户型图中“大面积”物体,具体为:
[0101] 用特定大小“矩形”扫描户型图,计算矩形内灰度值为0的象素点数pcount,如果pcount超过设定阈值T8,则视为“大面积”物体,将其设为0;
[0102] 其中,矩形的大小为5*5,阈值T8选取为16;
[0103] 步骤3-7-9)计算户型图中的墙壁信息,具体方法为:
[0104] 按行扫描二值化后的的灰度图,计算每行中灰度为0的象素点数,得到每行中灰度为0的象素点直方图rowHist;按列扫描二值化后的的灰度图,计算每列中灰度为0的象素点数,得到每列中灰度为0的象素点直方图colHist;
[0105] 步骤3-7-10)扫描rowHist,计算rowHist中的凸点,该凸点表示户型图的墙壁,得到户型图墙壁分布序列wallSeq1;扫描colHist,计算colHist中的凸点,得到户型图墙壁分布序列wallSeq2;
[0106] 其中,wallSeq1和wallSeq2中的元素是如下的序列对:
[0107]
[0108] 其中,location的值是rowHist(colHist)中凸点的位置,代表墙壁在户型图中的位置,length是rowHist(colHist)中凸点值,代表墙壁的长度;
[0109] 步骤3-7-11)计算H1的wallSeq1和H2的wallSeq1的相似度,具体为:
[0110] 步骤3-7-11A)设n1为H1的H1wallSeq1的序列对中元素个数,设n2为H2的H2wallSeq1的序列对中元素个数,i1表示H1的H1wallSeq1的序列对中待比较元素的位置,开始为0,i2表示H2的H2wallSeq1的序列对中待比较元素的位置,开始为0;m为H1wallSeq1、H2wallSeq1中相同的元素个数,开始为0;
[0111] 步骤3-7-11B)判断i1和i2,若i1小于n1并且i2小于n2,则执行步骤3-7-11C),否则执行步骤3-7-11E);
[0112] 步骤3-7-11C)计算墙壁位置差异度,具体采用公式(9)计算:
[0113] diff_location=|H1wallSeq1[i1].location-H2wallSeq1[i2].location|  (9)[0114] 如果diff1小于阈值T9,i1加1,i2加1,并按照公式(10)计算墙壁长度差异,否则执行步骤3-7-11D):
[0115] diff_length=|H1wallSeq1[i1].length-H2wallSeq1[i2].length|  (10)[0116] 如果diff_length小于阈值T10,则m加1;执行步骤3-7-11B);
[0117] 其中,阈值T9选取为4,阈值T10选取为8;
[0118] 步骤3-7-11D)如果H1wallSeq1[i1].Location小于H2wallSeq1[i2].Location则i1加1,否则i2加1;
[0119] 执行步骤3-7-11B);
[0120] 步骤3-7-11E)按照公式(11),计算H1wallSeq1和H2wallSeq1的相似度:
[0121] S1_1=m/max(n1,n2)  (11)
[0122] 其中max(n1,n2)表示n1和n2的较大值,如果n1等于n2,则为n1;
[0123] 步骤3-7-12)按照步骤3-7-11的方法计算H1的wallSeq1和H2的wallSeq2的相似度S1_2,H1的wallSeq2和H2的wallSeq1的相似度S2_1,H1的wallSeq2和H2的wallSeq2的相似度S2_2;
[0124] 步骤3-7-13)计算H1和H2的户型相似度,具体通过公式(12)、公式(13)计算:
[0125] S1=max(S1_1,S1_2);  (12)
[0126] S2=max(S2_1,S2_2);  (13)
[0127] 步骤3-8)如果S1和S2都超过设定阈值T11,则判别为相同房屋,并更新房屋信息;
[0128] 其中,max(S1_1,S1_2)表示S1_1和S1_2的较大值,如果S1_1等于S1_2,则为S1_1,max(S2_1,S2_2)表示S2_1和S2_2的较大值,如果S2_1等于S2_2,则为S2_1,阈值T11选取为0.8;
[0129] 具体更新方法为:
[0130] 设房屋H1的来源网站优先级为λ1,房屋H2的来源网站优先级为λ2,若λ1小于λ2,则将H1作为比中源,H2作为比中目标,保存到房屋查重表,否则将H2作为比中源,H1作为比中目标,保存到房屋查重表;
[0131] 步骤3-9)凡是在房屋查重表的房屋比中目标字段出现的房屋都是重复房屋。
[0132] 有益效果
[0133] 本发明中提出的一种不同信息源的房产数据同一性判别方法,与现有技术相比,具有如下有益效果:
[0134] 1.所述方法能对来源于不同网站的房屋数据去重,能够准确、高效的对来源于不同信息源的房屋数据的同一性判别,并能有效去除重复区域、小区,可以实现面向多源异构的房屋数据的有效融合,为房地产市场分析提供“干净”,“整齐”的数据;
[0135] 2.各个房地产网站发布的房地产交易信息,真实地反映了当前房地产市场的动态,使用本发明中提出的方法,可以有效融合多个房地产网络的交易数据,能更真实地反映房地产交易状态,依据多网站的房屋数据,可以挖掘出更准确房地产市场变化动态,可以用于政府的决策、企业经营、民众投资等中领域,以促进房地产市场分析技术的发展,提高房地产市场监控、分析水平。

附图说明

[0136] 图1是本发明一种不同信息源的房产数据同一性判别方法的系统架构;
[0137] 图2是本发明一种不同信息源的房产数据同一性判别方法的系统处理流程;
[0138] 图3是本发明一种不同信息源的房产数据同一性判别方法步骤2以及实施例1的小区去重流程;
[0139] 图4是本发明一种不同信息源的房产数据同一性判别方法步骤3以及实施例1的房屋去重流程图;
[0140] 图5是本发明一种不同信息源的房产数据同一性判别方法步骤3-3以及实施例1的小区聚类示意图;
[0141] 图6是本发明一种不同信息源的房产数据同一性判别方法步骤3-3以及实施例1的小区聚类效果图;
[0142] 图7是本发明一种不同信息源的房产数据同一性判别方法步骤3-5以及实施例1的房屋按居室归类示意图。

具体实施方式

[0143] 为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例,仅仅用以解释本发明,并不用于限定本发明。
[0144] 实施例1
[0145] 本实施例描述了本发明所述一种不同信息源的房产数据同一性判别方法的具体实施。
[0146] 实施示意图如图1系统架构所示,图2是本发明一种不同信息源的房产数据同一性判别方法的系统处理流程。本发明承接数据采集系统与数据分析系统属于房产数据处理的中间环节。其中,数据采集系统从各房地产交易网站采集房地产的交易数据,包括小区数据、城市区域数据、房屋数据、房屋成交数据等,保存在房地产基础数据库中。
[0147] 使用本发明提出的方法,对房地产基础数据库中的房屋数据进行去重,将处理后的数据存储在房地产分析数据库中,分析平台在此基础进行数据的分析、计算与处理。
[0148] 表1房屋标签表
[0149]序号 字段名 类型 说明
1 House_uid Int 爬虫系统保存的房屋标识号
2 city Varcha(100) 城市
3 district Varchar(100) 区域
4 Community_uid Int 爬虫系统保存的小区标识号
5 price Float 房屋当前挂牌价格
6 Price_unit Varchar(50) 价格单位
7 Build_area Float 房屋建筑面积
8 Use_area Float 房屋使用面积
9 Area_unit Varchar(50) 面积单位
10 Build_floor Int 房屋所属楼栋的层高
11 Current_floor Varchar(50) 房屋所在楼层
12 rooms Int 房屋居室数
13 halls Int 房屋厅数
14 towards Varchar(50) 房屋朝向
15 repeated Bit 是否与其它房屋重复
16 checked Bit 是否已经检查
[0150] 表2网站源表
[0151]序号 字段名 类型 说明
1 网站名称 Varchar(50) 网站名称
2 网站优先级 Int 网站优先级
[0152] 表3城市区域表
[0153]
[0154]
[0155] 表4小区表
[0156]序号 字段名 类型 说明
1 community_id Int 小区Id
2 Area_id Int 对应区域表
3 Community_name Varchar(100) 小区名称
4 latitude Float 纬度
5 longitude Float 经度
6 repeated Bit 是否与其它小区重复
7 checked Bit 是否已经检查
[0157] 表5小区比中表
[0158]
[0159] 表6房屋比中表
[0160]
[0161] 首先对采集的城市区域去重。检索房地产基础数据库中采集的城市区域信息,如果区域不在分析数据库中,将其更新到分析数据库中,然后按照本发明中介绍的步骤1,对区域信息进行处理。
[0162] 不同网站对同一城市下的相同区域描述存在差异,例如:链家网站对上海的区域描述如下:
[0163] 静安、徐汇、黄浦、长宁、……
[0164] 我爱我家网站对上海的区域描述如下:
[0165] 静安区、徐汇区、黄浦区、长宁区、……
[0166] 对区域的判别,通过区域名称来判断是否是同一个区域;通过对链家、我爱我家、中原、麦田等网站中对区域命名的特点,以及人们对区域的称呼习惯的分析,一般对区域的称谓,都有一个“核心词”;有些就直接以该“核心词”命名,有些在“核心词”的后面附加类似“区”、“县”等后缀,例如前面的“静安”和“静安区”等。区域名称构成具有较强的规律性,可以采用规则的方法对其判别。
[0167] 其次对采集的小区去重。检索房地产基础数据库中的采集的小区信息,如果小区不在分析数据库中,将其更新到分析数据库中。
[0168] 各个房地产网站对同一小区名称以及物业公司的描述也存在差异。例如,链家网对北京东城的崇文门的“法华南里”小区称为“法华南里”,而麦田网站则称为“法华寺南里”。对小区名称和物业公司名称的判别采用字符串相似度的方法。
[0169] 小区去重的流程图如图3所示。
[0170] 按照表3城市区域表中的District_alias字段和province字段,对区域进行分组查询,得到城市区域列表。遍历城市区域列表,根据District_alias字段中的区域名称,查询该区域中的小区列表ClistAll。再根据小区中checked信息,如果为1,表示已经检查,如果为0表示未检查,得到checked为0的小区(未进行去重处理的小区),形成ClistUncheck列表。将ClistAll和ClistUncheck列表中的小区,按照本发明中步骤2中介绍方法,两两比较小区的相似性。如果相似,将小区信息更新到表5小区比中表中。
[0171] 最后对房屋信息去重。从表1房屋标签表中查询房屋信息,按照小区,对房屋信息进行去重处理,其示意图如图4所示。
[0172] 按照表3城市区域表中的District_alias字段和province字段,对区域进行分组查询,得到区域列表。遍历区域列表,根据District_alias字段中的区域名称,查询该区域的小区列表ClistAll。已经去重处理后的小区根据表4小区比中表的src_uid比中源和target_uid比中目标,本质上形成如图5所示的无有向图结构。图中的每个节点对应着一个小区,边表示两个小区是同一个小区。按照本发明中介绍的步骤3的方法,查找当前小区比中相同小区,进行聚类。聚类结果形成如图6所示的相同小区聚类列表ClistCluster,列表中每个元素代表一个相同小区的类族。
[0173] 遍历ClistCluster,查找每个类族中的房屋信息,得到小区下的所有房屋列表HlistAll。根据房屋信息中checked,如果为1,表示已经检查,如果为0表示未检查,得到checked为0的房屋列表HlistUncheck。为了提高效率,减少比对次数。将HlistAll和HlistUncheck中的房屋按照居室数分成5类,如图7房屋按居室归类示意图所示。按照本发明中步骤3介绍的房屋去重算法,对HlistAll和HlistUncheck中居室数相同的房屋两两比较。
[0174] 如果比较的房屋相似,则将比中的房屋更新到表5房屋比中表。
[0175] 经过上述处理后的房屋数据,是已经对重复的房屋数据进行了去重处理,可以为后续的房地产市场分析,提供“干净”、“整齐”的数据支持。并且处理后的数据,与采集的原始数据形成了有效的分离,保证了分析系统与采集系统的模块化,提高房地产市场分析系统的稳定性和独立性。
[0176] 以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用