联系人信息提取方法及装置转让专利

申请号 : CN200810057954.0

文献号 : CN101515270B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄文海陈宣励张鑫梁超英

申请人 : 中国移动通信集团公司中国移动通信集团广西有限公司北京佳诚无限科技有限公司

摘要 :

本发明公开了一种联系人信息提取方法及装置,以提高联系人信息的提取速率及准确率,该方法包括:针对每个包含联系人信息的文件,调用与该文件的文件格式匹配的阅读器读取该文件中包含的内容;获得联系人特征关键字;以及在读取的内容中,提取出与获得的联系人特征关键字匹配的联系人信息。以及该装置包括:读取器调用单元,用于针对每个包含联系人信息的文件,调用与该文件的文件格式匹配的阅读器读取该文件中包含的内容;关键字获得单元,用于获得联系人特征关键字;以及信息提取单元,用于在读取的内容中,提取出与关键字获得单元获得的联系人特征关键字匹配的联系人信息。

权利要求 :

1.一种联系人信息提取方法,其特征在于,包括:针对每个包含联系人信息的文件,调用与该文件的文件格式匹配的阅读器读取该文件中包含的内容;

获得联系人特征关键字;

在读取的内容中,提取出与获得的联系人特征关键字匹配的联系人信息;

其中,所述获得联系人特征关键字包括:从存储预设关键字的数据库中读取。

2.如权利要求1所述的方法,其特征在于,所述联系人特征关键字包括联系方式关键字及联系人标识关键字。

3.如权利要求2所述的方法,其特征在于,所述在读取的内容中,提取出与获得的联系人特征关键字匹配的联系人信息,包括:在读取的内容中,定位与联系方式关键字匹配的联系方式信息;

在定位出每一条联系方式信息后,在该联系方式信息所在位置的规定范围内,定位出与联系人标识关键字匹配的联系人标识信息;

提取定位到的该条联系方式信息和对应的联系人标识信息,作为一条联系人信息。

4.如权利要求2所述的方法,其特征在于,所述在读取的内容中,提取出与联系人特征关键字匹配的联系人信息,包括:在读取的内容中,定位与联系人标识关键字匹配的联系人标识信息;

在定位出每一条联系人标识信息后,在该联系人标识所在位置的规定范围内,定位出与联系方式关键字匹配的联系方式信息;

提取定位到的该条联系人标识信息和联系方式信息,作为一条联系人信息。

5.如1~4中任一项权利要求所述的方法,其特征在于,还包括:整理所述提取出的联系人信息;

显示所述整理后的联系人信息。

6.如权利要求5所述的方法,其特征在于,还包括:获取用户在所述显示的联系人信息中进行修改,得到的修改后的联系人信息;以及根据用户触发的存储指令,存储获取的修改后联系人信息。

7.如权利要求5所述的方法,其特征在于,还包括:确定重复的联系人信息;以及

显示确定的重复联系人信息。

8.一种联系人信息提取装置,其特征在于,包括:读取器调用单元,用于针对每个包含联系人信息的文件,调用与该文件的文件格式匹配的阅读器读取该文件中包含的内容;

关键字获得单元,用于获得联系人特征关键字,包括从存储预设关键字的数据库中读取;

信息提取单元,用于在读取的内容中,提取出与关键字获得单元获得的联系人特征关键字匹配的联系人信息。

9.如权利要求8所述的装置,其特征在于,还包括:信息整理单元,用于整理所述信息提取单元提取出的联系人信息;

信息显示单元,用于显示所述信息整理单元整理后的联系人信息。

10.如权利要求9所述的装置,其特征在于,还包括:修改信息获取单元,用于获取用户在所述显示的联系人信息中进行修改,得到的修改后的联系人信息;

存储单元,用于根据用户触发的存储指令,存储获取的修改后联系人信息。

说明书 :

联系人信息提取方法及装置

技术领域

[0001] 本发明涉及信息处理技术领域,尤其涉及一种联系人信息提取方法及装置。 背景技术
[0002] 在个人计算机中通常都保存有很多的联系人信息,这些联系人信息可能保存在多个文件中,并且多个文件的格式也是不相同的,比如,Txt、Word、Excel、PowerPoint、PDF、html、xml、Outlook联系人、聊天记录、eml、WPS、RTF等不同类型的文件,由于长时间的积累,用户已经忘记在哪里记录了哪些联系人,这种情形下,用户往往需要花费很多时间才能整理出这些联系人。
[0003] 目前广泛应用的联系人信息管理方法,大部分都提供了联系人信息的导入、导出功能,但是都需要用户提供某种特定格式的联系人数据文件才能生成对应的联系人信息,或者是需要用户把以前自己保存的联系人数据文档先转换成特定格式的文件,或者是需要用户手工录入信息来创建联系人信息。因此可见采用目前现有技术这些联系人信息管理方法,都不利于用户快速创建通讯录,既浪费时间又容易出现错误。

发明内容

[0004] 本发明实施例提供一种联系人信息提取方法及装置,用以提高从包含联系人信息的文件中提取联系人信息的速率及准确率。
[0005] 本发明实施例提供了一种联系人信息提取方法,包括:针对每个包含联系人信息的文件,调用与该文件的文件格式匹配的阅读器读取该文件中包含的内容;获得联系人特征关键字匹配的联系人信息;其中,所述获得联系人特征关键字包括:从存储预设关键字的数据库中读取。
[0006] 本发明实施例提供了一种联系人信息提取装置,包括:读取器调用单元,用于针对每个包含联系人信息的文件,调用与该文件的文件格式匹配的阅读器读取该文件中包含的内容;关键字获得单元,用于获得联系人特征关键字,包括从存储预设关键字的数据库中读取;以及信息提取单元,用于在读取的内容中,提取出与关键字获得单元获得的联系人特征关键字匹配的联系人信息。
[0007] 本发明实施例通过针对每个包含联系人信息的文件,调用与该文件格式匹配的阅读器读取该文件中包含的内容,获得联系人特征关键字,以及在读取的内容中,提取出与获得的联系人特征关键字匹配的联系人信息,避免了采用现有技术提取联系人信息的种种不便,提高了联系人信息提取的速率,并且由于根据联系人特征关键字来提取联系人信息,提高了从多类信息中提取联系人信息的准确率及速率,从而有利于用户根据提取出的各种格式文件中的联系人信息,创建统一的通讯录,节约了用户创建通讯录的时间,并提高了准确性。
[0008] 附图说明
[0009] 图1为本发明实施例提出的联系人信息提取方法的流程图;
[0010] 图2为本发明实施例提出的联系人提取装置的结构示意图。
[0011] 具体实施方式
[0012] 针对背景技术提及的问题,本发明实施例提出:针对包含联系人信息的文件,调用与该文件的文件格式匹配的阅读器读取其包含的内容,再根据联系人特征关键字,从读取的内容中提取联系人信息,以提高联系人信息提取的速率及准确率。
[0013] 下面结合说明书附图及具体实施例,来详细阐述本发明实施例提出的方案,图1为本发明实施例提出的联系人信息提取方法的流程图,结合该图可知, 本发明实施例提出的联系人信息提取方法的流程包括:
[0014] 步骤1,针对每个包含联系人信息的文件,调用与该文件的文件格式匹配的阅读器读取其包含的内容;
[0015] 其中如果仅有一个包含联系人信息的文件,则调用与该文件的文件格式匹配的阅读器读取其包含的内容即可。
[0016] 用户存储联系人信息的文件通常有多种文件类型,本发明实施例通过调用与每个文件的文件格式匹配的阅读器来读取内容,就能够直接读取该包含联系人信息的文件内容,无需用户进行文件类型转换等操作。
[0017] 尤其是当用户在多个文件内存储联系人信息时,针对每一个包含联系人信息的文件,本发明实施例将自动调用与该文件的文件格式匹配的阅读器来读取其内容,无需用户手动操作,因此提高了文件内容读取的速率,进而提高了整个提取过程的速率。
[0018] 步骤2,获得联系人特征关键字;
[0019] 其中可以通过如下几种方式来获得联系人特征关键字:
[0020] 1、在数据库中存储预设的联系人特征关键字,则步骤2中,可以从该数据库中获取预设的关键字;在从数据库中获取预设关键字时,还可以根据用户的选择,获取全部或者部分预设关键字作为联系人特征关键字。以这种方式获得联系人特征关键字可以方便用户操作,简单快捷。
[0021] 2、向用户显示提示信息,提示用户可以输入关键字,作为联系人特征关键字,并在用户输入关键字后,获取用户输入的关键字作为联系人特征关键字。以这种方式获得联系人特征关键字可以满足不同的用户需要,使得用户可以根据自己设置联系人信息的一些特有的特点来输入更为有效的关键字,满足不同的用户需求,且进一步提高了提取的速率及准确率。
[0022] 此外,由于根据联系人特征不同,可能存在多种联系人特征关键字,例如联系人标识关键字及联系方式关键字等。这种情况下不同类型的关键字也可以分别从数据库中提取及获取用户输入的关键字,即将方式1及方式2结合,来 获得联系人特征关键字。
[0023] 步骤3,根据获得的联系人特征关键字,从包含联系人信息的文件内容中提取联系人信息。
[0024] 由于包含联系人信息的文件中除了联系人信息外,可能还包含其他信息,因此,在提取联系人信息时,为提高提取的准确度及速率,本发明实施例基于联系人特征关键字来从多种信息内准确迅速的提取出联系人信息。
[0025] 由于联系人信息通常包括联系人标识及联系人的联系方式两类特征信息,因此联系人特征关键字可以采用联系人标识关键字及联系方式关键字。如果用户的联系人信息除了联系人标识、联系方式等特征信息,还包括其他特征信息,例如生日信息等,则也可以采用相应关键字作为特征关键字。
[0026] 本发明实施例基于联系人特征关键字提取联系人信息的思路为:根据联系人特征关键字,在读取的文件内容中,定位出与联系人特征关键字匹配的联系人信息的位置,然后提取出该联系人信息。
[0027] 在存在多种联系人特征关键字,例如联系人标识关键字及联系方式关键字的情况下,根据联系人特征关键字定位联系人信息的思路为:先根据某一种联系人特征关键字,在文件内容中,定位出与该类联系人特征关键字匹配的联系人特征信息所在的位置,然后在定位出的位置的预定范围内,根据其他类型的联系人特征关键字,定位出与已定位出的联系人特征信息对应的其他类型的联系人特征信息,最后将定位出的这几类联系人特征信息,作为联系人信息提取。
[0028] 基于上述思路,本发明实施例可以采用如下几种提取方式来提取联系人信息,以联系人特征关键字包括联系人标识关键字及联系方式关键字两类特征关键字为例: [0029] 第一种提取方式:在读取的内容中,先定位与联系方式关键字匹配的联系方式信息;再在定位出每一条联系方式信息后,在该联系方式信息所在位置的规定范围,例如所在位置的同一行内,定位出与联系人标识关键字匹配的联系人标识信息;然后提取定位到的该条联系方式信息和对应的联系人标识信息, 作为一条联系人信息。
[0030] 第二种提取方式:在读取的内容中,定位与联系方式关键字匹配的各条联系方式信息;并针对每条定位出的联系方式信息,执行如下处理:
[0031] 在该联系方式信息所在位置的规定范围内,定位出与联系人标识关键字匹配的联系人标识信息;以及提取定位出的该条联系方式信息和对应的联系人标识信息,作为一条联系人信息。
[0032] 第三种提取方式:在读取的内容中,定位与联系人标识关键字匹配的联系人标识信息;在定位出每一条联系人标识信息后,在该联系人标识所在位置的规定范围内,定位出与联系方式关键字匹配的联系方式信息;提取定位到的该条联系人标识信息和联系方式信息,作为一条联系人信息。
[0033] 第四种提取方式:在读取的内容中,定位与联系人标识关键字匹配的各条联系人标识信息;针对每条定位出的联系人标识信息,执行如下处理:
[0034] 在该联系人标识信息所在位置的规定范围内,定位出与联系方式关键字匹配的联系方式;以及提取定位到的该条联系人标识信息和联系方式信息,作为一条联系人信息。 [0035] 此外由于提取出的有些联系人信息可能由于时间过长已经无效、发生变动或无需继续保留等,因此在提取出联系人信息后,还可以将提取的联系人信息显示给用户,由用户进行修改调整,获得更为有效的联系人信息,并可以根据用户的存储指令,将用户修改后的联系人信息进行存储。
[0036] 其中在将提取的联系人信息显示给用户时,可以按照一定的格式对提取的联系人信息进行整理,再将整理后的联系人信息显示给用户,例如按照“联系人名称:联系方式”的方式整理并显示给用户。当然,该整理过程是可选的,即不进行整理就将联系人信息显示给用户,此时可以由用户按照自身需要来灵活调整联系人信息的格式。
[0037] 另外提取出的联系人信息可能还存在重复,此时可以设置重复提醒功能,提醒用户有联系人信息存在重复现象,所述重复可以是整条联系人信息重复, 也可以是一条联系人信息的部分特征信息与另外一条联系人信息的相应特征信息重复,例如联系人信息a的联系人名称与联系人信息b的联系人名称重复。重复提醒实现思路可以为:
[0038] 确定重复的联系人信息;再将确定的重复联系人信息显示给用户。其中确定重复的联系人信息可以通过多种方式完成,例如两两比较全部联系人信息等方式。所述将确定的重复联系人信息显示给用户的显示方式也可以有多种,例如将重复的联系人信息突出显示给用户等方式。
[0039] 假设包含联系人信息的文件有两个:1.doc及2.txt,1.doc中的文件内容为: [0040] “d,a,b,c
[0041] a1,b1,c1
[0042] a2,b2,c2
[0043] d1”
[0044] 其中a、a1及a2代表三个人名,a1及a2相同;b、b1及b2代表三个不同的手机号码;c、c1及c2代表三个不同的邮件地址;d及d1代表非联系人信息。
[0045] 2.txt中的文件内容为:
[0046] “e,f,g,h”
[0047] 其中e代表人名,f代表固定电话,g,h代表非联系人信息。
[0048] 且假设以联系人标识关键字及联系方式关键字作为联系人特征关键字,其中预先存储的联系人标识关键字包括“姓名”、“姓”、“名”及“张”、“王”、“李”等百家姓,联系方式关键字包括“010”、“021”、“022”等区号、“132”、“139”等手机号码的前三位号码、“126.com”、“163.com”等邮件后缀词以及其他一些联系方式的关键字,例如“QQ”,“msn”等。 [0049] 则可以上述方案的具体实施过程可以为,假设采用第一种提取方式提取联系人信息:
[0050] 确定出“1.doc”文件的文件类型为“.doc”,然后调用能够读取“.doc”类 型文件的阅读器读取该文件的文件内容;
[0051] 在“1.doc”的文件内容中,先根据联系方式关键字,定位联系方式,在定位出第一条联系方式b及c后,在规定的范围,本实施例中规定为同一行内,根据联系人名称关键字,定位出a,然后提取a,b及c,作为第一条联系人信息。然后继续采用同样的方式,提取出联系人信息a1,b1及c1;a2,b2及c2。
[0052] 确定出“2.txt”文件的文件类型为“.txt”,调用能够读取“.txt”类型文件的阅读器读取“2.txt”文件的内容;以及
[0053] 在读取出的“2.txt”的文件内容中,根据联系方式关键字定位出联系方式f,并在同一行内,根据联系人名称关键字定位出联系人名称e,再提取e及f,作为一条联系人信息。
[0054] 按照预定格式将提取的联系人信息显示给用户,并提示用户可以对显示的信息进行修改。本实施例中,按照“联系人名称:联系人联系方式”的格式显示给用户,其中还可以对提取出的联系人信息进行比较,在发现a1及a2相同后,在显示给用户的联系人信息中以斜体将a1及a2显示出来:
[0055] “a:b c
[0056] a1:b1 c1
[0057] a2:b2 c2
[0058] e:f”
[0059] 获取用户修改所述显示的信息后得到的信息,假设联系人a的联系方式已经无需保留,用户将显示的联系人信息调整为:
[0060] “a1:b1 c1 b2 c2
[0061] e:f”
[0062] 获取用户修改的联系人信息后,就可以根据用户发来的存储指令,将该调整后的信息进行存储。
[0063] 上述实施例在根据联系方式关键字定位联系方式及根据联系人标识关键字定位联系人标识信息时,由于联系方式关键字及联系人标识关键字均有多 种,因此较佳的,还可以将每一种关键字设定优先级来进行定位,以进一步提高定位的效率和准确性。例如在根据联系方式关键字来定位联系方式时,可以设定为:首先根据手机号码关键字定位手机号码,再根据固定电话关键字定位固定号码,其次根据邮件地址关键字定位邮件地址等。 [0064] 本发明实施例还提出了一种联系人信息提取装置,以提高联系人信息提取的速率及准确率。图2为本发明实施例提出的联系人提取装置的结构示意图,结合该图可知,本发明实施例提出的联系人信息提取装置10包括:
[0065] 读取器调用单元11,用于针对每个包含联系人信息的文件,调用与该文件的文件格式匹配的阅读器读取该文件中包含的内容;
[0066] 关键字获得单元12,用于获得联系人特征关键字;
[0067] 信息提取单元13,用于在读取的内容中,提取出与关键字获得单元12获得的联系人特征关键字匹配的联系人信息。
[0068] 如果需要将联系人信息显示给用户,则所述联系人信息提取装置10还可以包括: [0069] 信息整理单元14,用于整理所述信息提取单元13提取出的联系人信息;
[0070] 信息显示单元15,用于显示所述信息整理单元14整理后的联系人信息。
[0071] 为使用户能够调整显示的联系人信息,并将保留调整后的联系人信息,则该联系人信息提取装置10还可以包括:
[0072] 修改信息获取单元16,用于获取用户在所述显示的联系人信息中进行修改,得到的修改后的联系人信息;
[0073] 存储单元17,用于根据用户触发的存储指令,存储获取的修改后联系人信息。 [0074] 本发明实施例针对每个包含联系人信息的文件,调用与该文件格式匹配的阅读器读取该文件中包含的内容,获得联系人特征关键字,以及在读取的内容中,提取出与获得的联系人特征关键字匹配的联系人信息,避免了采用现有技术提取联系人信息的种种不便,提高了联系人信息提取的速率。
[0075] 本发明实施例根据联系人特征关键字来提取联系人信息,提高了从多类信息中提取联系人信息的准确率及速率,从而有利于用户根据提取出的各种格式文件中的联系人信息,创建统一的通讯录,节约用户创建通讯录的时间,并提高准确性。
[0076] 本发明实施例具体提出了四种根据联系人特征关键字来提取联系人信息的实施方式,提高了本方案应用的灵活性,有利于方案的推广使用。
[0077] 本发明实施例可以从存储预设关键字的数据库中获取联系人特征关键字,也可以获取用户输入的关键字,或者两者结合使用,一方面方便了使得用户操作简便,另一方面满足了不同的用户需要,且用户输入的关键字可能更为有效,针对性强,因此更能提高提取的速率及准确率。
[0078] 本发明实施例可以将提取的联系人信息进行整理,并将这整理后的信息显示给用户,有利于用户对该信息进行调整,确认等,进一步有利于用户对联系人信息的管理。 [0079] 本发明实施例在将联系人信息显示给用户时,可以向用户提示联系人信息重复,从而方便了用户对联系人信息进行调整,尤其是在联系人信息量较大的情况下。
[0080] 本发明实施例可以使用户能够修改调整显示的联系人信息,按照用户的需要进行联系人信息管理及调整,从而更加有利于形成有效的联系人信息。
[0081] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。