一种蛋白质二维结构图功能元件的自动布线方法转让专利

申请号 : CN201611186987.6

文献号 : CN106529206B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马宝山张晓宇耿尧黄金艳万亭君刘珂阳赵倩徐丹王巍孙野青

申请人 : 大连海事大学

摘要 :

本发明提供一种蛋白质二维结构图功能元件的自动布线方法,包括:获取蛋白质的长度、蛋白质结构图中的蛋白质功能元件数据,并保存,判断功能元件文件数据是否为空,若否,则读取功能元件文件数据;根据两个相邻的功能元件的位置的差与两个功能元件名称之间相对距离的最小差判断相邻功能元件的名称是否重叠,若是,则根据功能元件文件中功能元件位置,功能元件名称之间相对距离的最小差重新确定功能元件名称的横坐标最终位置,若否,则功能元件文本文件中的功能元件位置即是功能元件名称的横坐标最终位置;根据功能元件文件中的功能元件位置、功能元件名称的横坐标最终位置确定标注线的位置。本发明使得绘制蛋白质二维结构图快速精确。

权利要求 :

1.一种蛋白质二维结构图功能元件的自动布线方法,其特征在于,包括:

获取蛋白质的长度和蛋白质结构图中的蛋白质功能元件数据,所述蛋白质的功能元件包括结构域、功能位点和突变点,并将所述蛋白质长度和所述蛋白质功能元件分别保存至蛋白质长度文本文件和功能元件文本文件中,所述蛋白质长度文件包括:蛋白质起始位置和蛋白质结束位置、蛋白质主体高度,所述功能元件文本文件包括:功能元件位置、功能元件名称;

判断所述功能元件文件数据是否为空,若是,则不需画出功能元件,若否,则读取所述功能元件文件数据;

根据两个相邻的功能元件的位置的差与两个功能元件名称之间相对距离的最小差判断相邻功能元件的名称是否重叠,若是,则根据所述功能元件文件中功能元件位置,功能元件名称之间相对距离的最小差重新确定功能元件名称的横坐标最终位置,若否,则所述功能元件文本文件中的功能元件位置即是功能元件名称的横坐标最终位置;

根据所述功能元件文件中的功能元件位置、所述功能元件名称的横坐标最终位置以及所述蛋白质长度文件确定标注线的位置和所述功能元件名称的位置,所述标注线为功能元件和所述功能元件名称之间的引线。

2.根据权利要求1所述的方法,其特征在于,所述则根据两个相邻的功能元件的位置的差与所述两个功能元件名称之间相对距离的最小差判断所述相邻功能元件的名称是否重叠,若是,则根据所述功能元件文件中功能元件位置,功能元件名称之间相对距离的最小差重新确定功能元件名称的横坐标最终位置,若否,则所述功能元件文本文件中的功能元件位置即是功能元件名称的横坐标最终位置,包括:根据蛋白质的长度计算出相邻两个功能元件名称之间相对距离的最小差;

计算当前功能元件名称的位置和上一个功能元件名称的位置之间的差值;

判断所述差值是否小于所述最小差,若否,则相邻两个功能元件名称不重叠,所述当前功能元件的名称横坐标位置不变,即确定当前功能元件名称横坐标最终位置为功能元件文件中功能元件位置;若是,则相邻两个功能元件名称重叠,确定当前功能元件名称的横坐标最终位置为前一个功能元件名称横坐标最终位置与最小差之和。

3.根据权利要求1或2所述的方法,其特征在于,所述根据所述功能元件文件中的功能元件位置、所述功能元件名称的横坐标最终位置以及所述蛋白质长度文件确定标注线的位置和所述功能元件名称的位置,包括:判断功能元件文件中功能元件位置与所述功能元件名称的横坐标最终位置是否一致,若是,则确定标注线为一条直线段,若否,则确定标注线为折线段,所述折线段标注线包括三条线段,距离蛋白质从近到远依次为第一线段、第二线段以及第三线段;

根据功能元件文件中功能元件位置、所述功能元件名称的横坐标最终位置、蛋白质主体高度以及标注线的各线段长度确定所述直线段和所述折线段标注线中各线段的端点坐标和所述功能元件名称的位置坐标。

4.根据权利要求3所述的方法,其特征在于,所述根据功能元件文件中功能元件位置、所述功能元件名称的横坐标最终位置、蛋白质主体高度以及标注线的各线段长度确定所述直线段和所述折线段标注线中各线段的端点坐标和所述功能元件名称的位置坐标,包括:所述直线段的下端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度,上端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度与标注线总高度之和;

所述第一线段的下端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度,上端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度与第一线段高度的和;所述第二线段的下端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度与第一线段高度的和,上端点横坐标为功能元件名称的横坐标最终位置,纵坐标是蛋白质主体高度与标注线总高度的和减去第三线段高度,所述第三线段的下端点横坐标为功能元件名称的横坐标最终位置,纵坐标是蛋白质主体高度与标注线总高度的和减去第三线段高度,上端点横坐标为功能元件名称的横坐标最终位置,纵坐标是标注线总高度;

功能元件名称的位置的横坐标是功能元件名称的横坐标最终位置,纵坐标是蛋白质主体高度和标注线总高度与1之和。

5.根据权利要求3所述的方法,其特征在于,所述根据功能元件文件中功能元件位置、所述功能元件名称的横坐标最终位置、蛋白质主体高度以及标注线的各线段长度确定所述直线段和所述折线段标注线中各线段的端点坐标和所述功能元件名称的位置坐标,包括:所述直线段的上端点横坐标为功能元件文件中功能元件位置,纵坐标是零,下端点横坐标为功能元件文件中功能元件位置,纵坐标是标注线总高度的负值;

所述第一线段的上端点横坐标为功能元件文件中功能元件位置,纵坐标是零,下端点横坐标为功能元件文件中功能元件位置,纵坐标是第一线段高度的负值;所述第二线段的上端点横坐标为功能元件文件中功能元件位置,纵坐标是第一线段高度的负值,下端点横坐标为功能元件名称的横坐标最终位置,纵坐标是第三线段与标注线总高度的差,所述第三线段的上端点横坐标为功能元件名称的横坐标最终位置,纵坐标是第三线段与标注线总高度的差,下端点横坐标为功能元件名称的横坐标最终位置,纵坐标是标注线总高度的负值;

功能元件名称的位置的横坐标是功能元件名称的横坐标最终位置,纵坐标是标注线总高度与1之和的负值。

说明书 :

一种蛋白质二维结构图功能元件的自动布线方法

技术领域

[0001] 本方法实施例涉及蛋白质结构图布线技术领域,尤其涉及一种蛋白质二维结构图功能元件的自动布线方法。

背景技术

[0002] 生物信息技术领域,分子和细胞生物学领域的科学文章,都会经常出现一些蛋白质结构域的示意图,生物学实验人员可以使用微软公司的PowerPoint图表,Photoshop图像处理软件或者其他图形软件来画蛋白质的结构域。国际上已有名为DOG和plotprotein的绘图软件用来绘制蛋白质结构域图。
[0003] 然而,使用PowerPoint图表,Photoshop图像处理软件的缺点是蛋白质结构域的位置往往是由眼睛粗略决定的。因此,我们几乎是不能使用蛋白质结构域的精确比例绘制蛋白质结构图。使用DOG和plotprotein的绘图软件的不足之处是蛋白质二维结构图中一些特定图案的距离过密甚至重叠时只能被粗略地标记,而且需要手动添加。各功能原件信息不能够准确快速的显示出标记的位置。

发明内容

[0004] 本发明提供一种蛋白质二维结构图功能元件的自动布线方法,以解决上述技术问题。
[0005] 本发明是一种蛋白质二维结构图功能元件的自动布线方法,包括:
[0006] 获取蛋白质的长度和蛋白质结构图中的蛋白质功能元件数据,所述蛋白质的功能元件包括结构域、功能位点和突变点,并将所述蛋白质长度和所述蛋白质功能元件分别保存至蛋白质长度文本文件和功能元件文本文件中,所述蛋白质长度文件包括:蛋白质起始位置和蛋白质结束位置、蛋白质主体高度,所述功能元件文本文件包括:功能元件位置、功能元件名称;
[0007] 判断所述功能元件文件数据是否为空,若是,则不需画出功能元件,若否,则读取所述功能元件文件数据;
[0008] 根据两个相邻的功能元件的位置的差与两个功能元件名称之间相对距离的最小差判断相邻功能元件的名称是否重叠,若是,则根据所述功能元件文件中功能元件位置,功能元件名称之间相对距离的最小差重新确定功能元件名称的横坐标最终位置,若否,则所述功能元件文本文件中的功能元件位置即是功能元件名称的横坐标最终位置;
[0009] 根据所述功能元件文件中的功能元件位置、所述功能元件名称的横坐标最终位置以及所述蛋白质长度文件确定标注线的位置和所述功能元件名称的位置,所述标注线为功能元件和所述功能元件名称之间的引线。
[0010] 进一步地,所述则根据两个相邻的功能元件的位置的差与所述两个功能元件名称之间相对距离的最小差判断所述相邻功能元件的名称是否重叠,若是,则根据所述功能元件文件中功能元件位置,功能元件名称之间相对距离的最小差重新确定功能元件名称的横坐标最终位置,若否,则所述功能元件文本文件中的功能元件位置即是功能元件名称的横坐标最终位置,包括:
[0011] 根据蛋白质的长度计算出相邻两个功能元件名称之间相对距离的最小差;
[0012] 计算当前功能元件名称的位置和上一个功能元件名称的位置之间的差值;
[0013] 判断所述差值是否小于所述最小差,若否,则相邻两个功能元件名称不重叠,所述当前功能元件的名称位置不变,即确定当前功能元件名称的横坐标最终位置为功能元件文件中功能元件位置;若是,则相邻两个功能元件名称重叠,确定当前功能元件名称的横坐标最终位置为前一个功能元件名称横坐标最终位置与最小差之和。
[0014] 进一步地,所述根据所述功能元件文件中的功能元件位置、所述功能元件名称的横坐标最终位置以及所述蛋白质长度文件确定标注线的位置和所述功能元件名称的位置,包括:
[0015] 判断功能元件文件中功能元件位置与所述功能元件名称的横坐标最终位置是否一致,若是,则确定标注线为一条直线段,若否,则确定标注线为折线段,所述折线段标注线包括三条线段,距离蛋白质从近到远依次为第一线段、第二线段以及第三线段;
[0016] 根据功能元件文件中功能元件位置、所述功能元件名称的横坐标最终位置、蛋白质主体高度以及标注线的各线段长度确定所述直线段和所述折线段标注线中各线段的端点坐标和所述功能元件名称的位置坐标。
[0017] 进一步地,所述根据功能元件文件中功能元件位置、所述功能元件名称的横坐标最终位置、蛋白质主体高度以及标注线的各线段长度确定所述直线段和所述折线段标注线中各线段的端点坐标和所述功能元件名称的位置坐标,包括:
[0018] 所述直线段的下端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度,上端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度与标注线总高度之和;
[0019] 所述第一线段的下端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度,上端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度与第一线段高度的和;所述第二线段的下端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度与第一线段高度的和,上端点横坐标为功能元件名称的横坐标最终位置,纵坐标是蛋白质主体高度与标注线总高度的和减去第三线段高度,所述第三线段的下端点横坐标为功能元件名称的横坐标最终位置,纵坐标是蛋白质主体高度与标注线总高度的和减去第三线段高度,上端点横坐标为功能元件名称的横坐标最终位置,纵坐标是标注线总高度;
[0020] 功能元件名称的位置的横坐标是功能元件名称的横坐标最终位置,纵坐标是蛋白质主体高度和标注线总高度与1之和。
[0021] 进一步地,所述根据功能元件文件中功能元件位置、所述功能元件名称的横坐标最终位置、蛋白质主体高度以及标注线的各线段长度确定所述直线段和所述折线段标注线中各线段的端点坐标和所述功能元件名称的位置坐标,包括:
[0022] 所述直线段的上端点横坐标为功能元件文件中功能元件位置,纵坐标是零,下端点横坐标为功能元件文件中功能元件位置,纵坐标是标注线总高度的负值;
[0023] 所述第一线段的上端点横坐标为功能元件文件中功能元件位置,纵坐标是零,下端点横坐标为功能元件文件中功能元件位置,纵坐标是第一线段高度的负值;所述第二线段的上端点横坐标为功能元件文件中功能元件位置,纵坐标是第一线段高度的负值,下端点横坐标为功能元件名称的横坐标最终位置,纵坐标是第三线段与标注线总高度的差,所述第三线段的上端点横坐标为功能元件名称的横坐标最终位置,纵坐标是第三线段与标注线总高度的差,下端点横坐标为功能元件名称的横坐标最终位置,纵坐标是标注线总高度的负值。
[0024] 功能元件名称的位置的横坐标是功能元件名称的横坐标最终位置,纵坐标是标注线总高度与1之和的负值。
[0025] 本发明方法适用于蛋白质二维结构图中一些特定功能元件,例如结构域,功能位点,突变点等,给每个功能元件都添加了标注线,并且可以一次完成所有功能元件的自动布线和绘制,实现了蛋白质二维结构图中特定功能图案的自动布线的功能,使得画蛋白质结构图快速精确。该方法可以推广到绘制其它生物序列图形,例如基因序列等。

附图说明

[0026] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0027] 图1为本发明一种蛋白质二维结构图的自动布线方法流程图;
[0028] 图2为本发明功能元件名称横坐标位置关系示意图;
[0029] 图3为本发明标注线示意图;
[0030] 图4为本发明确定功能元件名称横坐标最终位置程序流程图;
[0031] 图5为本发明的自动布线方法绘制的蛋白质结构域示意图;
[0032] 图6为本发明标注线另一示意图。

具体实施方式

[0033] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0034] 图1为本发明一种蛋白质二维结构图的自动布线方法流程图,如图1所示,本实施例方法,包括:
[0035] 步骤101、获取蛋白质的长度和蛋白质结构图中的蛋白质功能元件数据,所述蛋白质的功能元件包括结构域、功能位点和突变点,并将所述蛋白质长度和所述蛋白质功能元件分别保存至蛋白质长度文本文件和功能元件文本文件中,所述蛋白质长度文件包括:蛋白质起始位置和蛋白质结束位置、蛋白质主体高度,所述功能元件文本文件包括:功能元件位置、功能元件名称;
[0036] 具体来说,可以从Uniprot等公共数据库下载蛋白质的长度、功能元件数据,其所述蛋白质长度文本文件还可以包括:蛋白质结构示意图的保存地址、蛋白质主体颜色、平面感或者立体感等,不同种类的功能元件需要保存到不同的文本文件中。
[0037] 步骤102、判断所述功能元件文件数据是否为空,若是,则不需画出功能元件,若否,则读取所述功能元件文件数据;
[0038] 具体来说,若功能元件文件的数据为null,则功能元件文件数据为空。
[0039] 步骤103、根据两个相邻的功能元件的位置的差与所述两个功能元件名称之间相对距离的最小差判断所述相邻功能元件的名称是否重叠,若是,则根据所述功能元件文件中功能元件位置,功能元件名称之间相对距离的最小差重新确定功能元件名称的横坐标最终位置,若否,则所述功能元件文本文件中的功能元件位置即是功能元件名称的横坐标最终位置;
[0040] 进一步地,根据蛋白质的长度计算出相邻两个功能元件名称之间相对距离的最小差;
[0041] 计算当前功能元件名称的位置和上一个功能元件名称的位置之间的差值;
[0042] 判断所述差值是否小于所述最小差,若否,则相邻两个功能元件名称不重叠,所述当前功能元件的名称位置不变,即确定当前功能元件名称横坐标最终位置为功能元件文件中功能元件位置;若是,则相邻两个功能元件名称重叠,确定当前功能元件名称的横坐标最终位置为前一个功能元件名称横坐标最终位置与最小差之和。
[0043] 具体来说,如图2所示,当前功能元件名称的位置为position2[i],上一个功能元件名称的位置为position2[i-1],i表示功能元件的个数,i的范围是2到功能元件的总数之间,position2为功能元件名称最终位置的横坐标的数组。当前功能元件名称与上一个功能元件名称之间相对距离的最小差为dec,dec=2*protein_width/100,其中,protein_width为蛋白质的长度。
[0044] 若当前功能元件名称的位置与前一个功能元件名称位置的差小于dec时,当前功能元件的功能元件名称的横坐标最终位置为前一个功能元件名称横坐标最终位置与dec的和,即position2[i]=position2[i-1]+dec。
[0045] 若当前功能元件名称的位置与前一个功能元件名称位置的差不小于dec时,[0046] 当前功能元件的功能元件名称横坐标最终位置保持不变,即position2[i]=site_pos[i],site_pos为功能元件文件中功能元件位置。
[0047] 步骤104、根据所述功能元件文件中的功能元件位置、所述功能元件名称的横坐标最终位置确定标注线的位置,所述标注线为功能元件和所述功能元件名称之间的引线。
[0048] 进一步地,所述根据所述功能元件文件中的功能元件位置、所述功能元件名称的横坐标最终位置以及所述蛋白质长度文件确定标注线的位置和所述功能元件名称的位置,包括:
[0049] 判断功能元件文件中功能元件位置与所述功能元件名称的横坐标最终位置是否一致,若是,则确定标注线为一条直线段,若否,则确定标注线为折线段,所述折线段标注线包括三条线段,距离蛋白质从近到远依次为第一线段、第二线段以及第三线段;
[0050] 根据功能元件文件中功能元件位置、所述功能元件名称的横坐标最终位置、蛋白质主体高度以及标注线的各线段长度确定所述直线段和所述折线段标注线中各线段的端点坐标和所述功能元件名称的位置坐标。
[0051] 本实施例中,标注线和功能元件的名称可以显示在蛋白质的上方,也可以显示在蛋白质的下方,通过设置Site函数的参数up_down可以改变标注线及功能原件的名称的显示位置,若设置up_down=“up”功能元件在蛋白质上方显示,若设置up_down=“down”则功能元件在蛋白质下方显示。
[0052] 如图3所示,当标注线和功能元件名称在蛋白质上方显示时标注线各线段的端点坐标为:
[0053] 所述直线段的下端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度,上端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度与标注线总高度之和;
[0054] 所述第一线段的下端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度,上端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度与第一线段高度的和;所述第二线段的下端点横坐标为功能元件文件中功能元件位置,纵坐标是蛋白质主体高度与第一线段高度的和,上端点横坐标为功能元件名称的横坐标最终位置,纵坐标是蛋白质主体高度与标注线总高度的和减去第三线段高度,所述第三线段的下端点横坐标为功能元件名称的横坐标最终位置,纵坐标是蛋白质主体高度与标注线总高度的和减去第三线段高度,上端点横坐标为功能元件名称的横坐标最终位置,纵坐标是标注线总高度。
[0055] 功能元件名称的位置的横坐标是功能元件名称的横坐标最终位置,纵坐标是蛋白质主体高度和标注线总高度与1之和。
[0056] 如图6所示,当标注线和功能元件名称在蛋白质下方显示时标注线各线段的端点坐标为:
[0057] 所述直线段的上端点横坐标为功能元件文件中功能元件位置,纵坐标是零,下端点横坐标为功能元件文件中功能元件位置,纵坐标是标注线总高度的负值;
[0058] 所述第一线段的上端点横坐标为功能元件文件中功能元件位置,纵坐标是零,下端点横坐标为功能元件文件中功能元件位置,纵坐标是第一线段高度的负值;所述第二线段的上端点横坐标为功能元件文件中功能元件位置,纵坐标是第一线段高度的负值,下端点横坐标为功能元件名称的横坐标最终位置,纵坐标是第三线段与标注线总高度的差,所述第三线段的上端点横坐标为功能元件名称的横坐标最终位置,纵坐标是第三线段与标注线总高度的差,下端点横坐标为功能元件名称的横坐标最终位置,纵坐标是标注线总高度的负值。
[0059] 功能元件名称的位置的横坐标是功能元件名称的横坐标最终位置,纵坐标是标注线总高度与1之和的负值。
[0060] 具体来说,如图5所示,本实施例中标注线有两种类型:第一种标注线为直线段,第二种折线标注线由三条线段组成,也即第一线段、第二线段以及第三线段。所述折线段标注线包括三条线段,距离蛋白质从近到远依次为第一线段、第二线段以及第三线段。确定功能元件名称的横坐标最终位置程序流程如图4所示。
[0061] 如图3所示,标注线总高度h,第一线段高度h1,第三线段高度h2,则第二线段的高度=标注线总高度-第一线段高度-第三线段高度=h-h1-h2。
[0062] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。