81735304

PDB(Protein Data Bank)是一種標準文件格式, 其中包含原子的坐標等信息, 提交給 Protein Data Bank at the Research Collaboratory for Structural Bioinformatics (RCSB) 的結構都使用這種標準格式. 這里整理網上已有的一些資料, 對PDB格式做個簡短介紹. 對大多數(shù)用戶而言, 了解這些內容就夠了, 但對那些需要創(chuàng)建PDB文件的用戶, 請參考PDB格式官方文檔http://www.wwpdb.org/documentation/file-format.

完整的PDB文件提供了非常多的信息, 包括作者, 參考文獻以及結構說明, 如二硫鍵, 螺旋, 片層, 活性位點. 在使用PDB文件時請記住, 一些建模軟件可能不支持那些錯誤的輸入格式.

PDB格式以文本格式給出信息, 每一行信息稱為一個記錄(record). 一個PDB文件通常包括很多不同類型的記錄, 它們以特定的順序排列, 用以描述結構.

PDB文件中的記錄類型
一. 標題部分
HEADER: 分子類, 公布日期, ID號

OBSLTE: 注明此ID號已廢棄, 改用新ID號

TITLE: 說明實驗方法類型

CAVEAT: 可能的錯誤警告

COMPND: 化合物分子組成

SOURCE: 化合物來源

KEYWDS: 關鍵詞

EXPDTA: 測定結構所用的實驗方法

AUTHOR: 結構測定者

REVDAT: 修訂日期及相關內容

SPRSDE: 已撤銷或更改的相關記錄

JRNL: 發(fā)表坐標的期刊

REMARK REMARK 1: 有關文獻 REMARK 2: 最大分辨率 REMARK 3: 用到的程序和統(tǒng)計方法. 記述結構優(yōu)化的方法和相關統(tǒng)計數(shù)據(jù). REMARK 4-999: 其他信息

二. 一級結構
DBREF: 其他序列庫的有關記錄

SEQADV: PDB與其他記錄的出入

SEQRES: 殘基序列

MODRES: 對標準殘基的修飾

三. 雜因子
HET: 非標準殘基

HETATM: 非標準殘基的名稱

HETSNY: 非標準殘基的同義字

FORMOL: 非標準殘基的化學式

四. 二級結構
HELIX: 螺旋. 標識螺旋的位置和類型(右手α螺旋等), 每個螺旋一條記錄.

SHEET: 片層. 標識每個片層的位置, 類型(sense, 如反平行等), 相對于模型中每個束的片層(如果存在的話)中前一束的說明, 每個片層一條記錄.

TURN: 轉角

五. 連接注釋
SSBOND: 二硫鍵. 定義半胱氨酸CYS殘基之間的二硫鍵

LINK: 殘基間化學鍵

HYDBND: 氫鍵

SLTBRG: 鹽橋

CISPEP: 順式殘基

六. 晶胞特征及坐標變換
CRYST1: 晶胞參數(shù)(NMR除外). 記述晶胞結構參數(shù)(a, b, c, α, β, γ, 空間群)以及Z值(單位結構中的聚合鏈數(shù)).

ORIGXn: 直角-PDB坐標

SCALEn: 直角-晶體分數(shù)坐標(n=1, 2, 3, NMR除外). 說明數(shù)據(jù)中直角坐標向晶體分數(shù)坐標的變換因子.

MTRIXn: 非晶相對稱

TVECT: 平移矢量

七. 坐標部分
MODEL: 多亞基時顯示亞基號當一個PDB文件中包含多個結構時(例: NMR結構解析), 該記錄出現(xiàn)在各個模型的第一行. MODEL記錄行的第11-14列上記入模型序號. 序號從1開始順序記入, 在11-14列中從右起寫. 比如說有30個模型, 則第1至9號模型, 該行的7-13列空白, 在14列上記入1-9的數(shù)字; 第10-30號模型, 該行的7-12列空白, 13-14列上記入10-30的數(shù)字.

ATOM: 標準殘基的原子. 記述標準殘基(氨基酸以及核酸)中各原子的原子名稱, 殘基名稱, 直角坐標(單位埃), 占有率, 溫度因子等信息.

SIGATM: 標準差

ANISOU: 各向異性

SIGUIJ: 各種溫度因素導致的標準差

TER: 殘基鏈的末端. 表示殘基鏈的結束. 在每個聚合鏈的末端都必須有TER記錄, 但因序列無序造成的鏈中斷處不需要該記錄. 例如, 一個血紅蛋白分子包含四個亞鏈. 彼此之間并不相連. TER標識了每條鏈的結束, 以防顯示時這條鏈與下一條相連.

HETATM: 非標準殘基的原子. 記述非標準殘基(標準氨基酸以及核酸以外的化合物, 包括抑制劑, 輔因子, 離子, 溶劑)中各原子的原子名稱, 殘基名稱, 直角坐標(單位埃), 占有率, 溫度因子等信息. 與ATOM記錄的唯一區(qū)別在于HETATM殘基默認情況下不會與其他殘基相連. 注意, 水分子也應放在此記錄中.

ENDMDL: 亞基結束. 與MODEL記錄成對出現(xiàn), 記述在各模型的鏈末端的TER記錄之后.

八. 連接信息部分
CONECT: 原子間的連接信息

九. 簿記
MASTER: 版權擁有者

END: 文件結束. 標志PDB文件的結束, 必需記錄.

一些記錄類型的說明
PDB文件里面的每個記錄都有著嚴格的格式. 每個記錄中的字段, 如標識, 原子名稱, 原子序號, 殘基名稱, 殘基序號等, 不僅要按照嚴格的順序書寫, 而且每個字段所占的字符串長度, 及其所處的位置都是嚴格規(guī)定好的. 這些記錄中, 通常最關心的是原子記錄, 其詳細說明可參考PDB原子記錄官方文檔.

一些老的PDB文件可能不完全遵循新格式. 對大多數(shù)用戶而言, 最值得注意的區(qū)別在于ATOM和HETATM記錄中的溫度因子字段. 下文的例子中沒有使用這些字段. 此外, 有些字段常常留空, 例如, 如當原子沒有可替換位置時, 可替位置標識符就會留空.

ATOM記錄
PDB文件 ATOM 記錄
列數(shù)據(jù) 格式, 對齊說明
1-4 ATOM 字符, 左 Record Type 記錄類型
7-11 serial 整數(shù), 右 Atom serial number 原子序號.
PDB文件對分子結構處理為
segment, chain, residue, atom四個層次(一般并不用到chain),
因此此數(shù)位限定了一個殘基中的最大原子數(shù)為為99999
13-16 name 字符, 左 Atom name 原子名稱.
原子的元素符號在13-14列中右對齊
一般從14列開始寫, 占四個字符的原子名稱才會從13列開始寫.
如, 鐵原子FE寫在13-14列, 而碳原子C只寫在14列.
17 altLoc 字符 Alternate location indicator 可替位置標示符
18-20 resName 字符 Residue name 殘基名稱
22 chainID 字符 Chain identifier 鏈標識符
23-26 resSeq 整數(shù), 右 Residue sequence number 殘基序列號
27 iCode 字符 Code for insertion of residues 殘基插入碼
28-30 留空
31-38 x 浮點, 右 Orthogonal coordinates for X in Angstroms 直角x坐標(埃)
39-46 y 浮點, 右 Orthogonal coordinates for Y in Angstroms 直角y坐標(埃)
47-54 z 浮點, 右 Orthogonal coordinates for Z in Angstroms 直角z坐標(埃)
55-60 occupancy 浮點, 右 Occupancy 占有率
61-66 tempFactor 浮點, 右 Temperature factor 溫度因子
67-72 留空
73-76 segID 字符, 左 Segment identifier(optional) 可選的片段標識符
VMD會使用此數(shù)據(jù)
77-78 element 字符, 右 Element symbol 元素符號
79-80 charge 字符 Charge on the atom(optional) 可選的原子電荷.
實際分子模擬中往往重新定義電荷, 故此列往往不用.
VMD寫出的PDB文件中無此列.
HETATM記錄
PDB文件 HETATM 記錄
列數(shù)據(jù)
1-6 HETATM
7-80 與ATOM記錄相同
TER記錄
PDB文件 TER 記錄
列數(shù)據(jù) 格式, 對齊說明
1-3 TER 字符
7-11 Serial number 整數(shù), 右序號
18-20 Residue name 字符, 右殘基名稱
22 Chain identifier 字符鏈標識符
23-26 Residue sequence number 整數(shù), 右殘基序列號
27 Code for insertions of residues 字符殘基插入碼
SSBOND記錄
PDB文件 SSBOND記錄
列數(shù)據(jù) 格式, 對齊說明
1-6 SSBOND 字符
8-10 Serial number 整數(shù), 右序號
12-14 Residue name (CYS) 字符, 右殘基名稱(CYS)
16 Chain identifier 字符鏈標識符
18-21 Residue sequence number 整數(shù), 右殘基序列號
22 Code for insertions of residues 字符殘基插入碼
26-28 Residue name (CYS) 字符, 右殘基名稱(CYS)
30 Chain identifier 字符鏈標識符
32-35 Residue sequence number 整數(shù), 右殘基序列號
36 Code for insertions of residues 字符殘基插入碼
60-65 Symmetry operator for first residue 整數(shù), 右第一個殘基的對稱操作
67-72 Symmetry operator for second residue 整數(shù), 右第二個殘基的對稱操作
HELIX記錄
PDB文件 HELIX 記錄
列數(shù)據(jù) 格式, 對齊說明
1-5 HELIX 字符, 左
8-10 Helix serial number 整數(shù), 右螺旋序號
12-14 Helix identifier 字符, 右螺旋標識符
16-18 Initial residue name 字符, 右起始殘基名稱
20 Chain identifier 字符鏈標識符
22-25 Residue sequence number 整數(shù), 右殘基序列號
26 Code for insertions of residues 字符殘基插入碼
28-30 Terminal residue name 字符, 右終止殘基名稱
32 Chain identifier 字符鏈標識符
34-37 Residue sequence number 整數(shù), 右殘基序列號
38 Code for insertions of residues 字符殘基插入碼
39-40 Type of helix 整數(shù), 右螺旋類型注1
41-70 Comment 字符, 左注釋
72-76 Length of helix 整數(shù), 右螺旋長度
注1: 螺旋類型有如下幾種:

1: Right-handed alpha (default) 右手α螺旋(默認)

2: Right-handed omega 右手ω螺旋

3: Right-handed pi 右手π螺旋

4: Right-handed gamma 右手γ螺旋

5: Right-handed 3/10 右手3/10螺旋

7: Left-handed omega 右手ω螺旋

6: Left-handed alpha 右手α螺旋

8: Left-handed gamma 右手γ螺旋

9: 2/7 ribbon/helix 2/7帶狀螺旋

10: Polyproline 聚脯氨酸

SHEET記錄
PDB文件 SHEET 記錄
列數(shù)據(jù) 格式, 對齊說明
1-5 SHEET 字符
8-10 Strand number (in current sheet) 整數(shù), 右束編號(當前片層中)
12-14 Sheet identifier 字符, 右片層標識符
15-16 Number of strands (in current sheet) 整數(shù), 右束數(shù)目(當前片層中)
18-20 Initial residue name 字符, 右起始殘基名稱
22 Chain identifier 字符鏈標識符
23-26 Residue sequence number 整數(shù), 右殘基序列號
27 Code for insertions of residues 字符殘基插入碼
29-31 Terminal residue name 字符, 右終止殘基名稱
33 Chain identifier 字符鏈標識符
34-37 Residue sequence number 整數(shù), 右殘基序列號
38 Code for insertions of residues 字符殘基插入碼
39-40 Strand sense with respect to previous 整數(shù), 右相對于前一個片層的類型注2
以下字段標識兩個原子,
第一個位于當前片層, 第二個位于前一片層,
它們彼此之間以氫鍵相連.
對束1這些字段應留空.
42-45 Atom name (as per ATOM record) 字符, 左原子名稱(每個ATOM記錄一個)
46-48 Residue name 字符, 右殘基名稱
50 Chain identifier 字符鏈標識符
51-54 Residue sequence number 整數(shù), 右殘基序列號
55 Code for insertions of residues 字符殘基插入碼
57-60 Atom name (as per ATOM record) 字符, 左原子名稱(每個ATOM記錄一個)
61-63 Residue name 字符, 右殘基名稱
65 Chain identifier 字符鏈標識符
66-69 Residue sequence number 整數(shù), 右殘基序列號
70 Code for insertions of residues 字符殘基插入碼
注2: 類型標識:

1: 平行

-1 反平行

0: 用于束1

格式說明
對于熟悉FORTRAN程序語言的用戶, 下面是格式說明

ATOM或HETATM: Format ( A6,I5,1X,A4,A1,A3,1X,A1,I4,A1,3X,3F8.3,2F6.2,6X,A4,A2,A2 )

SSBOND: Format ( A6,1X,I3,1X,A3,1X,A1,1X,I4,A1,3X,A3,1X,A1,1X,I4,A1,23X,2I3,1X,2I3 )

HELIX: Format ( A6,1X,I3,1X,A3,2(1X,A3,1X,A1,1X,I4,A1),I2,A30,1X,I5 )

SHEET: Format ( A6,1X,I3,1X,A3,I2,2(1X,A3,1X,A1,I4,A1),I2,2(1X,A4,A3,1X,A1,I4,A1) )

在FORTRAN語言的輸入/輸出格式中, X表示輸入/輸出空格; An表示輸入/輸?shù)淖址糿位, 左對齊; In表示輸入/輸?shù)恼麛?shù)占n位, 左對齊; Fm.n表示輸入/輸?shù)母↑c數(shù)占m位, 其中小數(shù)點后的數(shù)字占n位. 這些格式前面的整數(shù)則表示重復次數(shù), 如23X表示23個空格, 3F8.3表示F8,3格式重復三次.

如果你使用其他程序語言, 可根據(jù)上面的格式說明轉換為相應的形式.

PDB文件示例
單鏈蛋白
胰升血糖素(Glucagon)是一個小蛋白, 29個殘基處于單條鏈中. 第一個殘基是終端為氨的氨基酸HIS, 接著的是SER和GLU殘基. 坐標部分開頭如下:

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM 1 N HIS 1 49.668 24.248 10.436 1.00 25.00
ATOM 2 CA HIS 1 50.197 25.578 10.784 1.00 16.00
ATOM 3 C HIS 1 49.169 26.701 10.917 1.00 16.00
ATOM 4 O HIS 1 48.241 26.524 11.749 1.00 16.00
ATOM 5 CB HIS 1 51.312 26.048 9.843 1.00 16.00
ATOM 6 CG HIS 1 50.958 26.068 8.340 1.00 16.00
ATOM 7 ND1 HIS 1 49.636 26.144 7.860 1.00 16.00
ATOM 8 CD2 HIS 1 51.797 26.043 7.286 1.00 16.00
ATOM 9 CE1 HIS 1 49.691 26.152 6.454 1.00 17.00
ATOM 10 NE2 HIS 1 51.046 26.090 6.098 1.00 17.00
ATOM 11 N SER 2 49.788 27.850 10.784 1.00 16.00
ATOM 12 CA SER 2 49.138 29.147 10.620 1.00 15.00
ATOM 13 C SER 2 47.713 29.006 10.110 1.00 15.00
ATOM 14 O SER 2 46.740 29.251 10.864 1.00 15.00
ATOM 15 CB SER 2 49.875 29.930 9.569 1.00 16.00
ATOM 16 OG SER 2 49.145 31.057 9.176 1.00 19.00
ATOM 17 N GLN 3 47.620 28.367 8.973 1.00 15.00
ATOM 18 CA GLN 3 46.287 28.193 8.308 1.00 14.00
ATOM 19 C GLN 3 45.406 27.172 8.963 1.00 14.00
注意到, 每一行(記錄)都以記錄類型ATOM開始, 記錄中的下一項是原子序號.

原子名稱是ATOM記錄中的第三項, 它的前一或二個字符包含原子類型的元素符號. 所有以C開始的原子名稱都代表碳原子, 同理, N代表氮原子, O代表氧原子. 原子名稱的下一字符為遠程標識符, 表示離氨基碳原子的遠近, 含義如下

A: α

B: β

G: γ

D: δ

E: ε

Z: ζ

H: η

如果需要, 原子名稱的最后一個字符可以代表分支標識符.

ATOM記錄的下一數(shù)據(jù)字段為殘基類型. 注意, 每一記錄都包含殘基類型. 在上面的例子中, 鏈中的第一個殘基為HIS, 第二個為SER.

ATOM記錄的下一數(shù)據(jù)字段為殘基的序列號. 注意到, 殘基從HIS變?yōu)镾ER后, 殘基序列號從1變?yōu)?. 兩個相同的殘基可能相鄰, 因此殘基編號對于區(qū)分它們非常重要.

ATOM記錄的下三個數(shù)據(jù)字段分別為原子的X, Y, Z坐標. 后面接著的數(shù)據(jù)字段是占有率. 最后的數(shù)據(jù)字段是溫度因子(也稱B值).

胰升血糖素的PDB文件以這種方式繼續(xù)下去, 直至最后一個殘基

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM 239 N THR 29 3.391 19.940 12.762 1.00 21.00
ATOM 240 CA THR 29 2.014 19.761 13.283 1.00 21.00
ATOM 241 C THR 29 .826 19.943 12.332 1.00 23.00
ATOM 242 O THR 29 .932 19.600 11.133 1.00 30.00
ATOM 243 CB THR 29 1.845 20.667 14.505 1.00 21.00
ATOM 244 OG1 THR 29 1.214 21.893 14.153 1.00 21.00
ATOM 245 CG2 THR 29 3.180 20.968 15.185 1.00 21.00
ATOM 246 OXT THR 29 -.317 20.109 12.824 1.00 25.00
TER 247 THR 29
注意, 這一殘基包含額外的氧原子OXT, 它處于末端羰基上. TER記錄終止了氨基酸鏈.

雙鏈蛋白
更復雜的一個蛋白, 胎血紅蛋白(fetal hemoglobin), 包含兩條殘基酸鏈(α和γ), 以及兩個血紅素基團. 這個蛋白坐標部分的前10行內容如下:

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM 1 N VAL A 1 6.280 17.225 4.929 1.00 0.00
ATOM 2 CA VAL A 1 6.948 18.508 4.671 1.00 0.00
ATOM 3 C VAL A 1 8.436 18.338 4.977 1.00 0.00
ATOM 4 O VAL A 1 8.813 17.657 5.941 1.00 0.00
ATOM 5 CB VAL A 1 6.317 19.598 5.527 1.00 0.00
ATOM 6 CG1 VAL A 1 6.959 20.999 5.376 1.00 0.00
ATOM 7 CG2 VAL A 1 4.819 19.636 5.383 1.00 0.00
ATOM 8 N LEU A 2 9.259 18.958 4.152 1.00 0.00
ATOM 9 CA LEU A 2 10.715 18.872 4.330 1.00 0.00
ATOM 10 C LEU A 2 11.156 20.058 5.187 1.00 0.00
數(shù)據(jù)文件與上面胰升血糖素的基本一樣, 除了第五個數(shù)據(jù)字段包含單個字符的鏈標識符A, 它標識血紅蛋白分子的α鏈. 而在胰升血糖素的例子中, 這一字段為空. 在鏈A的終止處, 出現(xiàn)血紅素基團的記錄

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM 1058 N ARG A 141 -6.576 12.834 -10.275 1.00 0.00
ATOM 1059 CA ARG A 141 -8.044 12.831 -10.214 1.00 0.00
ATOM 1060 C ARG A 141 -8.186 14.096 -9.365 1.00 0.00
ATOM 1061 O ARG A 141 -7.591 15.139 -9.671 1.00 0.00
ATOM 1062 CB ARG A 141 -8.579 11.531 -9.580 1.00 0.00
ATOM 1063 CG ARG A 141 -8.386 11.441 -8.054 1.00 0.00
ATOM 1064 CD ARG A 141 -8.727 10.045 -7.568 1.00 0.00
ATOM 1065 NE ARG A 141 -9.095 10.056 -6.143 1.00 0.00
ATOM 1066 CZ ARG A 141 -9.268 8.931 -5.414 1.00 0.00
ATOM 1067 NH1 ARG A 141 -8.602 8.795 -4.282 1.00 0.00
ATOM 1068 NH2 ARG A 141 -10.097 7.962 -5.830 1.00 0.00
ATOM 1069 OXT ARG A 141 -8.973 13.984 -8.310 1.00 0.00
TER 1070 ARG A 141
HETATM 1071 FE HEM A 1 8.133 8.321 -15.014 1.00 0.00
HETATM 1072 CHA HEM A 1 8.863 8.752 -18.417 1.00 0.00
HETATM 1073 CHB HEM A 1 10.362 10.946 -14.389 1.00 0.00
HETATM 1074 CHC HEM A 1 8.482 7.374 -11.743 1.00 0.00
HETATM 1075 CHD HEM A 1 6.982 5.180 -15.773 1.00 0.00
HETATM 1076 N A HEM A 1 9.452 9.545 -16.178 1.00 0.00
α鏈中最后一個殘基為ARG, 額外的氧原子OXT同樣出現(xiàn)在末端羰基基團中. TER記錄標識了多肽鏈的結束. 在多肽鏈的結束處使用TER記錄非常重要, 這樣, 才不至于將一條鏈的終結處與另一條鏈的起始處相連.

上面的例子中, TER記錄是正確的, 并且應該存在. 但是, 即便沒有TER記錄標識, 分子鏈仍然應該在某處終止, 因為HETATM殘基不會與其他殘基相連, 或互相相連. 作為單個殘基的血紅素基團由HETATM記錄組成.

在α鏈血紅素基團的結束處, γ鏈開始出現(xiàn):

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
HETATM 1109 CAD HEM A 1 7.582 6.731 -20.480 1.00 0.00
HETATM 1110 CBD HEM A 1 8.992 6.848 -20.968 1.00 0.00
HETATM 1111 CGD HEM A 1 8.998 6.529 -22.465 1.00 0.00
HETATM 1112 O1D HEM A 1 9.693 5.683 -22.895 1.00 0.00
HETATM 1113 O2D HEM A 1 8.276 7.153 -23.229 1.00 0.00
ATOM 1114 C ACE G 0 7.896 -18.462 -1.908 1.00 0.00
ATOM 1115 O ACE G 0 7.246 -18.839 -.922 1.00 0.00
ATOM 1116 CH3 ACE G 0 9.415 -18.301 -1.832 1.00 0.00
ATOM 1117 N GLY G 1 7.354 -18.174 -3.077 1.00 0.00
ATOM 1118 CA GLY G 1 5.904 -18.282 -3.283 1.00 0.00
ATOM 1119 C GLY G 1 7.139 -19.112 -2.930 1.00 0.00
ATOM 1120 O GLY G 1 7.026 -20.248 -2.448 1.00 0.00
ATOM 1121 N HIS G 2 8.300 -18.533 -3.176 1.00 0.00
ATOM 1122 CA HIS G 2 9.565 -19.224 -2.889 1.00 0.00
這里, 新鏈的開始隱含著TER記錄存在. 新鏈的標識符為G. 整個文件以與前面相同的模式繼續(xù)下去, 到整條γ鏈及其血紅素結束.

數(shù)據(jù)字段中的空格非常關鍵. 如果沒有提供數(shù)據(jù), 相應的字段應該留空. 例如, 僅包含單條氨基酸鏈的蛋白沒有鏈標識符, 因此, 22列應該留空.

對于上面的例子, 看起來PDB格式依賴于殘基的概念. 殘基的規(guī)則總結如下:

所有處于單個殘基內的原子都必須具有唯一的名稱. 例如, 殘基VAL可能只有一個名稱為CA的原子. 其他殘基可能也含有CA原子, 但VAL中出現(xiàn)的CA不能超過一個.

殘基名稱最大長度為三個字符, 并且能唯一地標識殘基類型. 因此, 文件中具有給定名稱的所有殘基都具有相同的殘基類型, 相同的結構. 每個特定殘基在PDB文件中出現(xiàn)時都應具有相同的原子和連接性.

PDB格式文件中的常見錯誤
如果一個PDB文件無法正常展示, 在其成百上千行數(shù)據(jù)中找到錯誤位置有時很困難. 這里給出PDB文件中一些最常見的錯誤.

程序創(chuàng)建的PDB文件
虛假的超長鍵

由程序創(chuàng)建的PDB文件中, 常見的一種錯誤會導致在本來不該相連的殘基間顯示出非常長的鍵. 這種錯誤來自于缺少了分子鏈結束處的TER記錄. 根據(jù)PDB標準, TER記錄標識了分子鏈的結束. 文件中如果缺失了TER記錄, 應該插入它們. 或者, 作為替代方法, 對每條鏈使用不同的鏈標識符.

顯示超長鍵的第二個常見原因是不正確地使用ATOM記錄, 而不使用HETATM記錄. HETATM記錄應該用于那些不形成鏈的化合物, 如水或血紅素. 許多程序創(chuàng)建的PDB文件沒有正確地使用HETATM記錄. 在這種情況下, ATOM記錄的開頭 6 列應改為HETATM, 這樣, 其余列的排列仍然正確.

未正確排列的原子名稱

PDB記錄中未正確排列的原子名稱可能導致問題. ATOM和HETATM記錄中的原子名稱由下列內容組成: 元素符號(如C), 右對齊在13-14列中; 遠程標識字符(如A), 左對齊在15-16列中. 許多程序只是簡單地從第13列開始將整個原子名稱左對齊. 在下面血紅蛋白的一部分文件中可以清楚地看到區(qū)別:

正確的

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
HETATM 976 FE HEM 1 12.763 34.157 9.102 1.00 0.00
HETATM 977 CHA HEM 1 16.124 33.461 10.405 1.00 0.00
HETATM 978 CHB HEM 1 11.350 32.580 12.046 1.00 0.00
HETATM 979 CHC HEM 1 9.326 34.709 7.887 1.00 0.00
HETATM 980 CHD HEM 1 14.138 35.379 6.119 1.00 0.00
錯誤的

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
HETATM 976 FE HEM 1 12.763 34.157 9.102 1.00 0.00
HETATM 977 CHA HEM 1 16.124 33.461 10.405 1.00 0.00
HETATM 978 CHB HEM 1 11.350 32.580 12.046 1.00 0.00
HETATM 979 CHC HEM 1 9.326 34.709 7.887 1.00 0.00
HETATM 980 CHD HEM 1 14.138 35.379 6.119 1.00 0.00
手動創(chuàng)建的PDB文件
重復的原子名稱

在手動創(chuàng)建的PDB文件中, 一個可能的編輯錯誤是, 對于一個給定殘基中的所有原子沒有指定唯一的名稱. 在下面的例子中, 殘基VAL中有兩個原子具有名稱CA.

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM 1 N VAL A 1 6.280 17.225 4.929 1.00 0.00
ATOM 2 CA VAL A 1 6.948 18.508 4.671 1.00 0.00
ATOM 3 C VAL A 1 8.436 18.338 4.977 1.00 0.00
ATOM 4 O VAL A 1 8.813 17.657 5.941 1.00 0.00
ATOM 5 CA VAL A 1 6.317 19.598 5.527 1.00 0.00
ATOM 6 CG1 VAL A 1 6.959 20.999 5.376 1.00 0.00
ATOM 7 CG2 VAL A 1 4.819 19.636 5.383 1.00 0.00
ATOM 8 N LEU A 2 9.259 18.958 4.152 1.00 0.00
ATOM 9 CA LEU A 2 10.715 18.872 4.330 1.00 0.00
ATOM 10 C LEU A 2 11.156 20.058 5.187 1.00 0.00
取決于所用的可視化程序, 可能無法正確顯示殘基的連接, 或者只有當標記殘基才會給出缺少CB原子的錯誤.

序列之外的殘基

在下面的例子中, 出現(xiàn)于文件中的第二個殘基(SER)被錯誤地編號為殘基5. 許多可視化程序會顯示殘基5與殘基1和3相連, 但只有當初確實需要這樣時才正確. 如果殘基5被假定出現(xiàn)在殘基4和殘基6之間, 它就應該出現(xiàn)在那里.

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM 1 C HIS 1 49.169 26.701 10.917 1.00 16.00
ATOM 2 CA HIS 1 50.197 25.578 10.784 1.00 16.00
ATOM 3 CB HIS 1 51.312 26.048 9.843 1.00 16.00
ATOM 4 CD2 HIS 1 51.797 26.043 7.286 1.00 16.00
ATOM 5 CE1 HIS 1 49.691 26.152 6.454 1.00 17.00
ATOM 6 CG HIS 1 50.958 26.068 8.340 1.00 16.00
ATOM 7 N HIS 1 49.668 24.248 10.436 1.00 25.00
ATOM 8 ND1 HIS 1 49.636 26.144 7.860 1.00 16.00
ATOM 9 NE2 HIS 1 51.046 26.090 6.098 1.00 17.00
ATOM 10 O HIS 1 48.241 26.524 11.749 1.00 16.00
ATOM 11 C SER 5 47.713 29.006 10.110 1.00 15.00
ATOM 12 CA SER 5 49.138 29.147 10.620 1.00 15.00
ATOM 13 CB SER 5 49.875 29.930 9.569 1.00 16.00
ATOM 14 N SER 5 49.788 27.850 10.784 1.00 16.00
ATOM 15 O SER 5 46.740 29.251 10.864 1.00 15.00
ATOM 16 OG SER 5 49.145 31.057 9.176 1.00 19.00
ATOM 17 C GLN 3 45.406 27.172 8.963 1.00 14.00
ATOM 18 CA GLN 3 46.287 28.193 8.308 1.00 14.00
輸入錯誤

有時字母l和數(shù)字1被互相替換了. 取決于這種錯誤在文件中出現(xiàn)的位置, 導致的問題也不一樣. 錯誤放置的原子可能預示著錯誤出現(xiàn)在坐標字段中. 確定這種錯誤的一種方式是, 使用大寫字母表示文件中的數(shù)據(jù), 然后使用文本編輯器查找所有的小寫字母l.

氫原子約定
PDB文件中的氫原子約定如下:

出現(xiàn)在ATOM記錄中的氫原子, 處于特定殘基所有其他原子的后面.

每個氫原子的名稱根據(jù)與它相連原子的名稱來確定: 名稱的第一個位置(13列)為可選的數(shù)字, 當有兩個或多個氫原子與同一個原子相連時才使用; 第二個位置(14列)為元素符號H; 接下來的兩列包含與氫原子相連原子的遠程和分支標識符(1或2個字符).

示例如下

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM 1 N VAL 1 -13.090 1.966 9.741 1.00 0.00
ATOM 2 CA VAL 1 -12.852 3.121 8.892 1.00 0.00
ATOM 3 C VAL 1 -13.047 4.399 9.711 1.00 0.00
ATOM 4 O VAL 1 -12.143 5.228 9.800 1.00 0.00
ATOM 5 CB VAL 1 -13.753 3.058 7.658 1.00 0.00
ATOM 6 CG1 VAL 1 -13.930 4.446 7.036 1.00 0.00
ATOM 7 CG2 VAL 1 -13.208 2.063 6.631 1.00 0.00
ATOM 8 H VAL 1 -13.919 1.449 9.527 1.00 0.00
ATOM 9 HA VAL 1 -11.816 3.075 8.557 1.00 0.00
ATOM 10 HB VAL 1 -14.734 2.707 7.977 1.00 0.00
ATOM 11 1HG1 VAL 1 -13.951 4.357 5.950 1.00 0.00
ATOM 12 2HG1 VAL 1 -14.866 4.883 7.384 1.00 0.00
ATOM 13 3HG1 VAL 1 -13.098 5.085 7.333 1.00 0.00
ATOM 14 1HG2 VAL 1 -12.623 1.298 7.142 1.00 0.00
ATOM 15 2HG2 VAL 1 -14.039 1.594 6.104 1.00 0.00
ATOM 16 3HG2 VAL 1 -12.575 2.588 5.917 1.00 0.00
在上面的例子中

所有氫原子都出現(xiàn)在殘基的其他原子之后

9號原子HA與2號原子CA相連. 這兩個原子的遠程標識符A相同.

有三個氫原子與CG1相連. 它們具有相同的遠程標識符, 分支標識符, 但13列中含有區(qū)分數(shù)字, 因此每個氫原子都具有唯一的名稱.

當只有一個氫原子與給定原子相連時, 不需要使用數(shù)字作為氫原子名稱的前綴.

氨基酸殘基與核酸縮寫
氨基酸殘基和核酸的標準IUB/IUPAC縮寫
單字母三字母中文單字母三字母中文單字母三字母中文單字母中文
A Ala 丙氨酸 I Ile 異亮氨酸 R Arg 精氨酸 A 腺苷
C Cys 半胱氨酸 K Lys 賴氨酸 S Ser 絲氨酸 C 胞苷
D Asp 天門冬氨酸 L Leu 亮氨酸 T Thr 蘇氨酸 G 鳥苷
E Glu 谷氨酸 M Met 蛋氨酸 V Val 纈氨酸 I 肌苷
F Phe 苯丙氨酸 N Asn 天門冬酰胺 W Trp 色氨酸 T 胸苷
G Gly 甘氨酸 P Pro 脯氨酸 Y Tyr 酪氨酸 U 尿苷
H His 組氨酸 Q Gln 谷氨酰胺 X Unk 未指定或未知氨基酸 X 未指定或未知核酸

一些概念說明
溫度因子 B-factor
The B-factor (or temperature factor) is an indicator of thermal motion about an atom. However, it should be pointed out that the B-factor is a mix of real thermal displacement, static disorder (multiple but defined conformations) and dynamic disorder (no defined conformation), and all the overlap between these definitions.

B因子也叫溫度因子, 一般在晶體測定的pdb中都有, 是晶體學中的一個重要參數(shù). 晶體學中結構因子可以表達為坐標x, y, z與Bj因子的函數(shù). 物理學上對于Bj的表征有很多理論模型, 最成功的是由Debye和Waller提出的. 將固體內振蕩的量子本質計算在內后, 他們將Bj表征為絕對溫度T和其他各基本參數(shù)的函數(shù). 由此可見, Bj與原子的質量等基本性質有關, 也與實驗溫度有關.

B因子體現(xiàn)了晶體中原子電子密度的”模糊度”(diffusion), 這個”模糊度”實際上反映了蛋白質分子在晶體中的構象狀態(tài). B因子越高, “模糊度”越大, 相應部位的構象就越不穩(wěn)定. 在晶體學數(shù)據(jù)中, B因子一般是以原子為單位給出的, 我們可以換算成相應殘基的B因子, 從而分析殘基的構象穩(wěn)定性. 另外, 計算出的B因子中實際上包含了實驗中的很多因素, 如晶體結構測定的實驗誤差等, 精度高的晶體結構數(shù)據(jù)提供較可靠的B因子數(shù)據(jù).

此外, 另外溫度因子還和占有率相關, 如果本身結構解析過程中占有率低, 也會導致溫度因子升高. 這個時候只能說是X-ray收集數(shù)據(jù)的時候這個地方的信號比較弱, 而和結構本身的構象如何, 沒有關系.

PDB中的晶體學數(shù)據(jù)是以原子為單位的, 它所給出的B因子是相對于每個原子的. 統(tǒng)計中, 首先將原子的B因子換算成殘基的B因子, 即把每個殘基所有原子的B因子取平均值. 由于蛋白質分子表面殘基的運動性比較大, B因子相對較高, 所以在統(tǒng)計中除去了這部分殘基, 具體方法是將數(shù)據(jù)中B因子高的殘基去掉10%, 對剩下的殘基進行統(tǒng)計, 計算平均值.

溫度因子做圖后可以體現(xiàn)蛋白某些部位的活動性和柔韌性. 它也可以由計算rmsf得到. 在GROMACS中, g_rmsf可以將rmsf換算成B因子輸出至pdb. 與晶體測定結構中的B因子相比較, 如果呈較好的相關, 可以說明模擬的過程是正常, 合理的. 但pdb中的B因子都是原子的, 一般是比較殘基間的, 可以轉換一下.
————————————————
版權聲明：本文為CSDN博主「Boss_Xiao_Wang」的原創(chuàng)文章叛溢，遵循CC 4.0 BY-SA版權協(xié)議再沧，轉載請附上原文出處鏈接及本聲明屠升。
原文鏈接：https://blog.csdn.net/weixin_40013463/article/details/81735304

PDB文件解讀

PDB文件解讀

https://blog.csdn.net/weixin_40013463/article/details/81735304