ms ù m Ç " e° ÇÊ Ý T º8 ý V ê s Æ X N Ë| º Ä Z ØV Ä
T
® £] @
Õ ü
æz ´@ / < Æ § Ò q t" î & ñ Ð < Æõ , " fÖ ¦ 156-743
(2010¸ 1 Z 4 6{ 9 ~ à Î6 £ §, þ j7 á xà º& ñ : r 2010¸ 1 Z 4 21{ 9 ~ à Î6 £ §)
é ß
Ñ þ | 9 _ p ¸í ß " f\ P РÒ' é ß Ñ þ | 9 _ " é ¶ ½ ¨ ¸\ ¦ \ V8 £ ¤ l 0 AK " f H é ß Ñ þ | 9 _ " f\ P õ ½ ¨ ¸ ç
ß
_ © ' a ' a> \ ¦ # , é ß Ñ þ | 9 _ ½ ¨ ¸\ ¦ & ñ HX < × æכ ¹ô Ç % i ½ + É` ¦ H : £ ¤f ç ` ¦ Æ ÒØ ¦ H כ s
×
æכ ¹ . : r ½ ¨\ " f H é ß Ñ þ | 9 ` ¦ s À Ò H p ¸í ß ` ¦ 2 ;à º$ í , èà º$ í , × æ$ í _ [ j t Ð ³ ð & ³ô Ç é ß Ñ
þ
| 9 " f\ P õ , # W = t Ð ì rÀ Ó÷ & H é ß Ñ þ | 9 _ s ½ ¨ ¸ü <_ © ' a ' a> \ ¦ © ñ& ñ Ð\ ¦ + " f ì r$ 3 % i
.
Ù þ
d # Q: é ß Ñ þ | 9 " f\ P -s ½ ¨ ¸ © ' a ' a> , © ñ & ñ Ð, é ß Ñ þ | 9 ½ ¨ ¸, é ß Ñ þ | 9 " f\ P
Analysis of Mutual Information Between a Protein Sequence and a Secondary Structure
Julian Lee ∗
Department of Bioinformatics and Life Science, Soongsil University, Seoul 156-743 (Received 6 January 2010, in final form 21 January 2010)
In order to predict the three-dimensional structure of a protein from its amino-acid sequence, it is important to analyze the correlation between the sequence and the structure and to extract from the sequence features that play a crucial role in determining the protein structure. In this work, by using mutual information, we analyzed the correlation between the protein sequence and the secondary structure, where the protein sequence was expressed in terms of a reduced set of amino acids corresponding to hydrophobic, hydrophilic, and neutral ones, and the secondary structure was classified into eight classes.
PACS numbers: 87.14.Ee, 87.15.Cc, 02.50.-r
Keywords: Protein sequence-secondary structure correlation, Mutual information, Protein structure, Protein sequence
I. " e  ] Ø
é ß
Ñ þ | 9 É r ¸ H Ò q t" î & ³ © _ H" é ¶s ÷ & H Ó ü t| 9 s . é ß Ñ
þ
| 9 _ ¦Ä » " é ¶ ½ ¨ ¸ H é ß Ñ þ | 9 _ l 0 p x` ¦ & ñ l M
:ë H\ , é ß Ñ þ | 9 _ p ¸í ß " f\ P РÒ' Õ ª " é ¶ ½ ¨ ¸
\
¦ \ V8 £ ¤ H כ É r > í ß Ò q tÓ ü to < Æ_ × æכ ¹ô Ç ë H] js . Õ ª
∗
E-mail: [email protected]
Q " f\ P & ñ Ðë ß Ü ¼ Ð ¦Ä » ½ ¨ ¸\ ¦ · ú ? / H כ É r f
t K K ½ + É õ ] j Ð z e . " f é ß Ñ þ | 9 _ ² D G
è& h " é ¶ ½ ¨ ¸ s ½ ¨ ¸(secondary structure)_
\
V8 £ ¤\ @ /ô Ç ½ ¨ Ö ¸µ 1 Ï > ' ÷ &# Q M ® o [1–9]. : £ ¤ y
, ¦Ä » ½ ¨ ¸\ ¦ \ V8 £ ¤ ¦ H é ß Ñ þ | 9 _ " f\ P s ½ ¨ ¸ X
<s Z s Û ¼\ e H é ß Ñ þ | 9 õ ^ & h " f\ P Ä » $ í s
\ O
H â Ä º, ² D G è& h ½ ¨ ¸ë ß X <s Z s Û ¼ РÒ' Æ ÒØ ¦
¦, ^ & h ½ ¨ ¸ H Ä » \ -t < ÊÃ º\ ¦ þ j è o #
-126-
½
¨ H s É r ¸y ´ ú Æ Òl ~ ½ ÓZ O [10–19]s $ í ' ¦ e l
M :ë H\ , s ½ ¨ ¸ü < ° ú É r ² D G è& h ½ ¨ ¸_ \ V8 £ ¤ É r 8
8¹ ¡ ¤ × æכ ¹ô Ç ë H] j Ð Â Òy ÷ & ¦ e .
$ í
/ B N& h s ½ ¨ ¸ \ V8 £ ¤` ¦ 0 AK " f H " f\ P ÐÂ Ò' s
½
¨ ¸ & ñ \ × æכ ¹ô Ç % i ½ + É` ¦ H ² D G è& h : £ ¤f ç ` ¦ Æ ÒØ ¦
H כ s B Ä º × æכ ¹ . s Qô Ç : £ ¤f ç × æ × æכ ¹ô Ç כ Ü ¼ Ð
"
f èà º$ í (hydrophobicity)õ 2 ;à º$ í (hydrophilicity)s e
. é ß Ñ þ | 9 s Ó ü t 5 Å q\ " f ¦Ä »ô Ç ½ ¨ ¸ Ð ] X n = M :, 2 ; Ã
º$ í p ¸í ß É r é ß Ñ þ | 9 _ 5 Å qÜ ¼ Ð [ þ t# Q 9 ¦ 2 ;à º
$ í
p ¸í ß É r é ß Ñ þ | 9 _ ¾ ú Ü ¼ Ð ¸ 9 ¦ Ù ¼ Ð, 2 ; Ã
º$ í õ èà º$ í É r ¦Ä » ½ ¨ ¸\ ¦ & ñ HX < & ê ø Í % ò ¾ Ó
`
¦ p 2 ; . " f p ¸í ß ` ¦ 2 ;à º$ í õ èà º$ í _ ¿ º t
Ðë ß , < Ê É r × æ$ í t V , # Q" f [ j t Ð ì rÀ Óô Ç ç ß é ß ô Ç
¸+ þ A` ¦ : xK é ß Ñ þ | 9 ½ ¨ ¸_ $ í | 9 ` ¦ ½ ¨ô Ç 7 Hë H[ þ t ¸ Ã
º > rF ô Ç [20–36].
:
r 7 Hë H\ " f H, é ß Ñ þ | 9 _ p ¸í ß ` ¦ 2 ;à º$ í , èà º$ í ,
×
æ$ í _ [ j t Ð ³ ð & ³ô Ç " f\ P õ é ß Ñ þ | 9 _ s ½ ¨ ¸ü <
_
© ' a ' a> \ ¦ © ñ& ñ Ð H ' ¸\ ¦ + " f ¸ # Ð
¤ .
II. U ê s 0 n É
1. ms ù m Ç ºô p §8 ý ù m ɶ ¥
z
´+ « >& h Ü ¼ Ð & ñ ô Ç é ß Ñ þ | 9 ½ ¨ ¸[ þ ts | 9 @ /$ í ÷ &# Q e
H / B M É r Protein Data Bank(PDB)(http://www.rcsb.org/
pdb/home/home.do) Ð" f, 50000> h\ ¹ ¢ ¤~ Ã Ì H é ß Ñ þ | 9
½
¨ ¸[ þ ts $ © ÷ &# Q e H X <s Z s Û ¼s t ë ß , × æ4 ¤÷ &
H ½ ¨ ¸ü < ± ú É r K © ¸_ ½ ¨ ¸[ þ ts B Ä º ´ ú § . Õ ªX O l
M :ë H\ Structural Classification of Proteins(SCOP)
É
r s [ þ t ½ ¨ ¸[ þ t` ¦ 44000> h_ ¸B j (domain)Ü ¼ Ð ì r À
ÓK Z ~ ¤Ü ¼ 9 [37], ASTRAL compendium [38] É r
r s [ þ t` ¦ # õ # " f\ P s q 5 p wô Ç ½ ¨ ¸, K © ¸
± ú É r ½ ¨ ¸ 1 p x` ¦ ] j ô Ç | 9 ½ + Ë` ¦ ë ß [ þ t# Q Z ~ ¤ .
:
r 7 Hë H\ " f H ASTRAL SCOP (version 1.63)_ é ß Ñ
þ
| 9 [ þ t` ¦ r BLASTCLUST (NCBI BLAST 2.2.5, http://www.ncbi.nlm.nih.gov/BLAST/)\ ¦ 6 x # Á º
8l f ± ¦ y Á º 8l \ " f @ /³ ð é ß Ñ þ | 9 ` ¦ i ( v6 £ §Ü ¼ Ð+ , é ß Ñ
þ
| 9 ç ß _ " f\ P Ä » $ í s 25% p ë ß s ÷ & ¸2 ¤ % i . s X
O
> ë ß H é ß Ñ þ | 9 | 9 ½ + Ë\ H þ j7 á x& h Ü ¼ Ð 8 ú x 921195> h_
p ¸í ß Ü ¼ Ð s À Ò# Q 4362> h_ é ß Ñ þ | 9 s [ þ t# Q e .
2. ms ù m Ç " e° Ç8 ý Ä Z Ø ½
é ß
Ñ þ | 9 ` ¦ s À Ò H p ¸í ß 207 á xÀ Ó\ ¦ 2 ;à º$ í (H), èà º
$ í
(P), × æ$ í (N)_ [ j t Ðë ß ì rÀ Ó % i . [ j 2 ;(Serine), à
ÔY U ¸ (Threonine), Û ¼ Ø Ôà Ôí ß (Aspartic acid), Û
¼ | (Asparagine), / å JÀ Ò Ã Ðí ß (Glutamic acid), /
å
JÀ Ò (Glutamine), y Û ¼w (Histidine), Ø Ôl
(Arginine), o (Lysine), w Ð (Tyrosine), r Û ¼_
(Cysteine) (11 7 á xÀ Ó) É r P Ð, À Ò (Leucine), s èÀ Ò
(Isoleucine), µ 1 Ï 2 ;(Valine), B jw ¸ (Methionine),
`
u ´· ú (Phenylalanine), à Ôw n Ðó ø Í(Tryptophan)(6 7
á
xÀ Ó) É r H, · ú (Alanine),á Ô\ ¦ ;(Proline),/ 2 å Jo
(Glycine)(37 á xÀ Ó) É r NÜ ¼ Ð ì rÀ Ó % i . ì r$ 3 @ / ©
é ß Ñ þ | 9 [ þ t` ¦ s À Ò H 921195> h_ p ¸í ß É r P
469422> h, H 269049, Ns 182724> hs .
3. ms ù m Ç T º8 ý Ä Z Ø ½
é ß
Ñ þ | 9 _ s ½ ¨ ¸ H " é ¶ ý a³ ð ÐÂ Ò' Definition of Secondary Structure of Proteins(DSSP) [39]\
>
í ß ) a . DSSP\ " f & ñ _ H s ½ ¨ ¸ H & ñ ½ ©
½
¨ ¸(Regular Helix), π ½ ¨ ¸(π Helix), 3
10 ½ ¨
¸(3
10Helix),` 5 g ½ ¨ ¸(Extended), β- o (β-bridge), [
tl (Turn), ô a(Bend), ï{ 9 (Coil)_ 8t s . ì r$ 3 @ /
©
921195> h_ p ¸í ß [ þ t` ¦ s ½ ¨ ¸ Ð ì rÀ Ó , 0 A í
H" f@ / Ð y y 300466, 247, 33369, 187075,11032,105476, 88737, 194793> hs .
4. " e° ÇÊ Ý T º m8 ý V ê s ÆX N Ë| º
@
/Â Òì r_ s ½ ¨ ¸ \ V8 £ ¤ · ú ¦o 7 £ § É r é ß Ñ þ | 9 _ " f\ P
`
¦ { 9 & ñ ô Ç U ´s _ ½ Óë HÜ ¼ Ð É r Ê ê Õ ª " f\ P : £ ¤f ç Ü ¼ ÐÂ Ò '
½ Óë H_ î rX <\ e H " f\ P _ s ½ ¨ ¸\ ¦ \ V8 £ ¤ô Ç .
" f s 7 Hë H\ " f H U ´s N = 1, · · · , 5 ½ Óë H î ß \ [ þ t
#
Q ¸ H " f\ P õ , ½ Óë H_ × æd Ü ¼ ÐÂ Ò' dë ß p u b # Q 0 Au _
s ½ ¨ ¸ü <_ © ' a ' a> \ ¦ ì r$ 3 % i . d H C-= å Q Qo
~
½
Ó ¾ Ó` ¦ +, N -= å Q Qo ~ ½ Ó ¾ Ó` ¦ − ~ ½ Ó ¾ ÓÜ ¼ Ð Z ~ ¦, ½ Óë H_ U ´ s
f . ËÃ º{ 9 â Ä º ± p î rX < 0 Au \ ¦ d = 0, Ã º U ´s _
â
Ä º H ± p î rX <\ e H ¿ º > h_ 0 Au \ ¦ d = ±0.5 Ð ¸ ú
¤ (Fig. 1(a)). N = 1 â Ä º_ " f\ P õ " f\ P , ½ ¨ ¸ü <
½
¨ ¸_ © ' a ' a> ¸ ¶ ú ( R Ð ¤ .
¸y ´ ú Æ Òl \ ¦ s 6 xô Ç " é ¶ ½ ¨ ¸ \ V8 £ ¤ ~ ½ ÓZ O [10–
19]\ " f H " f\ P ¸y \ K { © ÷ & H ² D G è& h ½ ¨ ¸\ ¦ : xP :
H H P P H H P H P
N
d
H
(a)
H H P P H H P H P
N
C C H H H H C C C
(b)
Fig. 1. (a) Computation of mutual information between a sequence segment of length of N and the secondary structure at the residue position d. (b) Computation of mutual information between the sequence segment and the secondary structure segment of length N.
Ð 4 R ¸l M :ë H\ , ¸y î rX <_ 0 Au ÷ rë ß m ¸ y
^ _ s ½ ¨ ¸ × æכ ¹ô ÇX <, s \ ¦ % i ¿ º\ ¿ º ¦ U
´s N = 1, · · · , 5 ½ Óë H î ß \ [ þ t# Q ¸ H " f\ P J õ s
½ ¨ ¸_ © ' a ' a> ¸ ì r$ 3 % i (Fig. 1(b)).
"
f\ P õ ½ ¨ ¸ü <_ © ' a ' a> H © ñ& ñ Ð(mutual infor- mation) H ' ¸\ ¦ s 6 x # 8 £ ¤& ñ % i . " f\ P J Xü < ½ ¨ ¸ J Y : £ ¤& ñ ° ú כ xü < y\ ¦ | 9 S X Ò ¦` ¦ y l P (x), P (y) ¦, s Qô Ç | s 1 l xr \ { 9 # Q H S X Ò
¦\ ¦ P (x, y) ½ + É M :, © ñ& ñ Ð H
I(X, Y ) ≡ X
x,y
P (x, y) log
2P (x, y)
P (x)P (y) (1)
Ð & ñ _ ÷ & 9, é ß 0 A H q à Ô(bit)s . © ñ& ñ Ð H X\ ¦
· ú
M : Y \ @ /K % 3 H ¨ î ç H & ñ Ð| ¾ Ós ¦ K $ 3 ½ + É Ã º e
. © ' a ' a> \ O ` ¦ M :\ H P (x, y) = P (x)P (y) s Ù ¼
Ð I(X, Y ) = 0s . S X Ò ¦ P (x), P (y), P (x, y)[ þ t É r X <
s
\ " f | [ þ ts z ´] j Ð { 9 # Qè ß ¸[ þ t ÐÂ Ò' Æ Ò& ñ ô Ç
. " f\ P _ U ´s \ ¦ N s ½ + É M : d (1)\ " f x\ @ /ô Ç ½ + Ë É r 3
N> h_ ½ Ó` ¦ 8 H כ s ¦ y H ô Ç 0 Au _ s ½ ¨ ¸\ ¦ Ò
q
ty H â Ä º 8> h(Fig. 1(a)), ½ Óë H î ß \ [ þ t# Q ¸ H s
½
¨ ¸ ^ \ ¦ Ò q ty H â Ä º 8
N> h ) a (Fig. 1(b)).
° ú
É r ª z o _ © ñ& ñ Ð H 6 £ §õ ° ú s ³ ð & ³ ) a .
I(X, X) = − X
x