Questa sezione mostra per default la sequenza proteica canonica e su richiesta tutte le isoforme descritte nella voce. Include anche informazioni pertinenti alla/e sequenza/i, compresa la lunghezza e il peso molecolare.
La sequenza proteica visualizzata per default è la sequenza proteica a cui si riferiscono tutte le annotazioni posizionali. La chiamiamo la sequenza ‘canonica’.
Utilizziamo il codice ufficiale IUPAC di una lettera per gli aminoacidi. Per gli amminoacidi selenocisteina (Sec; U) e pirrolisina (Pyl; O), seguiamo la nomenclatura proposta.
Per ogni isoforma, il nome dell’isoforma è fornito, così come la sua lunghezza e la massa molecolare in Dalton. La massa è calcolata sulla base della composizione aminoacidica dell’intera sequenza. Non tiene conto dei PTM, escludendo così qualsiasi elaborazione proteolitica.
Viene anche fornito il checksum della sequenza visualizzata. Attualmente il checksum è un valore CRC (Cyclic Redundancy Check) a 64 bit (‘CRC64’) basato su un algoritmo descritto nello standard ISO 3309. Il polinomio generatore utilizzato è x64 + x4 + x3 + x + 1 (vedi riferimento). Anche se in teoria due sequenze diverse potrebbero avere lo stesso valore CRC64, la probabilità che questo accada è estremamente bassa.