Transcription
La transcription est le transfert de l’information génétique de l’ADN à l’ARN, en utilisant l’ADN comme matrice. La synthèse des protéines a lieu dans les ribosomes.
Qu’est-ce qu’un gène ? A un certain niveau, un gène est une chaîne ordonnée de nucléotides qui code un polypeptide. De tels gènes sont des gènes « structurels ». Nous savons également que les gènes peuvent coder des ARN, y compris des ARN messagers (ARNm), des ARN de transfert (ARNt), des ARN ribosomiques (ARNr) ainsi que d’autres types d’ARN. Mais quelque chose doit activer et interrompre l’expression des gènes, ainsi que la réguler. Les séquences régulatrices, qui peuvent être des « promoteurs » ou des « exhausteurs/silencieux », peuvent se trouver très loin des régions codantes. Notre conception du gène doit donc inclure l’idée de régions distinctes d’un chromosome. Et si les informations transcrites sur l’ARNm ne se reflètent pas dans la protéine finale avant d’avoir été modifiées ? C’est la « modification posttranscriptionnelle ». Le concept de gène devient encore plus flou. Que se passe-t-il s’il y a des régions codantes qui se chevauchent ? Il est clair que notre définition du gène ne sera pas simple.
Fonctionnellement, cependant, nous pouvons décrire un gène comme ayant une région codante distincte et une région régulatrice distincte, cette dernière contrôlant la vitesse à laquelle l’ADN est transcrit en ARNm. Nous verrons que les unités de régulation sont composées de « motifs » d’ADN et que chaque motif devra être occupé par une protéine de régulation pour qu’un gène soit correctement régulé. Non seulement la protéine doit être fixée de manière appropriée, mais les protéines doivent toutes s’emboîter, les protéines se liant à d’autres motifs proches, comme les pièces d’un puzzle s’emboîtent. Et il n’y a qu’une seule façon correcte pour que tout s’emboîte. Ainsi, il ne s’agit pas simplement d’une question d’ADN dirigeant la synthèse de l’ARNm, qui dirige ensuite la synthèse des protéines ; les protéines sont intrinsèquement impliquées dans la régulation de la production des protéines au niveau de la transcription.Cela peut devenir un cauchemar si vous commencez à penser à la régulation de la production des protéines régulatrices.
Nous devons également considérer une différence importante entre les eucaryotes et les procaryotes en ce qui concerne la transcription des gènes structurels, ou codant pour les protéines. Chez les eucaryotes, les gènes sont transcrits individuellement alors que chez les procaryotes, les gènes ayant des fonctions connexes (« opérons ») peuvent être transcrits ensemble. Par exemple, l’opéron Lac comprend trois gènes codant pour des protéines ainsi que leurs séquences de contrôle. L’opéron est transcrit en une seule unité sous la forme d’un « ARNm polycistronique ». Les gènes structuraux eucaryotiques sont transcrits sous forme d’ARNm monocistronique.
Synthèse d’ARN dirigée par l’ADN
Il y a trois étapes qui caractérisent la synthèse d’ARN dirigée par l’ADN :
(1) Initiation par la liaison de l’appareil de transcription à la matrice d’ADN
(2) Élongation de la chaîne d’ARNm
(3) Terminaison de la chaîne d’ARNm
Le morceau d’ARNm qui résulte de la transcription directe de l’ADN qui code un « gène » est appelé « transcrit primaire » et il subit des modifications, parfois assez importantes, avant de pouvoir traduire sonmessage en protéine.
La classe d’enzymes qui synthétise les ARN est connue sous le nom d’ARN polymérases. Elles sont toutes des complexes multisous-unités présents dans toutes les cellules et elles catalysent la réaction :
(ARN)nrésidus + 1 NTP === (ARN)n+1 résidus + PPi
Le pyrophosphate est irréversiblement hydrolysé en 2 Pi entraînant ainsi l’action vers la droite. Les nucléotides individuels qui sont lus sur le brin matrice d’ADN sont transcrits dans les nucléotides de l’ARN correspondant, de sorte que le résultat final est un polymère monocaténaire, à savoir l’ARNm, dont les nucléotides correspondent exactement aux nucléotides complémentaires sur le brin d’ADN, à l’exception du fait que partout où un « A » apparaît dans le brin matrice d’ADN, un « U » apparaît dans l’ARNm. (LesNTP possibles sont donc ATP,CTP,GTP,UTP.)
Transcription chez les procaryotes
L’ARN polymérase la plus étudiée est celle de E.coli, nous l’étudierons donc comme le prototype des ARN polymérases. L’holoenzyme est une protéine de 449 kDcomposée d’une « enzyme noyau » et d’une « sous-unité s »,et le complexe entier est dénommé (noyau)s. L’enzyme centrale dirige la réaction de polymérisation et possède 4 sous-unités : enzyme centrale = a2bb’w. Les ions inorganiques Zn2+ (dont deux dans la sous-unité b’w) et Mg2+ sont nécessaires à l’activité catalytique et la structure tridimensionnelle de l’enzyme ressemble à une main. Le pouce de la main peut être imaginé comme saisissant un morceau d’ADN B qui se trouve dans un canal représenté par les doigts courbés et la paume de la main. Ce canal est cylindrique, avec des dimensions de l’ordre de 25 A par 55 A. Ces dimensions permettent un ajustement d’environ 16 paires de bases d’ADN B.
La structure de la « main » apparaît dans d’autres enzymes que nous étudierons, notamment l’ADN polymérase et la transcriptase inverse. Vous pouvez étudier davantage la structure de la main de l’ARN polymérase en regardant l’ARN polymérase T7 (voir PDB ci-dessous).
1ARO : ARN polymérase T7
Nous examinerons la transcription du point de vue du gène, dont nous avons déjà mentionné qu’il est une entité plutôt ambiguë. Néanmoins, il est clair qu’il doit y avoir un point de départ pour qu’une transcription correcte ait lieu, et il est raisonnable de l’inclure comme faisant partie du gène, même s’il ne se transcrit pas lui-même. Ainsi, le problème de l’initiation est en réalité un problème de reconnaissance d’un point de départ. Mais lequel des deux brins de l’ADN sert de matrice et comment la polymérase choisit-elle ?
L’un ou l’autre brin peut servir de matrice mais la transcription se fait toujours de l’extrémité 5′ d’un brin d’ADN vers l’extrémité 3′. Le brin 3′-5′ qui sert de matrice est appelé brin « antisens » ou non codant et le brin5′-3′ (qui a la même séquence nucléotidique, à l’exception des « U « s pour les « T « s, que l’ARNm transcrit par la suite) est le brin « sens » ou « codant ». Par souci de cohérence et de clarté, nous utiliserons la convention selon laquelle notre description de la position le long d’une séquence de nucléotides se fera du point de vue du brin sens, car il s’agit du même ordre que celui de l’ARNm qui est transcrit. La partie du gène qui sert de site d’initiation est appelée « promoteur » et elle est recherchée par l’holoenzyme ARN polymérase. L’holoenzyme se lie faiblement à l’ADN, avec un Kdissoc d’environ 10-7 M, ce qui lui permet de se déplacer le long du brin antisens à la recherche du promoteur. La sous-unité ss est spécifique de sa séquence promotrice et une liaison étroite de l’holoenzyme se produit (Kdissoc d’environ 10-14 M).
Le promoteur est reconnu par une séquence nucléotidique d’environ 40 pb du côté 5′ du site d’initiation, et au sein de cette séquence se trouvent deux séquences « conservées ». L’une d’entre elles a une longueur de 6 pb et est centrée à environ 10 pb en amont du site de départ de la transcription. C’est la « boîte de Pribnow » et elle a une séquence consensus TATAAT.L’autre séquence, moins conservée, est centrée à environ 35 pb en amont et a une séquence consensus de TTGACA.Le site de départ est indiqué par la notation +1 et est presque toujours Aou G.
L’holoenzyme ARN polymérase entre en contact avec le promoteur à peu près aux centres desdeux régions (-10 et -35) et l’enzyme centrale se lie étroitement à l’ADN duplex.Son action est celle de la fusion de l’ADN double brin le long d’une séquence d’environ 11 pb, de -9 à +2. Le facteur s se scinde alors que la transcription commence.
Ce sont les facteurs s spécifiques d’une cellule qui déterminent les gènes qui seront transcrits. Ainsi, les types de cellules individuelles sontcaractérisés par leurs facteurs s.
L’élongation de la chaîne se fait dans le sens 5′–> 3′, et la « bulle de transcription » (la longueur d’ADN « fondu ») voyage avec l’ARN polymérase. En conséquence, l’ADN non fondu est surenroulé devant la bulle et sous-enroulé derrière la bulle. Les topoisomérases agissent alors pour détendre les super bobines positives et négatives. L’ARNm qui est produit est hybridé sur une courte longueur à l’ADN à la position en aval, et existe séparément de l’ADN comme une « queue », le point d’attache étant à l’extrémité en aval. L’ARN polymérase ne tombe pas de l’ADN au cours de son traitement en raison de sa liaison relativement étroite, mais non spécifique, avec les deux côtés de la bulle de transcription, stabilisée par son « pouce » qui s’enroule autour de l’ADN. Environ 20 à 50 nucléotides sont transcrits par seconde à 37 C et un nucléotide est mal transcrit sur environ 104 . Les gènes étant transcrits de façon répétée, ce taux d’erreur n’est pas trop délétère,surtout si l’on y ajoute le fait qu’il existe plusieurs codons(« synonymes ») pour chaque acide aminé ultérieurement traduit et que les erreurs de substitution d’un seul acide aminé dans une protéine n’entravent généralement pas safonction.
La fin spontanée de la transcription des gènes est signalée par des « séquences de terminaison ».Chez E.coli, le signal final pour arrêter la transcription est une série de 4 à 10 appariements de bases A-T avec les Assur le brin matrice. Pour chaque A de cette région, le transcrit de l’ARNm aura un U.Juste en amont de cette séquence se trouve une région riche en bases Gand C, suivie d’un espaceur de nucléotides et d’une autre région riche en G et C. Les deux régions G,Crich sont les plus importantes pour la transcription. Les deux régions G,Crich sont telles qu’une région peut être superposée à l’autre par une opération d’asymétrie de 180o . Cette relation des paires de bases autour d’un centre de symétrie rotationnelle est appelée « séquence palindromique ». La chaîne de nucléotides qui en résulte à l’extrémité 3′ de l’ARNm est telle qu’une boucle en épingle à cheveux peut se former, la base Gs s’appariant avec la base Cs et vice versa, et la base As avec la base Us. La partie la plus terminale de l’extrémité 3′ est une série d’Us suivis d’un groupe hydroxyle. Au moment où la boucle se forme, l’ARN polymérase s’arrête au site de terminaison. La queue oligo-U terminale, qui n’est que faiblement liée au brin d’ADN matrice, est déplacée par le brin d’ADN non matrice.Maintenant le brin d’ARNm est libre de la matrice d’ADN. Le facteur rho reconnaît une séquence sur la chaîne d’ARNm en croissance, en amont du site de terminaison, après quoi il se fixe et se déplace le long de la chaîne dans la direction 5′-3′ jusqu’à ce qu’il atteigne l’ARN polymérase qui est en pause au site de terminaison. Le transcrit est libéré de son brin matrice par le déliage du duplex ARN-ADN par le facteur rho.
Transcription chez les eucaryotes:
Bien que très similaire à celle des procaryotes, la « machinerie » et les séquences de contrôle de la transcription chez les eucaryotes sont beaucoup plus complexes, et il y a de nombreuses ARN polymérases.
L’ARN ribosomal (ARNr) constitue environ 95% de tout l’ARN et environ 67% de l’ARN des ribosomes. Le reste de l’ARN comprend l’ARN de transfert (ARNt), l’ARN messager (ARNm) et d’autres types présents en plus petites quantités, comme les ARN « petit-nucléaire » (ARNsn) impliqués dans l’épissage de l’ARNm et les ARN « guides » qui participent à l’édition de l’ARN. Ces deux derniers processus se produisent lors de la traduction post-DeepL du cycle de vie de l’ARNm eucaryote. Tous les ARN sont codés par l’ADN, et les différents types d’ARN polymérase chez les eucaryotes reflètent cela et le fait que, chez les eucaryotes, la traduction de l’ARNm en ADN a lieu en dehors du noyau.
Les précurseurs de la plupart des ARNr sont synthétisés dans les nucléoles avec l’enzyme ARN polymérase I. Les précurseurs de l’ARNm sont synthétisés dans le nucléoplasme par l’ARN polymérase II tandis que l’ARN polymérase III, également dans le nucléoplasme, synthétise les précurseurs de l’ARN 5S, des ARNt et d’autres ARN présents à la fois dans le noyau et le cytoplasme. Les mitochondries ont leurs propres ARN polymérases, et celles-ci sont analogues aux ARN chloroplastiques que l’on trouve chez les plantes. Nous nous concentrerons sur l’ARN polymérase II car c’est celle qui intervient dans la transcription chez les eucaryotes.
Vous pouvez regarder la structure de l’ARN polymérase II de la levure (voir PDB ci-dessous) alors que nous discutons de sa structure en tant que prototype. Il s’agit de grandes enzymes multisubstances, dont certaines sont des homologues des sous-unités a, b et b’ de l’ARN polymérase procaryote.La forme générale de l’enzyme est similaire à celle de l’ARN polymérase procaryote ( et de l’ADN polymérase), à savoir celle d’une main avec un motif « pouce » qui flanque un canal suffisamment grand pour contenir un morceau d’ADN-B (environ 25 A de large).
1ENO : ARN polymérase II de levure
Nous n’avons pas encore considéré la chimie de l’élongation de la chaîne d’ARNm, mais nous allons le faire ici. Les chaînes s’allongent dans le sens 5′–> 3′ par attaque nucléophile du groupe OH 3′ de la chaîne en croissance par l’a-phosphate du NTP entrant.
Comme chez les procaryotes, la transcription eucaryote commence par la reconnaissance de promoteurs. Il existe de nombreuses copies des gènes de l’ARNr qui dirigent la synthèse de l’ARNr, toutes avec des séquences presque identiques. Cette redondance assure un approvisionnement adéquat en ARNr qui, comme nous l’avons mentionné précédemment, constitue environ 95 % de l’ARN cellulaire.Les promoteurs de ces gènes presque identiques sont donc identiques, et l’ARN polymérase I ne doit reconnaître qu’une seule séquence promotrice. Cependant, l’ARN polymérase I est spécifique de l’espèce (les ARN poly II et III ne sont pas spécifiques de l’espèce).
Pour la promotion de l’ARNr des mammifères, il y a un « élément promoteur central » qui s’étend de la région -31 à +6 (notez que cela chevauche une régiondu gène qui est transcrit) et un « élément promoteur amont « qui s’étend de -187 à -107.
Pour la transcription des gènes par l’ARN polymérase III, le promoteur est parfois localisé dans un segment à l’intérieur de la partie transcrite du gène, entre +40 et +80, mais il peut aussi être partiellement en amont ou entièrement en amont du site de départ.
Promoteurs et séquences de contrôle de l’ARN polymérase II
Les séquences promotrices de l’ARN polymérase II sont diverses. On peut les diviser en deux classes : celles que l’on trouve dans les gènes qui produisent des protéines à peu près au même rythme dans toutes les cellules (« enzymes constitutives ») et celles des gènes dont le taux de production varie fortement d’un type de cellule à l’autre et dépend des besoins d’une cellule différenciée à un moment donné(« enzymes inductibles »).
Eléments promoteurs de gènes constitutifs :
La boîte GC : C’est une région contenant une ou plusieurs copies de la séquence GGGCGG (ou soncomplément) dans un emplacement en amont du site de départ, et elle est analogue aux éléments promoteurs procaryotes.
D’autres éléments promoteurs se trouvent également dans la région -50 à -110 en amont de la boîte GC.
Éléments promoteurs de gènes exprimés sélectivement :
La boîte TATA : Arégion située à environ -25 à -30 qui est riche en nucléotides « A « et « T » et qui ressemble à la boîte de Pribnow (TATAAT). Les gènes peuvent encore être transcrits en présence d’une boîte TATA défectueuse et on pense que la boîte TATA est impliquée dans le choix du site de début de transcription
La boîte CCAAT : C’est une séquence que l’on trouve souvent en amont de la boîte TATA, située à environ -70 à-90. Elles lient l’ARN polymérase II ainsi que d’autres protéines nécessaires à l’initiation de la transcription.
Séquences de contrôle des gènes structuraux :
D’autres régions du chromosome, parfois très éloignées du site de départ, peuvent affecter la liaison de l’ARN polymérase II aux éléments promoteurs. Ces éléments génétiques sont appelés « exhausteurs » et « silencieux ». Des protéines appelées « activateurs » et « répresseurs » peuvent se lier aux amplificateurs et aux silencieux, affectant ainsi la liaison de la polymérase aux promoteurs. En outre,la même protéine peut fonctionner à la fois comme un activateur ou un répresseur, selon l’interaction spécifique (facteurs de transcription « à double action »).
Recrutement de l’ARN polymérase II au promoteur :
Les eucaryotes n’ont pas une protéine simple qui correspond au facteur s des procaryotes. Il existe plutôt un ensemble de protéines qui, ensemble, remplissent la même fonction que le facteur s, et ce sont les « facteurs généraux de transcription » (« GTF »). Nous avons déjà examiné les structures des facteurs de transcription lorsque nous avons abordé l’interaction ADN-protéine dans un cours précédent. Sinon, les mécanismes généraux d’initiation de la transcription sont similaires.
Il y a 6 GTFs qui sont nécessaires pour un taux basal de transcription faible et invariable, et ce taux peut être augmenté par la participation d’autres facteurs protéiques. Ces GTF forment un « complexe de pré-initiation » qui commence lorsque la « protéine de liaison TATA » (« TBP ») se lie à la boîte TATA (si elle existe) d’un promoteur. La séquence spécifique à laquelle elle se lie identifie le site de début de transcription. À la suite de cette liaison, l’ADN est déformé par des plis aux deux extrémités de la boîte TATA. D’autres GTF se lient successivement, suivis par la liaison de l’ARN polymérase. Enfin, les GTFs restants se lient.
1YTB : complexe TBP/boîte TATA
Après la liaison de TBP (qui est un composant de TFIID), la séquence de liaison est la suivante :
TFIIA
TFIIB
TFIIF
ARN PII
TFIIE
TFIIH
TFIIH a deux activités enzymatiques importantes. La première est une activité hélicase ATP-dépendante qui aide à la formation d’un complexe ouvert et la seconde est une activité kinase qui entraîne la phosphorylation de la plus grande sous-unité de l’ARN polymérase II à son extrémité C-terminale. Le processus d’élongation de la transcription peut alors commencer, les différents GTF (sauf TFIIF) se dissociant du complexe au fur et à mesure de l’élongation. TFIID reste lié au promoteur afin que la transcription répétée puisse se produire alors que les GTF se réassemblent pour former le complexe de préinitiation.
Cette discussion s’est concentrée sur l’ARN polymérase II ; différents facteurs de transcription sont nécessaires pour les ARN polymérases I et III. Cependant, toutes trois nécessitent TBP.
Les cellules contrôlent la transcription de chaque gène individuellement. Une combinaison unique de silencieux et d’amplificateurs pour chaque gène module le taux de transcription. Comment les protéines activatrices et répressives qui sont liées loin du promoteur influencent-elles cette transcription des gènes ?
La « protéine de spécificité 1 » (Sp1) a été le premier facteur de transcription humain trouvé capable de reconnaître une séquence enhancer GCrégulatrice spécifique. Cette protéine possède deux modules intéressants :
(1) Un module de 3 doigts de zinc à une extrémité ;
(2) Un module à l’extrémité opposée avec 2 segments discrets riches en Gln.
Les mutants qui n’ont pas l’extrémité riche en glutamine peuvent se lier à l’ADN mais latranscription n’est pas stimulée. Par conséquent, l’extrémité riche en glutamine doit se lier à quelque chose d’autre pour que la transcription ait lieu, et ce sont les « coactivateurs ».Ils sont également appelés « facteurs asservis à la TBP » ou « TAF » et il y en a au moins huit qui sont importants pour l’activation de la transcription. Ce ne sont pas des facteurs basaux (GTF) et ils ne se lient pas à des séquences d’ADN spécifiques. Au contraire, ils se lient avidement à TBP et fournissent de multiples » sites d’accueil » aux activateurs. En ce sens, ce sont des « molécules adaptatrices ». Une « boîte à outils » de ces molécules adaptatrices offre une grande diversité d’options pour moduler la transcription d’un gène. Ainsi, en élargissant notre comparaison précédente du complexe de préinitiation desGTF au facteur s procaryote, une meilleure comparaison serait entre le facteur s et l’ensemble du complexe de préinitiation activateur-coactivateur-basal. Quant à la façon dont cet arrangement module ou influence le taux de transcription, il est probablement médié principalement par une distorsion de l’ADN qui facilite le mouvement de l’ARN polymérase II le long de la région codante.
Latchman (TRENDS in Biochemical Sciences Vol. 26 No.4 April 2001) a souligné l’importance du site de liaison à l’ADN lui-même comme jouant un rôle clé dans la modulation intranscriptionnelle. Le même facteur de transcription peut prendre différentes formes s’il se lie à différents sites. Les changements de conformation sont induits par l’interaction ADN-protéine, ce qui augmente la flexibilité du spectre de contrôle de la transcription, puisqu’une protéine peut agir comme toute une collection de protéines, chacune ayant son propre effet (activation, inhibition ou absence d’effet).
Pour aller plus loin, on peut imaginer qu’un phénomène similaire peut se produire lorsque les coactivateurs se lient aux activateurs. Peut-être que différents changements de conformation sont induits de la même manière dans la protéine liée selon le type d’interaction protéine-protéine. Ces changements de conformation peuvent alors entraîner une capacité indifférente à moduler la transcription.
Les domaines d’activation des facteurs de transcription sont souvent riches en glutamine, mais d’autres sont riches en proline ou acides. Dans certains cas, des résidus hydrophobes sont intercalés parmi les résidus acides ou glutaminiques et sont importants pour l’activation. Tjian (Cell, Vol. 77, 5-8, 8 avril 1994) suggère que les forces hydrophobes conduisent la cohésion des domaines d’activation avec leurs cibles et que la spécificité est obtenue par la périodicité des éléments cohésifs.
Les gènes ne sont transcrits à des taux mesurables que si les bons activateurs sont présents et sont capables de surmonter les effets des répresseurs.