Université catholique de Louvain (LEW), Faculté de Médecine

notions de génie génétique pratique
J. Expression des genes clonés dans E. coli
par Etienne De Plaen
FARM2182 2004

retour au plan du cours théorique


plan

 

1. la transcription;;;;;;

a. initiation:
;;;;;;ARN pol, facteur sigma, le promoteur
b. terminaison:
;;;;;;lles terminateurs:

2. La traduction

a séquence de Shine-Dalgarno

3. Expression des gènes de mammifères

introduction: pourquoi c'est difficile.
a. les protéines de fusion:
;;;;;;les vecteurs vecteur pUR278, pMAL
b. les protéines natives:
;;;;;;pET-3a (+ la bactérie BL31), pKK240-11 et ;;;;;;pQE de Quiagen (étiquette histidine)
;;;;;;les corps d'inclusion

4. Exemples

a. l'insuline
b. l'hormone de croissance



suite

1. la transcription

a. initiation de la transcription

ARN pol
Chez les procaryotes, il y a une seule ARN polymérase (ARN pol) qui transcrit tous les gènes. Les ARN polymérases des procaryotes se lient directement à l'ADN sans l'aide d'autres protéines formant un complexe d'initiation. La polymérase de E. coli est constituée d'une enzyme de base tétramérique qui contient des sous-unités de type a et b avec la stoechiométrie a2bb'. C'est suffisant pour l'élongation de la transcription, mais l'initiation nécessite une autre sous-unité, appelée sigma, qui complète l'holoenzyme.

Le facteur sigma:
Le facteur sigma reconnaît le promoteur. L'enzyme de base peut se lier au promoteur en absence de sigma, mais avec une faible efficacité et sans spécificité. La fonction principale du facteur sigma est donc d'augmenter l'efficacité de liaison de l'ARN polymérase au promoteur et de réduire les liaisons non spécifiques. Un seul facteur s (s70 chez E. coli) initie la transcription de la plupart des gènes. Certains bactériophages, comme T4, synthétisent leur propre facteur s qui détourne l'enzyme de base de E. coli pour qu'elle transcrive les gènes du phage.

Le promoteur: 2 motifs
La molécule d'ARN polymérase explore la double hélice de l'ADN en se liant faiblement à elle, puis en se détachant et en se déplaçant jusqu'à ce qu'elle trouve un promoteur. L'enzyme se lie alors fortement à la séquence du promoteur, dénature (= en sépare les brins) un court segment d'ADN près du promoteur et commence à transcrire l'ADN en ARN. Le facteur sigma se dissocie de l'holoenzyme dès qu'une dizaine de ribonucléotides ont été assemblés. Le premier nucléotide de la chaîne d'ADN porte généralement une purine (adénine ou guanine).
Les promoteurs bactériens sont courts : ils ont une taille d'environ 40 bases. Ils sont constitués de deux motifs, une séquence en position -10 appelée boîte de Pribnow (TATAAT) et une séquence en -35 (TGTTGACA). La séquence de chacun de motifs et la distance qui les sépare sont des facteurs critiques pour l'initiation de la transcription. Lorsque le site en -35 est reconnu par le facteur sigma, ceci provoque la dénaturation de la séquence en - 10, un processus facilité par la présence d'un grand nombre de A et T. La distance entre les 2 sites représente un seul tour d'hélice, ce qui permet aux 2 motifs d'interagir en même temps avec le facteur sigma.

La séquence au site d'initiation de la transcription influence aussi l'efficacité de la transcription ; cette séquence contient souvent le motif CAT, la purine étant le nucléotide +1 du transcrit. Les motifs bactériens d'initiation de la transcription (CAT) et la séquence en -10 (TATAAT) sont semblables aux motifs de l'initiateur (YYCARR) et de la boîte TATA des eucaryotes.


suite


b. terminaison


les terminateurs:

Chez les bactéries, la transcription se termine à des séquences discrètes appelées terminateurs (t) grâce à deux mécanismes qui répondent plus à un signal du transcrit lui-même qu'à un signal du gène.


la termination r-indépendante:
Le mécanisme le plus courant est la terminaison intrinsèque ou terminaison r-indépendante. Les transcrits adoptent des structures secondaires qui obligent l'ARN polymérase à s'arrêter. Un motif de terminaison courant est une séquence répétée, inversée et riche en G, C suivie par une séquence poly-U.

Le palindrome riche en G, C forme une épingle à cheveu, ce qui oblige l'ARN polymérase à faire une pause. Les 2 brins d'ADN ont alors la possibilité de s'apparier en aval de la polymérase. L'ARN polymérase se dissocie alors de la matrice et le brin d'ARN se détache (Fig. 66). L'efficacité de la terminaison aux sites r-indépendants varie de moins de 25 % à plus de 75 %.

la termination r-dépendante:
L'autre mécanisme de terminaison (terminaison r-dépendante) est peu utilisé par les gènes du chromosome bactérien, mais fréquemment par ceux du phage. Il nécessite une protéine appelée r (rho) qui se lie à un site spécifique du transcrit. Ce site est probablement une séquence riche en cytidine, pauvre en guanosine et longue de 50 à 100 nucléotides. La protéine r sépare l'ARN transcrit de l'ADN matrice en interagissant directement avec l'ARN polymérase.


suite


2. la traduction


la sequence de Shine-Dalgarno

Le site de fixation du ribosome comprend le codon d'initiation de la traduction (AUG) et une séquence de 3 à 9 nucléotides situées 3 à 11 nucléotides en amont du codon d'initiation. Cette séquence appelée séquence de Shine-Dalgarno (SD) est complémentaire de l'extrémité 3' de l'ARN 16S de E. coli. La séquence consensus est UAAGGAGG. La liaison du ribosome à l'ARN est facilitée par l'appariement entre la séquence SD de l'ARNm et la séquence de l'extrémité 3' de l'ARN 16S.



suite

 

3. Expression de gènes de mammifères

Les cellules bactériennes ont été très utiles pour exprimer des protéines de mammifère sous une forme active du point de vue immunologique.

les protéines de fusion:
Par exemple, des protéines composées de la partie amino-terminale de la b-galactosidase fusionnée à des protéines eucaryotes ont été utilisées pour préparer des anticorps polyclonaux et monoclonaux. Ces anticorps ont servi à la purification de protéines par chromatographie d'affinité, à des tests diagnostic pour quantifier les niveaux de protéines et à la localisation de protéines dans des organismes, dans des tissus et dans des cellules individuelles par immunofluorescence.

les protéines native:
Des protéines intactes natives ont été produites en grandes quantités dans E. coli pour des études fonctionnelles. Cependant, de nombreuses protéines eucaryotes synthétisées dans des bactéries se replient de manière incorrecte ou peu efficace. Elles ont alors une faible activité biologique.

modifications post-traductionnelles:
De plus, les protéines eucaryotes subissent souvent des modifications post-traductionnelles, telles que formation de ponts disulfure, glycosylation, phosphorylation, oligomérisation ou clivage protéolytique. Ces modifications ne sont pas effectuées par les cellules bactériennes. Ce problème est particulièrement aigu lorsqu'on veut exprimer des récepteurs de surface, des hormones extracellulaires et des enzymes.


L'expression des gènes de mammifère dans E. coli nécessite en outre de résoudre les problèmes suivants:

1. les promoteurs eucaryotes ne sont pas reconnus par l'ARN polymérases bactérienne ;
2. les gènes eucaryotes contiennent des introns ;
3. les ARNm eucaryotes ne sont pas toujours traduits par les ribosomes bactériens ;
4. les protéines présentes en grandes quantités dans les bactéries forment des corps d'inclusion insolubles
5. les protéines eucaryotes peuvent être reconnues comme des corps étrangers par les protéases de la bactérie et être dégradées.


suite


a. protéines de fusion


1. vecteur pUR278:

Si on clone le gène d'intérêt en 3' d'un gène de la bactérie E.coli tel que lacZ, cela offre les avantages suivants :

1. la protéine de fusion est produites en grandes quantités parce que les sites d'initiation de la transcription et de la traduction sont des séquences normales de E. coli ;
2. les protéines de fusion sont plus stables que les protéines étrangères natives ;
3. et les protéines de fusion sont de plus grande taille que la plupart des protéines de E. coli et faciles à identifier dans un gel de polyacrylamide. La portion du gel contenant la protéine peut être récupérée et utilisée pour immuniser des animaux.


Les vecteurs disponibles (pUR278, Fig. 67) ont une série de sites de restriction qui permettent d'introduire un fragment d'ADN dans les 3 grilles de lecture possibles en 3' du gène lacZ. Dans certains cas, la construction du gène de fusion nécessite de remplir ou d'éliminer une extrémité cohésive.



2. vecteur pMAL:

 

MBP est une protéine périplasmique:
Le gène d'intérêt peut aussi être cloné dans le vecteur pMAL en aval du gène malE de E. coli qui code la maltose binding protein (MBP) (Fig. 68). La MBP est une protéine périplasmique qui participe au transport du maltose dans la bactérie. Grâce au promoteur tac et aux signaux d'initiation de la traduction de MBP, on exprime de grandes quantités de la protéine de fusion.


le promoteur tac et IPTG
Le promoteur tac est un promoteur hybride trp-lac qui est réprimé par le répresseur lac et induit par l'IPTG (Fig. 69). Le gène lacI qui code le répresseur est présent sur le plasmide.

complémentation alpha:
Le polylinker utilisé pour l'insertion d'ADN étranger est situé dans la partie amino-terminale du fragment de beta-galactosidase permettant la complémentation a, ce qui permet un criblage « bleu/blanc » des colonies bactériennes.

purification de la protéine:
La protéine de fusion produite par le plasmide recombinant est purifiée en une étape par chromatographie d'affinité en tirant parti de l'affinité de MBP pour l'amylose. Elle est éluée de la colonne par une solution de maltose. Dans la plupart des cas, la protéine de fusion est soluble. On obtient généralement des rendements de l'ordre de 100 mg/L. De plus, le vecteur pMAL est conçu pour que la protéine de fusion porte une séquence de reconnaissance pour une protéase spécifique (Facteur Xa, entérokinase ou thrombine) qui permet de séparer la protéine d'intérêt de la MBP (Fig. 68).


suite


b. protéines natives

vector pET-3a (Stratagen):

Les protéines natives peuvent être produites dans des bactéries si on met le gène d'intérêt en aval d'un promoteur fort et inductible ainsi que d'un signal permettant une traduction efficace par les ribosomes de E. coli. Les niveaux d'expression varient entre 1 et 30 % des protéines totales de la bactérie. Dans la plupart des cas, cela constitue un enrichissement de 1.000 fois au moins par rapport à la production naturelle de la protéine.

pET-3a:
Les vecteurs d'expression contiennent un promoteur fort et inductible, tel que le promoteur pL du bactériophage lambda, le promoteur hybride trp-lac ou le promoteur du bactériophage T7. Ce dernier type de promoteur est particulièrement efficace. La T7 ARN polymérase qui initie la transcription au promoteur T7 est produite par le gène 1 de T7. Si l'expression du gène cloné est toxique pour la bactérie, il faut maintenir la T7 ARN polymérase à un faible niveau pendant que les bactéries se multiplient et induire l'expression juste avant de les récolter.

La bactérie hôte:
On utilise alors une bactérie lysogène BL21 (DE3), dans laquelle le gène 1 du bactériophage T7 est exprimé à partir du promoteur lacUV5, un promoteur de l'opéron lactose inductible à l'IPTG. Ce promoteur permet de faibles niveaux d'expression même lorsqu'il n'est pas induit.

pLys:
Pour un contrôle plus strict du niveau d'expression, il est préférable d'utiliser des bactéries contenant le plasmide pLys. Ce plasmide code le lysozyme de T7 qui est un inhibiteur naturel de la T7 RNA polymérase et qui réduit la capacité de cette polymérase à transcrire le gène d'intérêt lorsque le promoteur lacUV5 n'est pas induit.

le clonage:
Le gène d'intérêt est cloné dans un plasmide en aval du promoteur du gène 10 qui code la protéine de capside principale du bactériophage T7. Le plasmide pET-3 porte le promoteur du gène 10 (Pf10), un site de clonage BamHI et un terminateur de transcription du bactériophage T7 (Tf) (Fig. 70). Le site BamHI a été inséré au codon 11 du gène 10. Le site NdeI (CATATG) contient le codon d'initiation de la traduction. Si on insère les séquences codantes du gène d'intérêt au site NdeI, on produit des protéines natives.

RBS (ribosome Binding Sequence):
En plus du promoteur bactérien, le second facteur important pour exprimer un gène eucaryote dans E. coli est un site de fixation du ribosome efficace.

vecteur pKK240-11:


Lorsqu'on veut exprimer un gène procaryote, le site de fixation au ribosome de ce gène est souvent suffisant. Il n'y a alors qu'à cloner le gène en aval d'un promoteur fort et inductible, en utilisant un site de restriction en 5' de la séquence Shine-Dalgarno, pour observer des niveaux d'expression élevés. Par contre, on doit apporter un site de fixation au ribosome efficace si on veut exprimer des gènes eucaryotes et des gènes procaryotes ayant un site de fixation au ribosome peu efficace.

Cela se fait en insérant le gène d'intérêt dans un plasmide, tel que pKK240-11, en s'arrangeant pour que le deuxième codon de ce gène suive le codon ATG du vecteur (Fig. 71). L'ATG est inclus dans le site de restriction NcoI. On digère le plasmide par NcoI et on remplit l'extrémité cohésive grâce au fragment Klenow de l'ADN polymérase I de E. coli. Cela donne une extrémité droite à laquelle on peut lier le fragment d'ADN commençant par le deuxième codon du gène à exprimer. Ce fragment de gène est facilement préparé par PCR en utilisant la Pfu ADN polymérase. Le vecteur pKK240-11 porte un promoteur tac et un site de fixation du ribosome du gène LacZ ainsi que les terminateurs de transcription T1 et T2 du gène 5S de E. coli.

vecteur pQE de Quiagen
(Etiquette Histidina):

Une autre technique de purification de protéines recombinantes est basée sur l'observation qu'un segment de protéine constitué d'une série d'Histidine se lie à des métaux de transition et à des métaux de transition complexés par des chélateurs. La séquence codante de la protéine est clonée dans un plasmide en amont ou en aval d'une séquence codant pour 6 Histidine (Fig. 72). Les protéines eucaryotes produites peuvent représenter jusqu'à 50 % des protéines cellulaires totales. Les bactéries sont lysées et l'extrait bactérien est déposé sur une colonne de résine Ni++-NTA (Nitrilo-Tri-Acetic Acid) (Fig. 73). Les ions Ni++ complexés en quatre points de coordination par la résine ont une grande affinité pour les 6 Histidine consécutives fixées à la protéine.

 
La résine peut fixer jusqu'à 5 mg protéine/ml de résine. L'affinité de la résine Ni++-NTA pour les 6 Histidine est plus grande que celle des antigènes pour les anticorps. Elle n'est donc pas influencée par des agents dénaturants comme l'urée 8M ou l'hydrochlorure de guanidine 6M. Comme il y a peu de protéines naturelles qui se lient aux métaux de transition, les protéines fusionnées à une séquence de 6 Histidine sont généralement purifiées en une étape. La protéine pure est généralement éluée en ajoutant de l'imidazole comme agent compétiteur. Elle est récupérée même si elle ne représente que 1% des protéines totales du lysat bactérien. La séquence des 6 Histidine n'est pas chargée au pH physiologique et affecte rarement la conformation de la protéine à laquelle elle est attachée : elle préserve généralement la fonction de la protéine. Elle n'interfère pas avec la sécrétion et est peu immunogénique dans la plupart des espèces, sauf le singe.

suite


c. corps d'inclusion

Une concentration élevée de protéines dans E. coli provoque souvent l'apparition de granules cytoplasmiques ou corps d'inclusion insolubles. Après la lyse des bactéries, les corps d'inclusion sont récupérés par centrifugation et lavés avec un détergent (Triton X-100) et de l'EDTA. Ces corps d'inclusion doivent être solubilisés pour que les protéines puissent retrouver leur conformation native et donc leur activité.

Pour chaque protéine, il faut trouver la procédure la plus appropriée. On solubilise ces corps d'inclusion avec de l'hydrochlorure de guanidine (5 à 8 M), de l'urée (6 à 8 M), du SDS (Sodium Dodecyl Sulfate), un pH alcalin ou un mélange d'acétonitrile et de propanol. Lorsque la protéine est solubilisée, il faut trouver la méthode adéquate pour éliminer l'agent dénaturant et laisser la protéine se replier dans sa conformation native.

suite


4. exemples:

Quelques protéines eucaryotes, comme l'insuline et l'hormone de croissance humaines, ont été exprimées de manière efficace et peu coûteuse dans des microorganismes .

a. l'insuline

le problème de l'insuline:
Le premier médicament produit par génie génétique pour lequel un brevet a été déposé est l'insuline humaine, destinée au traitement du diabète. Ce produit a remplacé l'insuline extraite de pancréas de porc et de vache. Bien que cette insuline soit biologiquement active chez l'homme, sa séquence en acides aminés n'est pas identique à celle de la molécule humaine. C'est pourquoi certains patients produisaient des anticorps contre l'insuline injectée.

la pre-pro-insuline:
L'insuline, qui régule le métabolisme des sucres, est normalement secrétée dans le sang par les cellules du pancréas. Au départ, cette protéine de 108 acides aminés possède une séquence hydrophobe ou séquence signal lui permettant de traverser les membranes intracellulaires (Fig. 75) On l'appelle alors préproinsuline.

pro-insuline et le peptide C:
Au cours du transport, la séquence signal de 24 acides aminés est clivée du restant du polypeptide: ceci donne la proinsuline qui est stockée dans des vésicules liées à la membrane dans les cellules pancréatiques. La proinsuline est alors repliée comme une lettre G, les 2 extrémités de la boucle étant tenues ensemble par 3 ponts disulfure. La proinsuline est transformée en insuline au sein des vésicules des cellules pancréatiques par l'excision enzymatique d'un segment polypeptidique de 33 acides aminés connu sous le nom de peptide C.


 

 

insuline mature:
L'insuline mature est formée de 2 chaînes distinctes, une de 21 acides aminés (la chaîne A) et l'autre de 30 acides aminés (la chaîne B), liées par les mêmes ponts disulfure. L'insuline ne porte pas de chaînes saccharidiques.


suite


La production d'insulina dans E. coli:
Le gène chromosomique de l'insuline n'était pas utilisable dans les bactéries puisqu'il code la préproinsuline, et qu'en outre il est sous la dépendance de séquences promotrices eucaryotes et contient un intron. On a donc utilisé un ADNc de la proinsuline et on a attaché à l'extrémité 5' de cet ADNc un codon méthionine (ATG) synthétisé chimiquement. Ce gène a été inséré dans un plasmide portant un fragment du gène lacZ composé du promoteur et d'une partie de la séquence codante de la ß-galactosidase (Fig. 76). Ce plasmide recombinant a été introduit dans E. coli. Dans les cellules bactériennes, sous le contrôle des séquences de régulation du gène lacZ, de l'ARNm était produit et traduit en protéines constituée d'une partie ß-galactosidase fusionnée par la méthionine supplémentaire à la proinsuline. Celle-ci était obtenue en traitant la protéine de fusion au bromure de cyanogène, un réactif qui coupe les liaisons peptidiques après les résidus méthionine. La méthionine n'apparaît pas en effet dans la séquence de la proinsuline native. L'insuline recombinante se repliait dans sa structure tridimensionnelle grâce à la formation de ponts disulfures et le peptide C était excisé par des protéases pour donner de l'insuline humaine pure.


suite


a. l'hormone de croissance humaine (hGH)

Le probléme:

L'hormone de croissance produite par l'hypophyse est une protéine de 191 acides aminés qui régule la croissance et le développement. Comme l'insuline, cette protéine n'est pas glycosylée. Des injections régulières d'hormone de croissance stimulent la croissance d'enfants nés avec une déficience en hormone et leur permettent d'atteindre une taille quasi normale. A l'inverse de la situation rencontrée dans le cas de l'insuline, les hormones de croissance animales sont inefficaces chez l'homme. Seule la protéine humaine fonctionne et pendant de nombreuses années, elle fut extraite des hypophyses de cadavres humains. Cette pratique était dangereuse et a conduit à l'infection d'un certain nombre d'enfants par un virus mortel provenant d'un des cadavres.
Comme l'insuline, l'hGH est normalement produite sous forme d'une protéine précurseur contenant une séquence signal amino-terminale.

première tentative:
La séquence signal humaine n'étant pas reconnue par la machinerie de sécrétion bactérienne, on a d'abord construit un gène hybride tel que la bactérie produisait une version presque normale de la protéine humaine mature.
Un fragment d'ADN codant les acides aminés 1 à 24 a été synthétisé chimiquement.
En amont du premier codon, un triplet ATG a été ajouté.
D'autre part, un ADNc codant les acides aminés 25 à 191 a été obtenu à partir d'ARNm de cellules hypophysaires humaines. Ces 2 fragments d'ADN ont été clonés en aval du promoteur lac dans un plasmide. Ce plasmide recombinant a été introduit dans E. coli où il produisait l'hormone de croissance humaine à l'intérieur des cellules. Le seul inconvénient de cette hormone de croissance synthétisée par les bactéries était qu'elle commençait par une méthionine qui n'était pas séparée du restant du polypeptide par les enzymes de E. coli. Les bactéries synthétisaient donc une protéine identique en tout point, y compris l'activité biologique, à l'hormone synthétisée dans l'hypophyse, à part cette méthionine initiatrice. De plus, comme la protéine était synthétisée à l'intérieur des cellules, il fallait de nombreuses étapes pour séparer l'hGH des milliers de protéines bactériennes intracellulaires.

seconde tentative:
Une autre voie pour produire la protéine chez les bactéries était de modifier la protéine de manière à ce qu'elle soit sécrétée. On a donc ligué la séquence codante de la protéine hGH à la séquence signal d'une protéine bactérienne sécrétée (Fig. 78). L'hormone de croissance produite par les bactéries était sécrétée dans l'espace périplasmique entre la membrane interne et externe de la bactérie, avec élimination concomitante du signal peptidique par une protéase bactérienne. Cette protéine a pu alors être libérée par un choc hyptonique faisant éclater la membrane externe. L'hGH produite de cette manière ne contient pas de méthionine initiatrice puisqu'une protéase périplasmique a coupé la séquence signal.



notions de génie génétique pratique
J. Expression des genes clonés dans E. coli
par Etienne De Plaen
FARM2182 2002

retour au plan du cours théorique