Anonim

Temaer

  • Evolusjonær biologi
  • Interspersed repeterende sekvenser
  • polyploidi

Abstrakt

Prøve-sekvensanalyse ble benyttet for å undersøke de repeterende DNA som var mest ansvarlige for den utviklede variasjonen i genominnhold over sju panicoidgress med> 5-gangig variasjon i genomstørrelse og forskjellige historier av polyploidi. I alle tilfeller var de mest omfattende gjentakelsene LTR retrotransposons, men de bestemte familiene som hadde blitt dominerende, viste seg å være forskjellige i Pennisetum, Saccharum, Sorghum og Zea linjene. En elementfamilie, Huck, har vært veldig aktiv i alle de studerte artene de siste millioner årene. Dette antyder overføring av et aktivt eller hvilende autonomt sett med Huck- elementer til denne linjen ved grunnleggelsen av panicoidene. Tilsvarende antyder uavhengig ny aktivitet av Ji og Opie- elementer i Zea og av leviathanelementene i Sorghum og Saccharum- arter at medlemmer av disse familiene med eksepsjonelt aktiveringspotensial var tilstede i genomene til grunnleggerne av disse linjene. I en detaljert analyse av Zea- linjen ble det observert den kombinerte virkningen av flere familier av LTR retrotransposoner å ha omgjort doblet genomstørrelsen til Zea luxurians i forhold til Zea mays og Zea diploperennis i løpet av de siste millioner årene. En av LTR retrotransposonforsterkningsbarstene i Zea kan ha blitt initiert av polyploidi, men det store flertallet av transponeringselementaktivering er ikke. I stedet foreslår resultatene tilfeldig aktivering av noen eller flere LTR retrotransposons familier i spesielle linjer over evolusjonstid, med noen familier spesielt utsatt for fremtidig aktivering og hyperforsterkning.

Introduksjon

Blomstrende plante (angiosperm) genomene er enormt ustabile ved nivået av kromosomnummer, genomstørrelse og repeterende DNA-innhold. I mais ( Zea mays ), bygg ( Hordeum vulgare ) og andre gres med genomer> 2000 Mb eksisterer de fleste gener som single-gen øyer som er omgitt av hav av nestede transponable elementer (TE) (SanMiguel og Bennetzen, 1998). Hvor haplotypevariasjon har blitt undersøkt i mais, er alle to alleler av samme gen som har avviket i> 2 millioner år, forskjellig med> 50% i innholdet i flankerende TE (Wang and Dooner, 2006). Gene innhold og organisasjon er mer stabile, men varierer fortsatt vesentlig, spesielt i kopi nummer og gen rekkefølge (Bennetzen, 2007; Springer et al., 2009).

I løpet av de siste 15 årene har de primære mekanismene for genomomdannelse blitt oppdaget (gjennomgått i Bennetzen, 2007). Polyploidi er en hyppig og dramatisk bidragsyter til genomforskjeller. Selv om enkelte linjer kan gjennomgå faste (det vil si vellykkede) polyploide hendelser flere ganger på bare noen få millioner år, unnslipper andre linjer denne prosessen i flere millioner år. For eksempel var den siste polyploidien i sorghum ( Sorghum bicolor ) -linjen ca. 70 millioner år siden (mya), mange millioner år før opprinnelsen og bred spredning av gressfamilien (Paterson et al., 2004). Utover dobling av genomstørrelse har polyploidi blitt observert for å tjene som et "genomisk sjokk" som aktiverer TE-amplifikasjon og resulterende genom-omplassering, muligens ved å endre balansen i deres epigenetiske siling (O'Neill et al., 1998; Ozkan et al., 1998; Ozkan et al., 1998; 2001; Madlung et al., 2005; Parisod et al., 2009; Petit et al., 2010). Etter polyploidi oppstår en eventuell diploidiseringsprosess som fører til eksklusiv disomisk arv og tap av en delmengde av gener som for eksempel ble fordoblet i nukleær kopi-nummer ved hjelp av en diploid til tetraploid polyploid hendelse. Dette genetisk tap er ikke tilfeldig, og involverer en "fraksjonering" der gener går tapt hyppigere (i et hvilket som helst kromosomalt domene) fra en forelder av tetraploidet i stedet for den andre og involverer også fortrinnsrett tap av gener som koder for dosefølsomme proteiner (Thomas et al., 2006; Schnable et al., 2011).

De store determinanter av genomstrukturen i angiospermer har imidlertid vist seg å fungere på en raskere tidsskala enn til og med tilbakevendende polyploidi. TE-amplifikasjon og fjerning er de viktigste determinanter av genomstørrelse i gresslinjer, for eksempel (gjennomgått i Bennetzen et al., 2005), og denne korrelasjonen ser ut til å holde generelt over blomstrende planter. I de fleste angiosperm-genomene er LTR retrotransposonene den viktigste bidragsyteren til genomstørrelse, og bidrar over 75% av det nukleære DNA til til og med moderat størrelse genomer som mais (Schnable et al., 2009). De fleste LTR retrotransposons-familier finnes i lavkopi-tall (SanMiguel og Bennetzen, 1998; Baucom et al., 2009), men forsterkningen av noen få familier som individuelt bidrar til> 100 Mb DNA til et genom er de viktigste årsakene til "genomisk fedme '(Bennetzen og Kellogg, 1997) i planter. LTR retrotransposon-forsterkninger av bare en eller noen få familier er tilstrekkelig til mer enn dobbelt genomstørrelse på bare noen få millioner år, som vist for Oryza australiensis (Piegu et al., 2006).

Genomisk DNA-fjerning kan også være svært rask. LTR retrotransposons muterer vanligvis til solo LTRs ved ulik rekombination, spesielt i regioner (for eksempel nær gener) der homolog rekombination er en hyppig prosess (Ma og Bennetzen, 2006). Imidlertid involverer den viktigste mekanismen for DNA-fjerning små deletjoner assosiert med uønsket rekombination (Devos et al., 2002), som har vist seg å fjerne hundrevis av megabaser av LTR retrotransposon-DNA på så lite som 2 millioner år (Ma et al., 2004). Denne prosessen virker på tvers av hele genomet (inkludert i de genene som er tapt i fraksjoneringsprosessen, Ilic et al., 2003), etterlater sterkt degenererte legater av tidligere genomkomponenter som er hakket med små deletjoner og dermed blir uigenkjenelige innen noen få millioner år. Derfor må alle TE-observerte i et gressgenom ha vært aktive de siste 5-10 millioner årene, eller mye mer nylig, eller de ville ikke lenger være detekterbare. Det synes sannsynlig at regioner som hovedsakelig består av degenererte fragmenter av LTR retrotransposons og andre TE, er ansvarlige for det meste av det "ikke-noterte" DNA i et genom, selv om mange TE-fragmenter har utviklet vert-fordelaktige roller (Hudson et al., 2003; Bundock og Hooykaas, 2005), spesielt i genregulering (White et al., 1994; Michaels et al., 2003; Lisch and Bennetzen, 2011).

Kombinasjonen av svært aktiv DNA-fjerning og meget aktiv TE-amplifisering skaper en eksepsjonelt dynamisk genombalanse. I mange linjer ser det ut til at genomene hovedsakelig er rettet mot vekst, mens andre ser ut til å krympe (Leitch et al., 1998; Kellogg and Bennetzen, 2004; Hawkins et al., 2009). Vi vet ikke hvorfor en bestemt plantelinje trender i en eller annen retning, om disse trender er forårsaket av nye mønstre i TE-forsterkning eller fjerning, eller i hvilken grad utvalg på genomstørrelse (Bennett, 1972) spiller en rolle i dette prosess. Som en forutsetning for å forstå prosessene som differensielt regulerer genometsammensetning, er det nødvendig med studier for å undersøke detaljene for genomdynamikk i et sett nært beslektede og genetisk trekkbare arter.

Den panicoid gresslinjen er ca 26 millioner år gammel (Bennetzen et al., 2012) og inkluderer slike viktige avlinger som mais ( Zea mays ), sorghum ( Sorghum bicolor ), sukkerrør ( Saccharum spp.) Og perlehirse ( Pennisetum glaucum ) . Mais- og sorghumgenomene er blitt sekvensert og omfattende annotert (Paterson et al., 2009; Schnable et al., 2009), slik at de gir grunnlag for genetiske analyser innenfor panicoids. For et hvilket som helst fullgenom til full-genomsammenligning, gir en enkelt art ett datapunkt. Derfor krever en hvilken som helst fullgenomanalyse i panicoidsene analyser av flere arter, men dette er dyrt på fullgenometernivået med nåværende sekvens-sekvenseringsteknologi. Prøve-sekvensanalyse (SSA) (Brenner et al., 1993; Devos et al., 2005; Liu et al., 2007) bruker statistisk analyse av et lite og tilfeldig utvalg av sett av DNA-molekyler for å gi et alternativ til full-genom-studier . Fordi full-genom-analyse vanligvis underrepresenterer repeterende DNA (på grunn av utfordringer i deres sammenstilling), kan et tilfeldig utvalg av DNA som bidrar til en SSA, gi en mer nøyaktig beskrivelse av de repeterende DNAene enn til og med en "fullført" genomsekvens (Liu og Bennetzen, 2008).

Dette manuskriptet rapporterer en SSA om innholdet og utviklingen av de store repeterende DNAene i syv panicoidgress, med primær konsentrasjon på Andropogoneae stammen som inkluderer mais, sorghum og sukkerrør. De primære spørsmålene som undersøkes er (1) arten av det repeterende DNA-innholdet i disse genomene, (2) hvordan disse gjentatte innholdene varierer kvalitativt og kvantitativt og (3) timing og molekylære mekanismer som er ansvarlige for linjespesifisiteten av gjentatt innhold. Resultatene gir et vindu på dynamikken i genomstørrelsesvariasjon, som indikerer TE-amplifikasjonstendenser som er etablert ved dokumenterbare tider i bestemte linjer, kombinert med en dominerende trend mot forsterkninger av LTR retrotransposonfamilier som ikke er sterkt forsterket i nært beslektede linjer.

resultater

De fire mest omfattende gjentakelsene i fem panicoid gressarter

AAARF-aggregater (for P. glaucum, S. officinarum og S. propinquum ) og genom-sekvens-inspeksjon (for S. bicolor og Z. mays ) ga resultatene vist i tabell 1. I selv de minste genomene er de av de to Sorghum- artene, ble det funnet flere repetisjoner som utgjorde> 1% av totalgenomet. I hvert tilfelle var det største bidraget fra en LTR retrotransposon-familie, selv om dette var en annen familie i hvert slekt.

Full størrelse bord

Huck- familien ble funnet å være et rikelig element i de fleste panikoider som ble undersøkt, blant de topp fire i mais og perlehirse, og den sjette mest omfattende LTR retrotransposon i S. propinquum . Huck- elementet er imidlertid bare et middelrepetitivt DNA i S. bicolor (Peterson et al., 2002) og ble ikke sett i vårt sukkerrør datasett (data ikke vist). Dette elementet er fraværende fra riset ( Oryza sativa ) genomet, selv ved en e-verdi av 1E-01. Leviathan er en felles mest omfattende familie blant S. propinquum og Saccharum arter, men har et mye lavere kopi nummer i S. bicolor (Peterson et al., 2002). Leviathan er et middelrepetitivt DNA i B73 mais, men ingen av elementet er intakt (det vil si med to justerbare LTRs), slik at denne TE ikke har vært aktiv i svært lang tid, og dermed ble savnet med det intakte elementfunnet rørledning anvendt av Baucom et al. (2009). BLASTn analyse med Leviathan LTR i ris ga 14 kandidat homologer, med den laveste e-verdi homologi observert ved 4, 3E-10 (data ikke vist). Ji og Opie homologer finnes i både S. bicolor og O. sativa, men kopieringsnumrene overskrider ikke 50 i noen av disse linjene, og de er vanligvis funnet som svært degenerert TE uten intakte strukturer (data ikke vist). Figur 1 viser et kladogram med omtrentlige divergensdata utviklet i tidligere studier av Kellogg og kollegaer (Vicentini et al., 2008), med alle de undersøkte panicoid-artene, og indikerer tilsynelatende tidspunkt for potensiering (tilbøyelighet til fremtidig aktivering) av spesifikk LTR retrotransposon familier. De fleste av disse store aktiveringene korrelerer ikke med polyploidiens historie i disse linjene, med mulig unntak av Ji og Opie- aktiveringen som ser ut til å være basal for Zea- linjen (se nedenfor).

Den mest omfattende gjentakelser i genomene av mais og to teosinte arter

Selv om alle tre av Zea- artene undersøkt i denne studien er nåværende diploider, og delte en siste polyploidisering for noen få millioner år siden (Swigonova et al., 2004), varierer deres genomer nå sterkt i størrelse. Z. luxurians tilgang G-5 og G-42 ble målt som 4481 og 4525 Mb, sammenlignet med henholdsvis 2589 Mb og 2365 Mb for Z. Diploperennis accession 1190 og B73 mais (Laurie og Bennett, 1985). Årsaken til denne varianten av genomets størrelse er ikke kjent. Derfor sekventerte vi 1112 tilfeldig valgte plasmidkloner fra G-5 og 1122 tilfeldig valgte plasmidkloner fra G-42 for Z. luxurians. De sekvenserte Z. diploperennis og Z. mays kloner nummererte henholdsvis 1085 og 1152. Gjennomsnittlige lese lengder for disse fire genomene samplet var henholdsvis 722, 744, 771 og 672 bp.

Den all-versus-all BLASTn indikerte at 29-35% av sekvensene ikke var svært repeterende, 9-10% av sekvensene ble funnet i to eksemplarer, 31-41% av sekvensene var i 3-10 kopier og 15 -29% av sekvensene var i meget høyt kopieringsnummer (11 eller flere sekvenser i hvert bibliotek). Alle de repeterende sekvensene ble annotert for arten av gjentakelsen.

Selv om fire gjentatte databaser ble brukt til å annotere sekvensene, var TIGR Plant Repeat Database (Ouyang og Buell, 2004) i stand til å identifisere de fleste sekvensene i biblioteket (63, 1-69, 9%). De resterende tre gjentatte databasene bekreftet primært annoteringen som ble avledet fra TIGR-databasen. MAGI var den eneste databasen som ga annoteringer ikke tilgjengelig i TIGR-gjenta databasen. Alle sekvensene som var unikt annotert med MAGI, var statistisk definerte gjentagelser som ikke er eksperimentelt verifisert. Videre ble de funnet bare som en delmengde av 2-3 eksemplarer repetisjonsklassen, og ble derfor ikke brukt i nedstrømsanalyse. Ved å bruke TIGR-annotasjonen og informasjonen fra alle versus-alle resultatene, ble hver sekvens gruppert i en bestemt klasse (tabell 2). De ikke-høyt repeterende sekvensene komponerte ~ 22-29% av de fire samplede genomene. LTR retrotransposons bidro med den største prosentandel av prøvene, fra ~ 51-61%, med Z. mays som hadde den største prosentandelen av de fire prøvet. Prosentandelen av knottesekvensen i prøvene varierte fra 1, 1% i Z. mays til nesten 17% i Z. luxurians (G-42), hvilket indikerer et meget høyt kopiantal (~ 150 000 eksemplarer i B73 mais til ~ 4 320 000 eksemplarer i G-42 Z. luxurians ) for denne 180 bp tandem gjenta. Hver av de fire prøvene inneholdt også ukjente gjentagelser som varierte fra ~ 8-10% av prøven. De resterende tre gruppene, ribosomale gjentakelser, sentromere-spesifikke repeter og DNA-transposoner, hadde relativt liten overflod og viste ingen statistisk signifikant variasjon over prøvene.

Full størrelse bord

Selv om den ovennevnte analysen indikerer at repeterende DNA, spesielt TE, er de viktigste determinanter av genomstørrelsesvariasjon i disse Zea- artene, indikerer det ikke hvilke av de mange hundre TE-familier som har vært de viktigste bidragsyterne til denne varianten. For bedre å forstå forholdet mellom disse repeteringene og genomstørrelsesvariasjonen i slekten Zea ble de mest omfattende repeterende elementene brukt til å estimere deres totale kvantitative bidrag til hvert genom. Kopiaelementene ble funnet å ha bidratt ~ 425-485 Mb til Z. diploperennis og Z. mays genomene, i motsetning til ~ 750-920 Mb til de to Z. luxurians genotypene. Forskjellen i relativ overflod av disse elementene mellom den mindre genomet gruppen og den større genomet gruppen er statistisk signifikant (basert på en permutasjonstest med en 95% cutoff-verdi). Gypsyelementene utgjør ~ 670 Mb av Z. diploperennis- genomet, ~ 830 Mb av Z. mays- genomet, og ~ 985-1200 Mb av Z. luxurians- genotyper. I denne analysen er forskjellene mellom både de mindre genomene og mellom de mindre og større genomgrupper også statistisk signifikante. 180-bp knopprepetisjonen bidrar kun til 27 Mb til B73- maisgenomet, sammenlignet med ~ 117 Mb for Z.-diploperennisgenomet og ~ 588-778 Mb for de to Z. luxurians- genene. Den ribosomale repeteringsgruppen viste ingen statistisk signifikante forskjeller mellom noen av genomene, med estimater på 15-47 Mb.

Spesifikk gjentatt familie og subfamilie bidrag til genomstørrelse variasjon i Zea

Elleve familier av copia LTR retrotransposons og 14 sigøynerfamilier ble identifisert i den svært repeterende SSA-kategorien. Tabell 3 viser de fire mest omfattende gjentagelser i hver av disse genomene. Som det fremgår, viser enkelte familier store kvantitative forskjeller over Zea- artene, men er i stor grad kongruente for de mest berømte familiene. Videre stemmer dataene for B73-mais med denne analysen i stor grad med den silicoanalysen som presenteres i tabell 1. Den samme prosedyren som ble brukt for å estimere Mb for de store gruppene av gjentakelser ble fulgt individuelt for de mest solgte copia- og sigøyfamiliene (figur 2) . Ji- familien er estimert til ~ 200-300 Mb i de fire Zea- genene, med statistisk signifikante økninger i Z. luxurians (G-42) genotype sammenlignet med de to mindre genomene. Opie familien er estimert til ~ 110-260 Mb av de fire genomene, med statistisk signifikante økning i overflod i de større genomene sammenlignet med de mindre genomene. Dette gjelder også for Prem- familien, med estimater fra 55-230 Mb. For sigøynerelementer ble de fem mest omfattende familier brukt til å estimere deres MB-bidrag til hvert genom. Statistisk signifikante reduksjoner ble observert i Z. mays i forhold til de andre tre genomene for Cinful (~ 63-135 Mb), Gyma (~ 24-93 Mb) og Zeon (~ 68-150 Mb), men ingen signifikante forskjeller ble observert mellom den mindre Z. diploperennis og de større Z. luxurians genomene. Huck- familien viste det motsatte mønsteret, med Z. diploperennis (~ 159 Mb) som hadde det minste estimatet og var statistisk forskjellig fra de gjenværende genene (~ 390-522 Mb), mens ingen signifikante forskjeller ble observert mellom de større Z. luxurians og mindre Z. mays genomene for denne LTR retrotransposon. Endelig viste Xilon- familien ingen signifikante forskjeller mellom de fire genomene, med estimater på 66-125 Mb.

Full størrelse bord

Megabaser av DNA bidratt med LTR retrotransposons i fire forskjellige Zea genomer: ( a ) tre copia LTR retrotransposon familier; ( b ) fem gypsy LTR retrotransposon familier. Gjennomsnittlige verdier på 1000 bootstrap-replikater (95% CI) er indikert.

Full størrelse bilde

Vi brukte nabo å bli med i trær for å finne bevis for sekvensforskjeller mellom elementer i samme klasse eller familie som kan bidra til å identifisere eventuelle relaterte forhold til amplifikasjonshendelser som ble indikert av vår SSA. De tre høykopi copia- elementene ( Ji, Opie og Prem ) ble justert ved hjelp av integrasegenet (Figur 3). Totalt 851 sekvenser ble annotert som en av disse copiafamiliene : av disse sekvensene delte bare 39 (4, 5%) tilstrekkelig homologi med integrrasegenet. En enkelt sekvens for integrasegenet fra hver familie ble identifisert i S. bicolor og brukt som utgruppe i den fylogenetiske rekonstruksjonen. Copia- fylogrammet viser tre hovedklynger, en hver for familier undersøkt. Prem clade er delt inn i to underklasser med sterk oppstartsstøtte.

Nabo går med tre av tre store rikelig copiafamilier fra fire Zea- genomer, generert fra en aminosyrejustering av integrasegen-sekvensene. Bootstrap-verdier> 50 er rapportert.

Full størrelse bilde

Et andre tre ble konstruert ved hjelp av revers transkriptase-sekvensen i Huck- elementet, den eneste sigøynerfamilien med nok sekvenser for å bygge et tre (Figur 4). Av de 559 sekvensene som ble annotert som Huck, delte bare 19 (3, 5%) tilstrekkelig homologi med revers transkriptase-genet. En kopi av Huck- elementet i S. bicolor ble brukt som en out-gruppe. Huck fylogenetisk treet viser to forskjellige klaser med høy oppstartsstøtte. En klynge inneholder sekvenser fra alle fire genotyper, men den andre klyngen inneholder bare Z. mays og Z. luxurians sekvenser.

Nabo som slår seg sammen med tre av en sigøynerelementfamilie, Huck, fra fire Zea- genomer, generert fra en aminosyrejustering av revers transkriptase-gensekvensene. Bootstrap-verdier> 50 er rapportert.

Full størrelse bilde

Et tredje tre ble konstruert fra nukleotidjusteringen av 180-bp knopprepetisjonen (data ikke vist). Av de 396 sekvensene som ble notater som knopprepetater, ble 380 (96%) lett justert. En kopi av en lignende ~ 180 bp tandem gjentagelse fra sorghum ble brukt som en ut-gruppe for fylogenetisk treet. Dette treet inneholdt en enkelt avledet klynge med høy oppstartsstøtte, og knoppsekvenser fra de fire taxa ser ut til å være tilfeldig spredt blant alle grenene av treet. Disse Zea gjentar alle utviser en 6-bp sletting, en innsetting av 4 bp og en innføring av 5 bp i forhold til den tilsvarende S. bicolor- gjentakelsen.

Diskusjon

Effektiv og detaljert analyse av gjentatt DNA-innhold

SSA tillater analyse av de store repeterende komponentene i et genom uten den enorme kostnaden ved dyp sekvensering av hele genomet (Brenner et al., 1993; Devos et al., 2005; Liu et al., 2007). Fordi vi er interessert i de nøyaktige underfamilier av eventuelle gjentagelser som ble funnet, ble de korte lesene som er assosiert med "neste generasjon" sekvensering (Mardis, 2008) dømt som upassende. Lengre les gir omfattende dekning av cis- koblet variasjon som gjør det mulig å skille en element subfamili fra en annen (Baucom et al., 2009), mens svært korte lesninger fører til en samling som homogeniserer alle subfamilier i en enkelt polymorf samling. Med de små datasettene som ble generert med lengre Sanger-leser, var vi begrenset til bare de høyeste kopienummerreplikatene i hvert genom analysert, men målrettet mot disse elementene var formålet med dette prosjektet. I disse artene, hvor vi rutinemessig analyserer <0, 1% av genomet, må repetisjoner være tilstede ved kopi av minst noen få tusen for å bli sett på som repeterende i en all-versus-all BLAST-analyse, men selv innenfor dette gruppen, konsentrert vår analyse på 4-5 mest omfattende gjentakelser, slik at resultatene ville ha tilstrekkelig dybde for å rettferdiggjøre kvantitative sammenligninger.

Gjenta innholdet i syv panicoid gressarter

I denne studien har vi vist at bruk av en meget liten prøve av sekvenser fra et plantegenomet tillater oppdagelse og beskrivelse av de mest omfattende gjentagelser, og deres dynamikk, i høyere plantegenomer. De tilsvarende resultatene for to Z. luxurians- tilnærminger (G-5 og G-42) bekrefter begge strenge av denne SSA-tilnærmingen og viser at TE-dynamikken som observeres er karakteristisk for et takson, og ikke bare en enkelt samplet plante. Et mye større datasett av sammenkoblede Illumina-sekvenser fra Z. luxurians generert av Ross-Ibarra og kollegaer (Tenaillon et al., 2011) tillot en høyt kvantifiserbar analyse av TE-innholdsvariasjon i denne arten i forhold til mais. Tenaillon et al. (2011) fant svært lignende TE egenskaper til de som ble rapportert for Z. luxurians i vår studie (for eksempel økt Ji og Opie overflod), men kortheten i Illumina-lesene tillot ikke fylogenetisk analyse av de spesifikke LTR retrotransposon-underfamiliene som vi funnet å være ansvarlig for nyere genomutvidelser i Z. luxurians, Z. diploperennis og Z. mays .

Gruppering av tilfeldig sekvenserte kloner ved hjelp av en all-versus-all BLASTn-tilnærming identifiserer den samlede repeterende naturen av prøven og bidrar til å sikre at repeterende sekvenser ikke ble savnet under annoteringsprosedyren. I Zea- komponenten i denne studien var TIGR-gjentagelsesdatabasen i stand til å kategorisere de fleste sekvensene som ble identifisert som repeterende i vår prøve (> 60%). I en tidligere studie som brukte en lignende tilnærming til å undersøke genomene i slekten Gossypium, var det kun ~ 3, 5% av SSA-dataene som kunne annoteres ved hjelp av de høyt konserverte kodingsgenene som finnes i eksisterende gjentagelsesdatabaser for Arabidopsis og andre Brassica- arter (Hawkins et al. ., 2006). Dette illustrerer verdien av en høyverdig gjentagelsesdatabase fra en nær slektning av artene som er målrettet for genomanalyse.

Identifisering av de store repetisjonsklassene gir informasjon om den generelle sammensetningen av genomet. LTR retrotransposoner ble funnet å være den mest omfattende komponenten i alle de undersøkte genene, med gypsyelementer som vanligvis gir mest Mb av repeterende DNA. Imidlertid ble den mest omfattende LTR retrotransposonet i perlehirse funnet å være medlem av copia superfamilien, så den overordnede overvektigheten av sigøynerelementer er ikke absolutt. Faktisk er det i mindre plantegener, det er ganske vanlig at copia- elementer tilveiebringer så mye eller mer DNA enn gypsy superfamilien (Peterson-Burch et al., 2004; Zuccolo et al., 2007), hvilket indikerer at det er variasjon i sigøyneraktivitet som er det viktigste TE-fenomenet som påvirker genomstørrelsen.

Mønstre i gjentatt akkumulering på tvers av syv gressgener

Nå som det er kjent at balansen mellom TE (for det meste LTR retrotransposon) forsterkning og DNA fjerning prosesser er ansvarlig for genomstørrelse variabilitet i angiospermer (gjennomgått i Bennetzen et al., 2005) blir det viktig å undersøke hvorfor disse faktorene er så variabel i forskjellige plantelinjer. Er det noen TE-familier som er spesielt sannsynlig å være hyperrike, og er det tilstedeværelsen (enten vertikalt eller horisontalt overført) av disse familiene i en aktiv form som stiller krav til avledningsexpansjon? Eller har alle TEs muligheten til å forsterke til overordentlig høye tall gitt de rette miljømessige og genetiske forholdene?

Uavhengig aktivering av bestemte TE-familier i bestemte linjer

Analyse av genomene i syv gressarter indikerer at mange forskjellige LTR retrotransposoner kan bli de viktigste bidragsyterne til genomstørrelse. I noen tilfeller, som Huck- elementene som har vært svært aktive i alle disse syv artene, synes en tilsynelatende tendens til hyperforsterkning å være delt over flere millioner av år, men er sterkere manifestert i enkelte underlinjer enn i andre. Fordi DNA-fjerningsprosessene sletter de fleste bevis for at TE-innføring bare er få hundre tusen til noen få millioner år i gressgener (Devos et al., 2002; Wicker et al., 2003; Ma et al., 2004; Wang and Dooner, 2006), de delte Huck- forsterkningene i Pennisetum, Saccharum, Sorghum og Zea må ha skjedd uavhengig i løpet av de siste 2-5 millioner årene, lenge etter at disse slettene ble skilt. Lignende, men nyere, aktiveringer som deles av Zea for Ji og Opie og av Sorghum og Saccharuum- linjer for Leviathan, indikerer et tilsynelatende rutinemessig fenomen, og en som kan kartlegges til en bestemt tid og avstand på et fylogenetisk tre.

Denne studien ble ikke utformet for å undersøke horisontal overføring for noen av de identifiserte TE-ene. Slike undersøkelser krever omfattende analyse av flere mellomliggende arter over et nøyaktig utvalgte sett av linjer, med demonstrasjon av mer konserverte sekvenser for en TE mellom to fjerne slektninger enn for de TE i nærstående (Diao et al., 2005; Roulin et al., 2005; 2009). Selv når det er observert, kan slike datatrender også forklares ved utryddelse av noen TE-underfamilier i enkelte avstamninger. Selv om våre Ji- og Opie- data er kompatible med horisontal overføring assosiert med aktivering av hyperforsterkning av en bestemt subfamilie, vil det bli nødvendig med ytterligere analyser på tvers av flere Andropogoneae for å underbygge denne muligheten. Som vist i figur 1 kan genomisk sjokk assosiert med polyploidi ikke ha vært en faktor i tidspunktet for de fleste av disse TE-aktiveringshendelsene, men det betyr ikke at polyploidi kanskje ikke er en aktivator av TE i enkelte linjer. En mer omfattende analyse av TE-oppførsel i et bredere sett med nært beslektede linjer som er forskjellig i ploidi, er nødvendig for å løse dette punktet. Det er imidlertid kjent at et stort antall stress (Grandbastien, 1998) eller genetiske tilstander (Tsukahara et al., 2009) kan føre til en puls av TE-aktivering, noe som kan ta tusenvis eller millioner av år til å bli fullt undertrykt av planteværten.

En mulig LTR retrotransposonaktivering ved polyploidi ble observert i vår studie, hyperaktivering av Ji og Opie i Zea- linjen. Denne aktiveringen ble ikke delt av Sorghum eller Saccharum, som ikke hadde noen oppdagede kopier av disse elementene. Det vil være utrolig interessant å bruke SSA-analyse på nærmere Zea- slektninger, som Coix (som ikke delte polyploiditetshendelsen i Zea ) og Tripsacum (som delte arrangementet) (Mathews et al., 2002) for å se hvor tett Ji og Opie hyper-akkumulering korrelerer med tidspunktet for polyploidien. Tilstedeværelsen av Ji og Opie i Zea, men ikke i Sorghum eller Saccharum, kan indikere horisontal overføring av disse elementene til Zea fra en ennå uoppdaget kilde, men de kan også skyldes utryddelse av inaktivt (og dermed lavkopi-nummer) Ji og Opie- familier etter sekvensnedbrytning eller ved segregering.

De høyt amplifiserte LTR retrotransposons i en linje er fraværende eller tilstede ved lave kopi tall i mer fjerne slektninger (for eksempel i ris for Huck, i Sorghum for Ji og Opie og i Zea for Leviathan ), så hyperforsterkning er ikke en pålitelig familieegenskaper. Derfor antyder den enkleste modellen at hvilke LTR retrotransposonfamilier blir mest forekommende i et genom er et stokastisk utfall. Selv om mange LTR retrotransposons, av både zigenar og copia superfamilier, kan bli de store genomstørrelsesdeterminanter i planter, er det ikke klart at alle kan gjøre det. Det er heller ikke klart hvilke forhold som tillater at en bestemt elementfamilie i en bestemt avstand (for eksempel Huck i panicoidgressene) sendes videre i et skjema som øker sin sjanse for påfølgende aktivitet, selv titalls millioner av år etter dette potensialet var bestemt.

For å undersøke genomets dynamikk i detalj, gir dramatiske hendelser over korte evolusjonære tidsrammer de optimale mulighetene. Den nærmeste dobling i de siste 1-2 millioner årene av genomstørrelse i Z. luxurians, uten polyploidi, sammenlignet med Z. diploperennis og Z. mays, gir et utmerket studiesystem (Laurie og Bennett, 1985). Genomstørrelse er også kjent for å være ganske variabel (> 40%), selv innenfor Z. mays, men dette er for det meste assosiert med svært forskjellige mengder av B-kromosomer og / eller knopprepetater (gjennomgått i Poggio et al., 1998) bygge opp ved tilfeldige eller utvalgte segregeringsprosesser. Imidlertid kan TE som er spredt om genomet ikke lett konsentreres ved enkel segregering, så vi følte en etterforskning av gjentatt innhold i mais, Z. luxurians og Z. diploperennis ville være informativ.

Ved hjelp av annotasjonen av både de store repetisjonsklassene og familiens mangfold av retroelementer, var vi i stand til å estimere mengden svært repeterende sekvenser og sammenligne dem på tvers av fire prøver ved hjelp av en standard bootstrap-statistikk for å støtte våre observasjoner med 95% konfidensintervaller. I de store repetisjonsklassene fant vi en rekke statistisk signifikante forskjeller mellom overflodene av ulike gjentagelser i de større Z. luxurians genomene og de to mindre genomene. Mangelen på signifikant forskjell for de ribosomale RNA-repetisjonene fungerte som en basislinje for å måle annen gjentattynamikk. Vi fant en nesten todelt forskjell i Mb estimatene for kopiaelementene mellom de mindre genomene ( Z. mays og Z. diploperennis ) og de to Z. luxurians genomene. En lignende tosidig forskjell i estimater ble også påvist for gypsy- TE, noe som tyder på at en enkel bred amplifikasjon av LTR retrotransposons fra begge disse superfamiliene var ansvarlig for den dramatiske veksten av Zea luxurians- genomet. Imidlertid undersøkt på det enkelte familievennivå var disse endringene mye mindre ensartede enn forventet.

Gjenta dynamikken og utviklingen av gressgenomet innhold

Flere forskjellige LTR retrotransposon familier (for eksempel Ji, Opie og Prem ) var dramatisk mer rikelig i Z. luxurians sammenlignet med de to mindre genomene. Imidlertid synes Cinful, Gyma og Zeon- familiene å ha forsterket mer aktivt i både det lille Z. diploperennis- genomet og de store Z. luxurians- genotypene i forhold til Z. mays . I kontrast var Huck- familieforsterkningen mest dramatisk i Z. mays og Z. luxurians genotyper i forhold til Z. diploperennis- genomet. Selv om fylogenetiske studier ikke har vært klart om Z. luxurians er mer nært knyttet til Z. mays og eller Z. diploperennis, den delte forsterkningen av Huck i Z. luxurians og Z. mays (Figur 4) som ikke ble delt med Z . diploperennis støtter en nyere felles linje for luxurians / mays, og dermed begrunnet relativiteten til disse taxaene vist i figur 1. Fra dette perspektivet var det meget høye nivået av Cinful, Gyma og Zeon- amplifikasjoner som var felles for Z. luxurians og Z. diploperrenis var ikke delte hendelser, men lignende utfall av TE som ble uavhengig aktivert, og denne tolkningen støttes av fylogenetiske trær for disse kopiaelementene (figur 3), som har mange klynger som består av elementer fra bare én art.

Det siste store repeterende DNA som ble undersøkt var knopprepetisjonen. For denne tandem satellittrepetisjonen ble det registrert en femfold forskjell mellom de to mindre genomene, som utgjør ~ 20% av genomstørrelsesforskjellen mellom disse to genomene. En 25- til 30-foldsøkning ble også påvist i Z. luxurians- genotypene i forhold til Z. mays- genomet. Denne forskjellen står for ~ 15-17% av variasjonen i genomstørrelse sett mellom de minste og større genomene.

Ved å ta hensyn til de tre primære klassene av svært repeterende sekvenser ( copia, gypsy and knob repeats), kan vi forklare ~ 45-50% av variasjonen mellom de to mindre genomene og de to større Z. luxurians genomene. Gitt det store antallet LTR retrotransposon familier som har endret seg dramatisk i deres overflod, er det sannsynlig at differensial forsterkning / overflod av LTR retrotransposon familier som utgjør> 15% av maisgenomet (SanMiguel og Bennetzen, 1998; Baucom et al., 2009) gir noe av den ekstra genomstørrelsesvariasjonen. Aktive sigøynerelementer som i stor grad påvirker genomstørrelsen, har også blitt vist i Oryza og Gossypium- arter (Hawkins et al., 2006; Piegu et al., 2006). Imidlertid, i motsetning til disse tidligere studier, er det ikke en familie eller to av LTR retrotransposons som i stor grad har bestemt seg for nylig genomstørrelsesendring i Zea . I stedet, et kombinert utfall av mange forskjellige familieaktiviteter, økte noen i stor grad, noen mindre aktive, og noen som ikke forsterket i det hele tatt, har vært ansvarlige for de store forskjellene i Zea genomstørrelser. En lignende historie synes å være troverdig i Arabidopsis, der, selv under påvirkning av mutasjoner som reduserer epigenetisk silencing som holder de fleste TEs transkripsjonelt og transposisjonelt hvilende, viser aktivering av hver av flere familier unike mønstre av timing og amplifikasjonsintensitet (Tsukahara et al., 2009).

Med den detaljerte SSA-analysen av Zea- genomdynamikken blir det klart at enkle modeller av genomvekst på grunn av hyperaktiviteten til et enkelt eller lite antall familier av LTR retrotransposons ikke er tilstrekkelige for å forklare all dramatisk genomstørrelse variasjon i planter. Sammenlignet med Z. mays viser det nesten todelt større Z. luxurians- genomet høyere MB-bidrag fra mange forskjellige TE-familier av både copia og zigenareelementer (for eksempel Cinful, Gyma, Ji, Opie, Prem, Zeon ), men ingen åpenbare endre for andre (for eksempel Xilon ) og mindre forsterkning av en spesielt rikelig familie, Huck, sammenlignet med Z. mays . Derfor kan en blanding av flere TE-familier med svært forskjellige aktivitetsnivåer føre til utvidelse av relative genomstørrelser hvis forsterkerne er overveiende. Som vist for sammenligningene over panicoids, vet vi ennå ikke hvorfor, eller har noen verktøy for å forutsi hvilke av disse TE'ene som vil bli aktive i en gitt avstand, hvor lenge de vil fortsette å være aktive, eller hvor tungt de vil forsterke. Det er behov for ytterligere søk for TE-overføringen med høy aktiveringspotensial som er angitt i denne studien. Disse studiene skal forfølges på tvers av flere plantelinjer, med passende fylogenetisk utvalg og dybde for forfølgelse, for å bidra til å utjevne mønstre i TE-aktivitet og evolusjon som har vært ansvarlig for det store spekteret i genomforskjell som vi nå observerer.

Data arkivering

Data generert i denne studien ble deponert i GSS-avdelingen av GenBank med tiltaksnummer JY127741-JY133169 og JY133584-JY136902.

tiltredelser

GenBank / EMBL / DDBJ

  • JY127741
  • JY133169
  • JY133584
  • JY136902

Anbefalt Redaksjonens