StrainSeeker

StrainSeeker je program za otkrivanje bakterijskih sojeva iz neobrađenih očitavanja sekvenciranja. U usporedbi s drugim sličnim programima nudi sljedeće prednosti:

• Potpuno prilagodljiva baza podataka – koristite svoje vlastite vrste interesa ili preuzmite našu bazu podataka

• Otkrijte nove sojeve koji su povezani sa sojevima u bazi podataka

• Brzo rukovanje velikim količinama podataka

Snage StrainSeekera

• Točnost razine naprezanja

• Vrlo brzo – 1 Gbp podataka analiziranih u minutama

• Sveobuhvatni rezultati koji se lako analiziraju

• Može koristiti prilagođene baze podataka koje je izradio korisnik

• Ne temelji se na analizi jednog čitanja

• Može razlikovati poznate sojeve od njihovih bliskih srodnika

Ograničenja StrainSeekera

• Kvaliteta prilagođene baze podataka ovisi o stablu vodiča

• Zahtijeva umjerenu do visoku pokrivenost (0,1+) za identifikaciju sojeva

• Izrada prilagođene baze podataka zahtijeva 200+ GB HDD-a

Testiranje StrainSeekera na metagenomskim uzorcima

Uzorak 1 – veliki simulirani metagenom koji se sastoji od više od 800 bakterija i arheja

Ovaj je uzorak korišten u studiji koja je uspoređivala 14 postojećih alata za analizu metagenoma. Pogledaj publikaciju

Rezultati StrainSeekera | Uzorci (koristili smo Set_A1 i Set_B1) | Tablica kompozicije zajednice

Rezultati StrainSeekera izračunavaju se u prosjeku za dva skupa. Osjetljivost na razini roda StrainSeekera bila je 0,968, preciznost 0,995. Lažno negativni rezultati uglavnom su bili posljedica činjenice da ti sojevi nisu bili prisutni u našoj bazi podataka. Vrijeme identifikacije bilo je 12,3 minute.

Uzorak 2 – lažni metagenom koji se sastoji od 21 bakterije i gljivice

Ovaj je uzorak korišten u ranoj studiji koja je predložila upotrebu k-mera za identifikaciju soja. Pogledajte publikaciju

Rezultati StrainSeekera | Uzorak u FASTA formatu | Tablica sastava zajednice (korišteno je ‘parno’)

StrainSeeker je točno identificirao 20 sojeva bakterija (Actinomyces odontolyticus nije prisutan u našoj bazi podataka, kao ni gljivice). Vrijeme identifikacije bilo je manje od 5 minuta.

StrainSeeker – preuzimanje I instalacija

Verzija StrainSeekera za otkrivanje sojeva bakterija na vašem vlastitom UNIX poslužitelju služi za preuzimanje. Ako ste zainteresirani za analizu velikih količina podataka ili želite stvoriti vlastitu bazu podataka, ovo je verzija za vas. Za jednostavan pregled možete koristiti online verziju StrainSeekera.

Za vašu referencu, također nudimo priručnik, a u slučaju problema ili prijedloga, možete nas kontaktirati.

Upute za instalaciju

• StrainSeeker zahtijeva i PERL i R – stoga prvo njih trebate instalirati

• Da biste pokrenuli StrainSeeker, prvo preuzmite jednu od baza podataka i programa (navedeno u nastavku – 1. i 2.).

• Ekstrahirajte sve datoteke u poseban direktorij za StrainSeeker. Baza podataka se nalazi u vlastitom poddirektoriju (direktorij je već kreiran, samo upotrijebite tar -xzvf za raspakiranje) 

• Svi programi i skripte trebaju biti u glavnom direktoriju, ali ne U direktoriju baze podataka

• Konačno, samo pokrenite ili “perl seeker.pl” za otkrivanje sojeva ili “perl builder.pl” ako želite izgraditi vlastitu bazu podataka.

Preuzimanja

Sva preuzimanja prikazana ovdje su samo za UNIX (Programi GenomeTester4 paketa su kompajlirani za UNIX). 

OSX verzije će uskoro biti dostupne. StrainSeeker za Windows neće biti dostupan.

1. Baza podataka – unaprijed izgrađena od 4324 NCBI RefSeq sojeva (w32) | (18,5 GB) Zadnje ažuriranje 10. veljače 2016., preporučeno 

2. Baza podataka – unaprijed izgrađena od 4324 NCBI RefSeq sojeva (w16) | (4,5 GB) Zadnje ažuriranje 21. veljače 2017

3. StrainSeeker programi i skripte posljednje ažuriranje 10. veljače 2016

Seeker skripta

Builder skripta

Pomoćne skripte – GTester4 i R skripte

4. Neobavezne podatkovne datoteke i skripte Posljednje ažuriranje 10. veljače 2016

• Crna lista – datoteka koja sadrži popis ljudskoh i plazmidnih k-merova | (w = 32). Neobavezno tijekom izgradnje prilagođene baze podataka (13 GB)

Newick-format stablo (4,324 sojeva) | Samo za vašu referencu, NIJE POTREBNO za StrainSeeker 

Info datoteka – info datoteka baze podataka u slučaju da vaša bude oštećena

Priručnik

Sadržaj

• Upute za instalaciju

Preduvijeti:

  •  Sustav
  • Programima
  • Baza podataka
  • veličini
  • Izrada baze podataka
  • Trebam li koristiti crnu listu?
  • Sadržaj
  • Podstabla
  • Parametri i njihov učinak
  • Traži
  • Proces pretraživanja
  • Prilagođeni parametri
  • Stvaranje crne liste
  • Opisi datoteka

Upute za instalaciju

Da biste pokrenuli StrainSeeker, prvo preuzmite bazu podataka i programe.

Ekstrahirajte sve datoteke u poseban direktorij za StrainSeeker. Baza podataka se nalazi u vlastitom poddirektoriju (direktorij je već kreiran, samo upotrijebite tar -xzvf za raspakiranje)

Svi programi i skripte trebaju biti u glavnom direktoriju, ali ne U direktoriju baze podataka

Konačno, samo pokrenite ili “seeker.pl” za otkrivanje sojeva ili “builder.pl” ako želite izgraditi vlastitu bazu podataka.

Preduvjeti

Zahtjevi sustava:

Programi potrebni za pokretanje StrainSeekera:

Programi potrebni za pokretanje StrainSeekera:

  • Builder
    • GenomeTester4 programi:
      • GlistMakerGlistCompareGlistQuery
      • GDistribution
  • Seeker

Baza podataka

Struktura i veličina

Ukupni prostor potreban za stvaranje baze podataka je oko 200 GB, ali preporučuje se 300 GB (stvaraju se neke velike privremene datoteke u samom procesu koje se kasnije izbrišu). Strukturne informacije (kao što su parent/child nodovi, k-mer brojevi) pohranjuju se u maloj tekstualnoj datoteci info.txt, koja se nalazi u direktoriju baze podataka.

Stvaranje baze podataka

Primjer naredbe: perl builder.pl -n refseq_guide_tree.nwk -d strain_fasta_directory -w 32 -b ss_blacklist_w32.list -o my_database

  • -n je guide tree u Newickovom formatu, opisuje odnose između danih sojeva.
  • -d je direktorij koji sadrži sve .fna datoteke za sojeve koji se koriste u Newick datoteci.
  • -b je putanja do crne liste (mora imati istu duljinu k-mera kao parametar -w).
  • -w je duljina k-mera.
  • -o korisnički definirano ime baze podataka.

Mogu se koristiti dodatni parametri koji se mogu vidjeti dolje ili uz flag help: perl builder.pl-h

Potrebne datoteke:

  • Sastavljeni genomi sa sufiksom .fna
  • Guide tree u newick (nwk) format
  • NAPOMENA: Nazivi datoteka sastavljenog genoma moraju odgovarati nazivima koji se koriste u .nwk datoteci (bez .fna; pazite da underscoreove (_) pretvorite u razmake ako koristite MEGA)
  • PRIMJER: ako Newick datoteka sadrži genom pod nazivom “E_coli_MG1655”, tada fasta naziv datoteke mora biti “E_coli_MG1655.fna”

Sadržaj baze podataka

  • K-mer liste za svaki leaf i node (*.list)
  • •     Info datoteka koja opisuje relacije svakog noda kao i ukupni jedinstveni broj k-mera u njoj (info.txt)
  • Bijela lista – datoteka koja sadrži spoj dvije datoteke: jedne koja sadrži sve nodove i leafove koji se koriste prije svake pretrage križanja i druge koja sadrži uzorak. Lista K-merova je napravljena tako da ne prolazi kroz k-merove koji se u bazi podataka ne ponavljaju više puta
  • Subwhite – spoj svih rootova, koristi se nakon što se naprave bijele liste i križanja uzorka. Križanja s bijelom listom i križanja uzorka daju popis subroot k-mera prisutnih u uzorku. Svaki popis subrootova se zatim uspoređuje s ovim popisom i subrootovima koji premašuju opažene granice frakcije (po defaultu O>5%) koje se koriste u glavnom pretraživanju

Subtreeovi

Ovisno o veličini stabla i raznolikosti korištenih sojeva, neki nodovi (uključujući root) mogu biti bez k-mera. Stoga se višestruki subtreeovi automatski proizvode tamo gdje ukupni broj jedinstvenih k-mera u čvoru premašuje zadanu granicu (Builderov -m ili –min parametar). Stablo se također dijeli na subtreeve ako broj k-mera u nodeu premašuje prethodno spomenutu graničnu vrijednost, ali i dalje ima znatno manje k-mera od jednog od njegovih subnodeova (razlika se može postaviti s Builderovim parametrom -g ili –greater). Builder i Seeker automatski uzimaju u obzir subtreeve.

Builder parameteri i njihovi efekti

OpcijaOpis
-b, –blacklist.list datoteka neželjenih k-mera u bazi podataka (ljudi, plazmidi itd.). Korištenje crne liste tijekom izrade baze podataka daje točnije rezultate. Na primjer, slučajnim odabirom neki od k-mera iz sojeva dodanih u bazu podataka mogu sadržavati k-mere zastupljene i u ljudskom genomu. Kako mnogi klinički uzorci sadrže ljudsku DNK, rezultati prema nekim sojevima bi mogli biti iskrivljeni. Problem je izraženiji u slučaju plazmida koji se mogu integrirati u bakterijski genom ili potpuno izostati.
-w, –wordK-mer duljina (veličina riječi) koja se koristi u izgradnji baze podataka i kasnijem pretraživanju Ako je duljina k-mera vrlo kratka, u bazi podataka ima vrlo malo k-mera specifičnih za node. Na primjer, 3-mer sa sekvencom ATG vjerojatno se nalazi u sekvenci DNK svakog organizma. Što je duži k-mer to je specifičniji i broj svih k-mera iz sekvence se povećava. K-mer ne može biti predug zbog duljine očitavanja i činjenice da svaki SNP gubi k-mer iz uzorka.
-m, –minMinimalni broj k-mera u nodeu koji se smatra subroot.
-g, –greaterMaksimalno koliko puta child može imati više k-mera od parenta.
-t, –threadsBroj korištenih coreova.

Pretraga

Primjer naredbe: perl seeker.pl -i sample_file.fastq -d ss_db_w32 -o sample_result.txt

Proces pretraživanja

  • Info datoteka se čita iz db_name/info.txt
  • Uzorak se pretvara u k-mer listu
  • Pronalaženje subroota za početak pretraživanja
  • Pronalaženje subroota za početak pretraživanja
    • ako se koristi flag “-verbose”, prikazuje se process pretraživanja i pređenih putanja
  • Ispis rezultata u izlaznu datoteku (po defaultu StrainSeeker_output)

Parametri Seeker-a i njihov učinak

-verbose : Detaljno prikazuje proces pretraživanja tijekom izvođenja..

Stvaranje crne liste

  • Opcija 1: Koristite GlistMaker za stvaranje crne liste (može uzeti više FASTA datoteka kao input)
  • Opcija 2: Napravite popise sekvenci koje će se dodati na crnu listu i koristite MakeUnionMT.pl za spajanje ovih popisa u jedan veliki spojeni popis
  • Option 3: Preuzmite unaprijed napravljenu crnu listu

Opisi datoteka

  • Builder.pl – Perl skripta koja se koristi za izgradnju StrainSeeker baze podataka (zahtijeva: GenomeTester4 programe)
  • Seeker.pl – Perl skripta koja se koristi za pretraživanje iz StrainSeeker baze podataka (zahtijeva: GenomeTester4 programe, gDistribution, oe.R, cov.R)
  • GenomeTester4 programi: Link na Github
    • GlistMakerGlistCompare
    • GlistQuery
  • oe.R – R skripta koja se koristi za izračunavanje O/E omjera (Seeker.pl zahtjeva oe.R skriptu)
  • cov.R – R skripta koja se koristi za izračunavanje pokrivenosti (cov.R zahtijeva gDistribution, a Seeker.pl zahtjeva cov.R)
  • gDistribution – daje distribuciju frekvencija za zadanu k-mer listu (cov.R zahtjeva gDistribution, a Seeker.pl zahtjeva cov.R)
  • MakeUnionMT.pl – Perl skripta za izradu velikih spojeva k-mer lista (može se koristiti za izradu crne liste)

Kako intrepretirati rezultate?

  1. Slučaj 1 | POZNAT

StrainSeeker daje samo jedan soj kao rezultat. To znači da je soj prisutan u bazi podataka. Također je prikazan relativni postotak (%) svih identificiranih bakterija

# KNOWN 20%

Strain1

Rezultat gledan na stablu je jednostavan

  1. Slučaj 2 | VEZANO ZA GRUPU (dano je više sojeva)

Više od jednog soja kao i identifikator “RELATED TO GROUP” označava da soj pronađen u uzorku nije u bazi podataka. Prikazuje se popis najbližih srodnika. Dva primjera u nastavku su vrlo slična.

LEFT RIGHT

# RELATED TO GROUP 20% #REALTED TO GROUP 20%

Strain1 Strain1

Strain2 Strain2

Strain3 Strain3

  1. Slučaj 3 | VEZANO ZA GRUPU (dan je 1 soj)

Kada je dan samo jedan soj, ali je “RELATED TO GROUP”, vrijedi isto kao u slučaju 2. Novi soj najbliži je Soju1 (Strain1), ali nije Soj1. Kada se dogodi ova situacija, web alat također prikazuje novi čvor kako bi se novi soj razlikovao od poznatog.

Kontakt:

https://bioinfo.ut.ee/strainseeker/index.php?r=site/contact

Komentiraj