Bun venit la MSTMap

Sursă Originală: http://alumni.cs.ucr.edu/~yonghui/mstmap.html

MSTMap este un instrument software care este capabil să construiască hărți de legături genetice eficient și precis. Poate gestiona diverse populații de cartografiere, inclusiv BC1, DH, Hap și RIL, printre altele. Instrumentul construiește harta legăturii genetice construindu-se mai întâi un arbore minim Spanning Tree (MST) și, prin urmare, numele MSTMap. Algoritmul implementat în MSTMap este foarte eficient și se poate ocupa de hărți ultradensibile de până la 10.000 ~ 100.000 de markeri. Conform studiilor noastre experimentale, atunci când calitatea datelor este ridicată, precizia hărților produse de instrumentul nostru este la fel de bună ca cea a celor mai bune instrumente disponibile în literatură. Cu toate acestea, atunci când datele sunt zgomotoase, hărțile generate de algoritmul nostru sunt semnificativ mai bune.

Cum se utilizează MSTMap

Va trebui să descărcați codul sursă și să îl compilați pe o mașină Linux. Pentru a utiliza MSTMap, trebuie să specificați 2 parametri: input_file și output_file . Următoarea linie de comandă demonstrează utilizarea MSTMap: 

MSTMap example.txt example_map.txt

Formatul fișierului de intrare

Fiecare fișier de intrare este format din două părți, antetul și corpul. Vă rugăm să consultați example.txt pentru un exemplu.

  • Antetul conține întotdeauna următoarele rânduri, unde <para1>, …, <para12> reprezintă locurile pentru a specifica diferiți parametri.population_type    <para1> 
    population_name    <para2> 
    distance_function    <para3> 
    cut_off_p_value    <para4> 
    no_map_dist    <para5> 
    no_map_size    <para6> 
    missing_threshold    <para7> 
    estimation_before_clustering    <para8> 
    detect_bad_data    <para9> 
    objective_function    <para10> 
    number_of_loci    <para11> 
    number_of_individual    <para12> 
  • <para1> specifică tipul de populație de mapare utilizată. Valorile posibile sunt DH și RILd , unde d este orice număr natural. De exemplu, RIL6 înseamnă o populație RIL din generația 6. Trebuie să utilizați DH pentru orice populație care implică numai două stări genotip distincte (chiar dacă nu este o populație DH), care include BC1, DH, Hap și RIL avansat.
  • <para2> dă un nume pentru populația de cartografiere. Poate fi orice șir de litere (az, AZ) sau cifre (0-9).
  • <para3> specifică funcția de distanță care trebuie utilizată. Posibilele alegeri sunt kosambi și haldane , care se referă la funcțiile de distanțe ale lui Kosambi și Haldane folosite de obicei.
  • <para4> specifică pragul care trebuie utilizat pentru gruparea markerelor în LG. O alegere rezonabilă a p_value este 0.000001. Alternativ, utilizatorul poate dezactiva această caracteristică prin setarea <para4> la orice număr mai mare de 1. Dacă utilizatorul face acest lucru, instrumentul nostru software presupune că toți markerii aparțin unui singur grup linakge.
  • <para5> și <para6> împreună permit identificarea indicatorilor rău. În cartografiere genetică cu densitate mare, markerii răi par să fie izolați de ceilalți. MSTmap va detecta grupuri de markeri izolați și le va plasa în LG separate. Un grup de markeri izolat este un set mic de markeri cu o dimensiune mai mică sau egală cu <para6> și este mai mult decât <para5> departe de restul marcatorilor. O alegere rezonabilă pentru <para6> este 1 sau 2. Pentru a dezactiva această funcție, setați pur și simplu <para6> la 0.
  • De exemplu, dacă <para5> = 15 și <para6> = 2 , atunci orice grup a cărui mărime este mai mică de 2 și este la 15 centimorgans distanță de restul marcatorilor va fi plasat de unul singur într-un grup de legare.
  • Ocazional există markeri cu număr excesiv de observații lipsă. Acești markeri pot fi eliminați prin stabilirea valorii <para7> la o valoare corespunzătoare. De exemplu, dacă <para7> = 0.25 , atunci orice marker cu mai mult de 25% observații lipsă va fi eliminat complet fără a fi cartografiat.
  • <para8> este un stegaj binar care poate fi setat la da sau nu . Dacă parametrul <para8> este setat la da , atunci instrumentul nostru software va încerca să estimeze datele lipsă înainte de a grupa markerii în grupuri de legare.
  • <para9> este un stegaj binar care poate fi setat la da sau nu . Dacă <para9> este setat la da , atunci instrumentul nostru software va încerca să detecteze date nepotrivite în timpul procesului de construire a hărții. Aceste date despre genotipuri suspecte vor fi tipărite în consola pentru a fi verificate de utilizator. Funcția de detectare a erorilor poate fi dezactivată prin setarea <para9> la nr .
  • <para10> specifică funcția obiectivă care trebuie utilizată. Posibilele alegeri sunt COUNT și ML . COUNT se referă la suma obișnuită a funcției obiectivului de recombinare a evenimentelor și ML se referă la funcția obiectivului de probabilitate maximă utilizată în mod obișnuit.
  • <para11> specifică numărul total de markere din setul de date.
  • <para12> specifică numărul total de linii de cartografiere din setul de date.
  • Corpul fișierului de intrare conține un tabel de dimensiune (m + 1) * (n + 1), unde m este numărul total de markeri (care este egal cu valoarea <para11> ) și n este numărul total de cartografiere linii (care este egal cu <para12>valoare). Primul rând dă ID-urile pentru liniile de cartografiere, în timp ce prima coloană dă ID-urile pentru markerii genetici. Fiecare id este un șir de litere (az, AZ) sau cifre (0-9). Nu este permisă niciun spațiu într-un id. Fiecare celulă din tabel se referă la starea de genotip a unei anumite linii de cartografiere pe un loc specific al markerului. Stările genotipului pot fi specificate cu literele “A”, “a”, “B”, “b”, “-“, “U” sau “X”. “A” și “a” sunt echivalente, “B” și “b” sunt echivalente și sunt “-” și “U”. “U” și “-” indică apelul genotip lipsă. Dacă setul de date este dintr-o populație RIL, puteți folosi “X”

Cum se interpretează fișierul de ieșire

Fișierul de ieșire este auto-explicativ și ușor de înțeles. Pur și simplu enumeră markerii din fiecare grup de legături.Distanțele genetice dintre markere sunt de asemenea disponibile din fișierul de ieșire. Consultați exemplu_map.txt pentru un exemplu.

Descărcări

Sample Input este un set de date sintetic cu 100 de linii de cartografiere și 100 de marcatori. Marcatorii sunt distanțați la o distanță medie de 2 cM. 1% din lipsă și 1% din apelurile de genotip de eroare sunt introduse în setul de date în mod intenționat pentru a imita ce se întâmplă în realitate. Ordinea reală a marcatorilor este m0, m1, m2, …, m99 (sau invers).

Drepturi de autor

MSTMap este gratuită numai pentru uz academic. Pentru întrebări despre instrument, vă rugăm să contactați yonghui@cs.ucr.edu .