elemeket

absztrakt

Az asszociációs tanulmány egy népszerű tanulmányterv a komplex betegségek fogékonysági génjeinek azonosítására. Egy ilyen vizsgálatban a nem megfelelő minták jelenléte, például közeli rokonoktól származó vagy DNS-szennyeződést mutató minta, az I. típusú hiba felfúvódását vagy a teljesítmény csökkenését okozza. Itt javasolunk egy detektálási módszert, amely az alkalmatlan minták egyedi állapotainak (IBS) azonosságán alapul, figyelembe véve a kötés egyensúlyhiányát (LD). A vizsgálati statisztika azon allélok arányának átlaga, amelyek azonos állapotban osztoznak minden egyes nukleotid polimorfizmusban (SNP) az egyes mintapárok között az asszociációs vizsgálatban. A két SNP közötti megosztott allélek számának kovarianciáját vezetjük be az LD figyelembevételére. Megmutatjuk, hogy az I. típusú hibát és teljesítményt pontosan megbecsülik a számítógéppel szimulált adatokban, és hogy ha az elemzett SNP-k száma kicsi, akkor a nem megfelelő minták kimutatásának teljesítménye jobb, mint a szimulált LD előző módszere. A valódi asszociációs vizsgálatok adatainak alkalmazása azt mutatta, hogy a tesztstatisztikák eloszlásának becslésének pontossága javult, ha figyelembe vettük az LD-t. A testvérnek tekintett párok mintáit azonosították. Ezek az eredmények arra utalnak, hogy az LD-alapú IBS detektálási módszer hasznos lehet a nem megfelelő minták azonosításában egy társulási vizsgálatban.

Az asszociációs tanulmány egy népszerű tanulmányterv a komplex betegségek fogékonysági génjeinek azonosítására. 1 A közönséges betegség hipotézise (CD-CV) szerint az asszociációs vizsgálat ereje általában nagyobb, mint a betegségre érzékeny gének azonosítására szolgáló kötelező vizsgálat. A legtöbb asszociációs vizsgálat a betegséggel összefüggő genetikai markerek után kutat az esetek (betegség) és a kontroll (betegségtől mentes) populáció gyakoriságának összehasonlításával. A kötési egyensúlyhiány (LD) régiójában, amely megfelel a társított genetikai markernek, akkor egy betegségre érzékeny gén azonosítható. A közelmúltban az egy nukleotidos bialélikus polimorfizmusokat (SNP) széles körben használják genetikai markerként.

Számos előítélet vezethető be az eset- és kontrollasszociációs vizsgálatokban, ami nagyon fontos, hogy megfelelően kezeljük, mivel ezek jelentős I típusú hibák inflációját vagy teljesítményromlást okoznak. A minőségellenőrzés (QC), az elfogultság észlelésére és kiküszöbölésére szolgáló műveletsorozat olyan lehetséges okokat tartalmaz, mint a populáció rétegződése, a minta szennyeződése és a rejtélyes rokonság. 1, 3 A minta szennyeződése akkor fordulhat elő, ha a különböző egyedi eredetű mintákat tévesen keverik össze egy kísérleti folyamatban, például DNS-extrakcióban vagy SNP-tipizálásban. A kriptoid rokonság akkor figyelhető meg, ha néhány közeli hozzátartozót véletlenül bevonnak a vizsgálatba a kutatók tudta nélkül, ami I. típusú hibák inflációját okozhatja.

A kapcsolódó minták általános kimutatására valószínűségi arány tesztet javasoltak a genotípus vissza valószínűségén alapulva bizonyos összefüggésekben. 4 Családalapú vizsgálathoz egy korszerű identitás (IBS) 5, 6 módszert javasoltak a testvérpár kapcsolat hibáinak felderítésére, az IBS összegének felhasználásával egy testvérpár esetében. Ezzel szemben tizedazonosítási (IBD) módszert javasoltak (PLINK 7). A PLINK (//pngu.mgh.harvard.edu/purcell/plink/) a teljes genomadatok alapján becsüli a genommegosztási együtthatókat a teljes tartományban, a független minták között. Ez a mutató hasznos a minőségbiztosítás szempontjából a törzskönyvek hibáinak, a nem észlelt kapcsolatok és a véletlenszerű mintavétel, a duplikáció és a szennyezettség diagnosztizálásával. Kiszámítja az π̂-t (az IBD által megosztott allélek arányát) az egyes mintapárokra, és a szennyeződési eseményeket π̂-értékeknek tekintjük. Ezekben a korábbi tanulmányokban azonban feltételezték, hogy az SNP-k függetlenek egymástól, és az LD-t nem veszik figyelembe. Számos asszociációs vizsgálatban azonban az LD nem elhanyagolható az SNP markerek között.

Itt egy IBS-alapú detektálási módszert javasolunk a nem megfelelő minták (pl. Szennyeződés, közeli hozzátartozók) kimutatására egy asszociációs vizsgálatban, amely SN-markerekre támaszkodik LD-vel vagy anélkül. Értékeltük az I. típusú hibát és a javasolt módszer erősségét, és megbecsültük az SNP-markerek számára alkalmatlan minták észleléséhez szükséges SNP-k számát LD vagy linker egyensúlyban (LE). A javasolt módszert szimulációval hasonlítottuk össze az előző módszerrel. Végül, a javasolt módszer alkalmazása a valós adatok példájára az egész genomban való asszociáció vizsgálatában megmutatta vitánk gyakorlati jelentőségét.

az eredmény

Szimulációs tanulmány

Kiértékeltük az I. típusú hibát és teljesítményt (R = 2, 3, 4) a LE vagy LD mutató SNP markerek szimulációs adataiban (1. és 2. táblázat). Az I. típusú hibát és teljesítményt pontosan kiszámítottuk, feltételezve, hogy az Y eloszlása ​​normális eloszlás, E (Y) átlaggal és V (Y) varianciával mindkét esetben. Az LE esetében több mint 800 SNP-re volt szükség a szülő-gyermek minták helyes felismeréséhez (v̂ = 1) és a normál minták kizárásához az esetkontroll adatokból (ûN (N - 1)/2

kimutatása

ROC görbe az LD szimulációs adatokra alkalmazott IBD/IBS alapú módszerek teljesítményéhez (K = 200, N = 200). AUC 0,95 (IBD) és 0,96 (IBS) szülő-gyermek esetében, 0,92 (IBD) és 0,99 (IBS) szennyeződés esetén.

Teljes méretű kép

Noha az SNP-k száma nem elegendő a nem megfelelő minták pontos kimutatásához a 2. táblázat szerint, ezt a szimulációt egy asszociációs vizsgálatra összpontosítjuk, amelyben az SNP-k száma kevesebb, mint 1000. Ezenkívül megerősítjük, hogy nincs különbség a teljesítmény között a két módszer: 1000 SNP esetén, és hogy mindkét módszer pontosan felismeri a nem megfelelő mintákat (az adatokat nem mutatjuk be).

Valódi adatok elemzése

Az IBS-alapú módszert valós asszociációs vizsgálatokra alkalmaztuk, amikor megváltoztattuk az SNP-k számát (K = 200, 600, 1000 és 2665). Ezeknek a tényleges adatoknak általában gyenge az LD értéke (1. ábra). Normál eloszlással közelíteni lehetett az Y eloszlását, és w = 10 és w = 100 között alig volt különbség (3. ábra). Gyenge LD esetén az Y becslés pontosságát javítani lehetne az LD figyelembevételével. A kimutatott mintapárok számát pontosan meghatározta a normális eloszlás felső valószínűsége (3. táblázat). A megtalált párok két mintáját klinikai kutatók újból megvizsgálták, és a testvér kapcsolat valójában erősen javasolt.

Valódi esetek hisztogramja - kontrolladatok és Y elméleti eloszlása ​​(K = 1000, 2665). A küszöbérték s = 0,75.

Teljes méretű kép

Asztal teljes méretben

vita

Egy asszociációs vizsgálatban QC-k sorozatára van szükség a kutatás minőségének fenntartása érdekében. Ebben a tanulmányban a nem megfelelő minták kimutatására összpontosítottunk. A mai napig IBS-alapú detektálási módszereket javasoltak a családi tanulmányokban. Ezek a módszerek azonban nem vették figyelembe az LD-t a genetikai markerek között, ezért nem alkalmazhatók az LD-asszociációs vizsgálati adatokra. Az IBS-en alapuló új detektálási módszerünk figyelembe veheti az LD-t az kovariancia Y alkalmazásával, a javasolt módszer I. típusú hibáját és teljesítményét pedig szimulációs vizsgálat segítségével sikerült pontosan értékelni. Egy tipikus asszociációs vizsgálatban, amely csak néhány alkalmatlan mintát tartalmaz, az I. típusú hibát megfelelően értékelni kell, hogy elkerüljék a megfelelő minták véletlen kizárását. A szimulációs adatokban a javasolt módszer az alkalmatlan mintákat helyesen és pontosabban észlelte, mint az IBD-n alapuló módszer.

Szimulációs vizsgálatunkban a hamis pozitív számok száma drasztikusan csökken, ha több mint 1000 SNP-t elemeznek (2. táblázat), és a PLINK webhely is kimondja, hogy a teljes genom kiszámításához nagyszámú SNP-re (minimum 1000 független SNP-re) van szükség. Az IBD információkat szolgáltatott az IBS-ről. Ez együttesen azt jelenti, hogy több mint 1000 SNP-re van szükség a nem megfelelő minták kimutatásához. Néhány jelöltgén-megközelítésben azonban már meghatározták a célgéneket, és ezeken a géneken a tipizáló SNP-k száma kevesebb, mint 1000 SNP. Ebben az esetben a javasolt módszert javasoljuk.

A javasolt módszerben az s = küszöböt állítjuk be < E ( Y ∣ R = 1) + E ( Y ∣ R = 2)>/ 2. Az optimális küszöbérték beállítása a Bayes 6-os faktor alkalmazásával feltételezhető, hogy az Y eloszlása ​​a nem kapcsolódó (R = 1) és a nem megfelelő minták (szülő-gyermek (R = 2) és testvérek ( R = 3)). És így tovább). Mivel azonban a nem megfelelő minták általában ritkák, nehéz megbecsülni a kevert arányt és a nem megfelelő mintaeloszlás paraméterét. Tehát egyszerűen elfogadjuk az s = által definiált küszöböt < E ( Y ∣ R = 1) + E ( Y ∣ R = 2)>/ 2. Van hely tanulmányozásra arról, hogyan döntsön a küszöbértékről.

A javasolt módszerben virtuális erős LD régiót feltételeztünk egymást követő SNP-ként, és a Cov kovarianciát ebben a régióban számoljuk (Tk1, Tk2│R = 1). Mivel az LD minta az egész genomban változó, indokolt a kovarianciát az LD helyzetfüggő szélessége szerint figyelembe venni. A tényleges adatok eredményei azonban azt sugallják, hogy elfogadható egy erős LD területet több egymást követő SNP-ből álló régiónak tekinteni.

A valós adatalkalmazásban korábban kizártuk azokat a mintákat, amelyek sok hiányzó SNP-t tartalmaznak, vagy nagy arányban vannak heterozigóta SNP-k, mivel ez laboratóriumunk rutinszerű minőség-ellenőrzési folyamatának része. Valójában azt tapasztaltuk, hogy ezeknek a mintáknak a felvétele felfújja az Y szórást, ami viszont túlbecsüli az I. típusú hibát. Jelen QC eljárásunkban az LD-t nem tartjuk indokolatlanul magas arányú minták kimutatásának és kizárásának. heterozigóta. Az LD-t a javasolt módszerhez hasonló módon figyelembe vevő módszer használható nagy heterozigóta arányú minta kimutatására Tk = 1 alkalmazásával (a genotípus heterozigóta az SNP k esetében), Tk = 0 (a genotípus az SNP k esetében homozigóta) . Megjegyzendő, hogy a nem reciprok, egyirányú szennyeződés, amelyben a B minta szennyezett az A mintával, míg az A minta sértetlen marad, a szennyezett B minta kórosan nagy arányú heterozigozitásával mutatható ki.

A nagy teljesítményű SNP platformok közelmúltbeli bevezetése a chip-tipizáláshoz egy társulási tanulmányt eredményezett, amely népszerű stratégia a betegséggel összefüggő gének és a 100 000 - 1 000 000 SNP-re jutó genotípus-adatok azonosítására. Egy teljes genom társulási vizsgálatban a nem megfelelő minták hatékonyan kimutathatók, mivel több száz SNP választható ki minőségellenőrzési (QC-SNP) célokra. Ki kell választani azokat a QC-SNP-ket, amelyek LE-ben vannak egymással, és amelyek allélfrekvenciája 0,5 körül van; az ilyen SNP-k képesek a leghatékonyabban megkülönböztetni a nem megfelelő mintákat a normálaktól. Másrészt, ha már több érdeklődő gén vagy genom régió ismert vagy kiválasztott, és ezeken a géneken nagy sűrűségű SNP tipizálásra van szükség, akkor az LD-t a javasolt módszer szerint kell figyelembe venni.

Ebben a tanulmányban javaslatot tettünk a nem megfelelő mintapárok kimutatására egy eset-kontroll asszociációs vizsgálatban. Amikor a javasolt módszert alkalmaztuk az asszociációs vizsgálat valós adataira, két mintapárt találtunk testvérként. Amint a nem megfelelő minták gyanúja merül fel, általában a következő lépéseket tesszük: szennyezés észlelésekor kizárunk minden releváns mintát az esetellenőrzési adatokból. Ha összefüggő mintapárt találunk, akkor általában csak egy alanyot tartunk meg a párból az alábbi két kritérium kombinációjával: (2) a minta tipizálási adatainak általános minősége, különösen a hívás SNP aránya (a sikeresen genotipizált SNP-k száma az egyes mintákhoz). Ha azonban az alkalmatlan minták száma jelentős, a felvételük eldöntése megkövetelheti az I. típusú hiba felfújása és a csökkentett teszt teljesítmény közötti kompromisszumot. Ebben az esetben szükségünk lehet egy jövőbeli érzékenység-elemzésre a kompromisszum értékeléséhez.