Pointwise and Genomewide Significance Calculations in Gene Mapping through Nonparametric Linkage Analysis: Theory, Algorithms and Applications

University dissertation from Centre for Mathematical Sciences, Lund University

Abstract: Popular Abstract in Swedish I kopplingsanalys, eller i en något mera generell mening vid genletning, så söker man efter sjukdomsgener längs ett genom. Här kan man tolka ett genom som en mängd av hela, eller bitar av, olika kromosomer. Med avseende på en mängd sammanhängande flergenerationella släkter så observerar man då, längs genomets kromosombitar, markördata, dvs genotyper bestående av nedärvda anlag (alleler) från fädernet respektive mödernet. Dessa observationer analyseras sedan tillsammans med iakttagelser gällande individernas fenotyper, dvs sjukdomssatus (sjuka/friska/status okänd). Summan av kardemumman är att man vill försöka lokalisera sjukdomsgener genom att finna onormalt starka kopplingar mellan nedärvningen av anlag vid vissa kromosompositioner (lokus) och fördelningen av fenotyper över släkternas inkluderade individer. Detta vill man åstadkomma med så god precision som möjligt. En nyckelobservation är då att en, i någon mening, signifikant avvikelse med avseende på kopplingen genotyper och fenotyper från vad som kan förväntas under hypotsen om slumpmässig nedärvning statistiskt sett tyder på en genetisk komponent kopplad till motsvarande observationslokus. (Begreppet slumpmässig nedärvning härstammar från Gregor Mendel.) En intressant avvikelse består vanligtvis av att de okika fenotypgrupperna inbördes delar fler nedärvda alleler, i någon mening, än vad som kan anses vara rimligt vid slumpmässig nedärvning. I avhandlingsintroduktionen så beskrivs de genetiska grundbegreppen som är viktiga för den statistisk-genetiska disciplinen. Dessutom introduceras grundläggande begrepp som, till exempel, nedärvningsprocessen av genetiska anlag, den genetiska sjukdomsmodellen som statistiskt beskriver ramarna för kopplingen mellan fenotyper och genotyper samt hur utbredd sjukdomen är och ibland även var den är lokaliserad, datamaterialet bestående av observerade släkter, nedärvningsvektorn som beskriver hur nedärvningen av anlag har gått till i en specifik släkt och olika sätt att beskriva mängden av tillgänglig genetisk information. Efter detta så ges en introduktion till så kallad enlokus icke-parametrisk kopplingsanalys, där fokus ligger på signifikansberäkningar för en viss typ av teststatistika (NPL scoren). Begreppet icke-parametrisk syftar till att inget antagande om strukturen av den genetiska modellen görs. Enlokusanalys är ett uttryck för att man letar efter ett sjukdomslokus i taget längs det aktuella genomet. Vidare så utförs, vagt uttryck, signifikansberäkningar i syfte att kvantifiera huruvida, vid analysen funna, intressanta resultat avviker (i en statistisk mening) tillräckligt mycket från det normala för att man skall våga tro på att man har hittat något sjukdomsrelaterat lokus. Om man letar efter sjukdomar som är kopplade till nedärvningen med avseende på två stycken sjukdomslokus så utför man en tvålokusanalys. Även vissa generaliseringar till detta utvidgade fall, samt kopplingar och skillnader till den alternativa analysmetoden parametrisk kopplingsanalys, ingår i introduktionen. Vilket kanske kan förstås från relaterad definition ovan så antas vid parametrisk analys en kunskap om underliggande sjukdomsmodell. I den tredje delen av introduktionen så beskrivs översiktligt vissa angränsande och/eller alternativa samt kompletterande forskningsfält inom ramen för den statistisk-genetiska kontexten. Slutligen så sammanfattas innehållet i de i avhandlingen fyra olika inkluderade artiklarna. Detta görs även väldigt kortfattat här nedan. Allmänt kan sägas att om man letar efter gener över substantiellt stora kromosomområden så ger detta upphov till signifikansmässiga tolkningsproblem på grund av så kallad multipel testning. Huvudinriktningen för avhandlingens fyra papper är att på ett rimligt sätt utföra signifikansberäkningar (även i form av så kallad styrka) i olika situationer relaterade till såväl enlokus som tvålokus icke-parametrisk kopplingsanalys i samband med genomvid multipel testning. I de två första artiklarna behandlas enlokusanalys vari det första (Papper A) förbättrar och utvidgar vissa existerande analytiska approximationer för att utföra relaterade signifikansberäkningar. Med analytiska approximationer så menas att man härleder formler (slutna uttryck) så att man däri kan sätta in aktuella värden på inkluderade parametrar och således direkt få fram numeriska approximationsvärden. Artikel nummer två (Papper B) behandlar samma problematik men här är approximationerna baserade på så kallade Monte Carlo simuleringar i stället för fasta analytiska approximationsformler. Denna typ av simuleringar innebär, löst uttryckt, att man slumpmässigt (exakt eller approximativt) genererar (simulerar) fram förlopp eller processer av den typ man är intresserad av och sedan analyserar utfallet av dessa förlopp. I det traditionella fallet med Monte Carlo simuleringar med avseende på genomvid icke-parametrisk kopplingsanalys så uppkommer ofta en beräkningsmässig problematik då det tar, i någon mening, för lång tid att generera tillräckligt många förlopp som är analysmässigt intressanta. Detta beror på att den teststatistika (slumpmässig variabel som stoppas in i de analytiska eller simuleringsbaserade approximationsformlerna) generellt sett alltför ofta antar för låga värden under vårt analysscenario (vår nollhypotes). För att lösa detta så inför vi ett slumpmässigt placerat artificiellt sjukdomslokus som då i allmänhet, vid simuleringar, leder till högre värden på teststatistikan i närheten av detta lokus. För att få en korrekt probabilistisk tolkning så korrigerar vi också för denna procedur genom att på ett visst sätt väga samman de olika förloppens resultat med avseende på approximationsformeln (importance sampling, vägd simulering). De två avslutande artiklarna riktar in sig på tvålokusanalys. Det första av dessa (Papper C) behandlar så kallad obetingad tvålokusanalys, vilket innebär att man simultant eller samtidigt letar efter två olika sjukdomsgener. I vårt fall består mängden av släkter enbart av så kallade sjuka syskonpar, dvs vi har ett homogent familjematerial vari varje familj består av ett par föräldrar och ett par affekterade barn till dessa föräldrar. En generell grundkontext målas upp med begreppsapparat samt diskussion av olika angreppssätt och olika typer av relaterade signifikansberäkningar (signifikansnivåer och styrka) med avseende på diverse möjliga situationer. Slutligen, i den sista artikeln (Papper D), utvecklas ett generellt angreppssätt för signifikansberäkningar et cetera gällande så kallad betingad tvålokusanalys. Den betingade analysen kan ses som en hybrid mellan enlokus- och tvålokusanalys där man betingar med avseende på någon typ av information från ett första betingningslokus innan man letar efter ett andra lokus. Här kan betingningslokusen vara givna apriori eller skattade utifrån en initial enlokusanalys och informationen man betingar på kan vara enlokusresultat (från teststatistikan) eller motsvarande underliggande nedärvningsvektorer. Detta ger alltså upphov till sekventiella snarare än simultana tvålokusmetoder. Man kan också notera att av central betydelse i detta sammanhang är begreppet icke-centralitetsparameter, vilket enkelt uttryckt är ekvivalent med väntevärdet av aktuell teststatistika under en väldefinierad sjukdomsmodell (alternativ hypotes).

  CLICK HERE TO DOWNLOAD THE WHOLE DISSERTATION. (in PDF format)