Modelling Allelic and DNA Copy Number Variations using Continuous-index Hidden Markov Models

University dissertation from Mathematical Statistics, Centre for Mathematical Sciences, Lund University

Abstract: Popular Abstract in Swedish DNA i form av kromosomer finns i cellerna och innehåller information som styr flertalet av kroppens funktioner. Människor har vanligtvis 23 par kromosomer, där den ena kromosomen i ett par härstammar från personens mamma och den andra från dess pappa. DNA ser ut som en vriden stege där stegpinnarna består av nukleotidbaspar. I cancerceller kan det finnas bitar av kromosomer som finns i ett annat antal exemplar än två. En möjlighet är att en bit av någon av de ursprungliga kromosomerna har kopierats så att det finns extra kopior av dessa bitar, och en annan möjlighet är att en bit av någon av kopiorna har förlorats. Genom att identifiera vilka delar av kromosomerna som har ett felaktigt antal kopior kan kunskapen om cancer öka och till exempel metoder för att upptäcka och behandla sjukdomen förbättras. Vilka segment som har ett avvikande antal kopior varierar mellan olika patienter och för att kunna beskriva den variationen passar det att använda en modell som innehåller slumpen. En lämplig modell är då Markovprocesser, som beskriver antalet kopior vid varje basparsposition. Det speciella med Markovprocesser är att antalet kopior vid en basparsposition beror på antalet kopior vid intilliggande basparspositioner, men inte på de som är längre bort. Markovprocesser beskrivs med olika sannolikheter, vilket innebär att om det vid en basparsposition till exempel finns två kopior så finns det en sannolikhet att det vid nästa basparsposition också finns två kopior, en annan sannolikhet att det finns en kopia, en tredje sannolikhet för att det finns tre kopior och så vidare. Det passar bra att beskriva just DNA kopior med dessa processer eftersom intilliggande baspar ofta har samma antal kopior. Att mäta antalet kopior av kromosomerna är en komplicerad process och speciell teknisk utrustning används. Detta gör att mätningarna innehåller olika sorters mätfel vilket medför att det inte direkt går att avgöra hur många kopior som finns för varje basparsposition. Då kan man inte enbart använda Markovprocesser utan modellen måste även inkludera mätfelen. Dessa beskrivs också lämpligtvis med hjälp av en statistisk modell och det ger då det som kallas för en dold Markovmodell. I den här avhandlingen används olika sorters dolda Markovmodeller och för att analysera dem har flera statistiska metoder, som bland annat uppskattar värdet på olika parametrar, utvecklats. Det ger då information såsom att det i en viss region är mest troligt att det finns fyra kopior av kromosomerna och att det i en annan är mest troligt med två kopior. Den informationen kan sedan ligga till grund för vilka gener som ska studeras vidare och var det är störst chans att hitta cancerframkallande gener. Det kan också vara intressant att jämföra resultatet från flera patienter och dra slutsatser som till exempel att alla som har ett visst antal kopior i en viss region har samma variant av sjukdomen.

  CLICK HERE TO DOWNLOAD THE WHOLE DISSERTATION. (in PDF format)