Spatial Statistics and Ancestral Recombination Graphs with Applications in Gene Mapping and Geostatistics

University dissertation from Mathematical Statistics, Centre for Mathematical Sciences, Lund University

Abstract: Popular Abstract in Swedish Statistik handlar om att beskriva slumpmässiga händelser. Genom att bygga matematiska modeller för hur slumpen beter sig kan man beräkna hur troliga olika händelser är. Skilda ämnen har nytta av olika slags slumpmodeller, men slumpens lagar är universella! Därför kan en slumpmodell som utvecklats inom ett ämne senare visa sig användbar inom ett helt annat. Min avhandling handlar om slumpmodeller inom genetik och geologi, och om hur statistiska metoder från geologins område kan utnyttjas för att svara på frågor inom genetiken. Slumpmodeller som används inom geologi måste kunna beskriva att när man mäter något (t.ex. en mineralhalt) på en plats, så är resultatet ofta likt det man mäter på en annan närliggande plats. Så, ju kortare avstånd mellan två platser, desto större är beroendet mellan mätresultaten. För att åstadkomma t.ex. en mineralogisk karta över ett område gör man mätningar av det aktuella mineralet på ett antal spridda mätpunkter i området. I punkter där man saknar mätningar får man istället uppskatta mineralhalten med hjälp av de mätningar man har. I denna uppskattning läggs större vikt vid mineralhalten i närliggande mätpunkter än vid mineralhalten i mätpunkter längre bort. Då måste man hålla reda på beroendet både mellan den nya punkten och alla mätpunkter, och mellan var och en av dessa. Om man har många mätpunkter - 10 000-tals eller fler - kan detta vara omöjligt även med dagens snabba datorer. I min avhandling visar jag hur man kan approximera den ursprungliga slumpmodellen med en annan slumpmodell, som ger likvärdiga resultat, men där beräkningarna går mycket snabbare. Slumpmodellerna som används inom genetiken beskriver oftast helt andra slumpmässiga fenomen än inom geologin. Det mänskliga genomet består av knappt 25 000 gener, uppdelade på 23 kromosomer. Trots att man har forskat kring genetik sedan 1800-talet känner man ännu inte funktionen för mer än en bråkdel av generna. Omvänt vet man att många egenskaper och sjukdomar har genetiska orsaker, men man vet ännu inte var de ansvariga generna sitter. Genletning handlar just om att försöka lokalisera på vilken kromosom, och var på denna, som en gen som påverkar en viss sjukdom eller egenskap sitter. Grundidén bakom metoderna i min avhandling är att utnyttja att alla som bär på sjukdomsgenen har ärvt den från en gemensam förfader, där mutationen för första gången uppstod. Generna ärvs inte en och en, utan i varje generation kommer äggets (och spermiens) kromosomer att bestå av långa kromosomstycken som kommer omväxlande från mormor och morfar (respektive farmor och farfar). Längden på dessa kromosomstycken är slumpmässig. De personer i dagens generation som ärvt sjukdomsgenen kommer därför att runt denna ha ett kromosomstycke som ärvts intakt från förfadern. I ett kromosomområde nära sjukdomsgenen kommer därför de sjuka att likna varandra mer än de friska. För att leta gener mäter man hur generna ser ut hos ett antal sjuka och friska personer på ett flertal markörer, dvs. väldefinierade positioner på kromosomerna. Med statistikens hjälp kan man skilja ut de markörer där de sjukas gener liknar varandra så mycket att det inte kan förklaras enbart av slumpen. Mycket talar då för att dessa markörer ligger nära sjukdomsgenen. I min avhandling presenteras metoder där man utnyttjar flera markörer på samma kromosom samtidigt. Om markörerna sitter tätt så är det inte bara en, utan flera markörer bredvid varandra, som ärvts från förfadern där sjukdomsmutationen uppstod till de sjuka som vi undersökt. Genom att leta efter det kromosomområde där en hel rad av de sjukas markörer liknar varandra kan man lättare peka ut området där sjukdomsgenen sitter, än om man bara tittar på varje markör för sig. I avhandlingen presenteras två metoder för detta. I båda fallen väljer man ut sjuka och friska personer som inte är nära släkt med varandra, och där man inte känner till något om deras släktskap. I den första metoden byggs en slumpmodell för hur personerna man undersökt är släkt med varandra. Detta släktträd ger en modell för hur personernas kromosomer borde se ut, i förhållande till varandra. Slumpmodellen tillsammans med genmätningarna gör att det går att uppskatta hur nära släkt två uppmätta kromosomer är. Grundprincipen är att ju mindre två kromosomer skiljer sig åt desto närmare släkt är de. Eftersom våra kromosomerna kommer att ha vissa delar som vi ärvt av vår mormor och andra delar som vi ärvt av vår morfar (och motsvarande från farmor och farfar), och så vidare varje generation bakåt, så kommer olika delar på en och samma kromosom att ha skilda släktskap. Man kan därför använda denna slumpmodell till att leta efter den kromosomposition där de sjuka verkar vara närmre släkt med varandra än med de friska. Det nya i vår metod är bland annat att vår slumpmodell för släktskap tar hänsyn till hur man valt ut de personer vars gener undersöks. Den andra genletningsmetoden identifierar också den position på kromosomen där just de sjuka har kromosomer som är lika varandra. Här modellerar vi inte ett helt släktträd, utan använder en mer ungefärlig modell som är gör det lättare att räkna. I den modellen får varje person en genetisk risk som beror på hur de uppmätta markörerna ser ut. Vi tänker oss att kromosomerna placeras ut i en abstrakt rymd på så vis att två kromosomer som är lika varandra får kort avstånd mellan sig. Sedan använder man modeller motsvarande de inom geologin, där ett kort avstånd gjorde att det var ett starkt beroende. Idén är att två kromosomer som liknar varandra bör ge liknande risk för att bli sjuk. Hur lika kromosomerna är skiljer sig mellan olika positioner. Vi kan nu söka den kromosomposition där de sjuka liknar varandra så mycket att risken för att bli sjuk är nästan samma för alla sjuka. Vi prövar här både nya sätt att räkna ut likheten mellan kromosomparen, och nya modeller för beroendet mellan de genetiska riskerna. Min avhandling tar alltså upp både ämnesunika och universella aspekter av statistik. Den första generella egenskap som jag använt är att arbeta med approximativa modeller, som gör det lättare att räkna. Jag har vidare utnyttjat modeller där mätningar med kort avstånd emellan har starkt beroende - vare sig det är ett fysiskt avstånd eller ett avstånd som beror på hur lika två kromosomer är.

  CLICK HERE TO DOWNLOAD THE WHOLE DISSERTATION. (in PDF format)