Quality Control for high-throughput Quantitative Proteomics - Harnessing the potential of label-free LC-MS

University dissertation from Department of Immunotechnology, Lund University

Abstract: Popular Abstract in Swedish Sedan kartläggningen av det mänskliga genomet, har mer fokus lagts på dess produkt, proteomet, som definieras som de proteiner som uttrycks i en cell vid en viss tidpunkt. Proteomets dynamiska egenskaper gör det till en fantastisk källa för så kallade biomarkörer, det vill säga molekyler som genom deras koncentrationsmönster kan användas för att särskilja sjuka och friska tillstånd. Detta gör även proteomet extremt komplext att mäta, med bland annat stora koncentrationsskillnader och en mängd modifikationer. Masspektrometri är en vanligt använd teknik för att undersöka proteomet. En masspektrometer kan liknas vid en våg som fungerar på molekylnivå och separerar analyterna med avseende på förhållandet mellan massa och laddning. Ofta finns ytterligare ett separationsverktyg kopplat till masspektrometern, en vätskekromatograf, som först separerar molekylerna utefter olika fysiska och kemiska egenskaper innan de injiceras i masspektrometern. Detta ger upphov till en tredimensionell karta för varje prov med dimensionerna retentionstid (när molekylen lämnar kolonnen, baserat på vätskekromatografin), det tidigare nämnda massa/laddning, samt intensitet (ett mått på kvantiteten som är direkt proportionellt mot originalmängden protein i provet). En egenskap hos denna teknik är att provet är förbrukat efter injiceringen i masspektrometern, det vill säga all fortsatt analys sker i datorn. Det är därför viktigt med både kvalitetskontrollerad och optimerad bioinformatik (informatiska och matematiska metoder applicerade på biologisk data) för att få ut så mycket information från proverna som möjligt. Dessutom existerar ytterligare en utmaning för bioinformatiken – proteinerna mäts vanligtvis inte i sin helhet i masspektrometern, utan spjälkas till specifika beståndsdelar, peptider. Problemformuleringen består därför inte bara i att fastställa så korrekta proteinkvantiteter som möjligt, men också att pussla ihop vilka proteiner som ingår i provet baserat på de peptider som hittas. I denna avhandling presenteras metoder för att på olika sätt extrahera maximal information från proverna. I Artikel I jämförs olika förfraktioneringsmetoder för att kunna uppnå en så bra täckning av proteininnehållet som möjligt. De följande artiklarna (II-V) behandlar olika informatiska metoder för att analysera och utvärdera data. Artikel I: Då höga koncentrationer av vanligt förekommande proteiner kan överskugga möjliga biomarkörkandidater, är förfraktionering en teknik som används för att komma åt proteiner i mindre koncentrationer och undvika att mäta samma molekyler upprepade gånger. I denna artikel har olika metoder för förfraktionering undersökts och SDS-PAGE i kombination med trypsin-baserad spjälkning visade sig uppvisa de mest gynnsamma masspektrometriegenskaperna och gav därmed upphov till flest identifierade peptider och proteiner. Artikel II: För att kunna fastställa bästa datahanteringsstrategi, behövs data som är specifikt utformad för det ändamålet. Vi presenterar här en metod som bygger på prover blandade i linjära förhållanden till varandra. Lineäriteten utvärderas under den bioinformatiska analysen och kan ge insikt om både det instrumentella tillståndet och olika mjukvarors effektivitet, bland annat hur olika parameterinställningar påverkar resultaten. Artikel V är en vidareutveckling av utvärderingsmetoden som presenterades i Artikel II, där vi använder oss av både storskalig och mer komplex data än i Artikel II. Den instrumentella känsligheten utvärderas, olika plattformar för masspektrometri jämförs, samt statistiska följder av datahanteringsbeslut utvärderas. Vi presentar även en ny metod för att kombinera kvantiteter från peptider med olika laddningar för större täckning av proverna. En vanligt förekommande experimentell strategi är att kemiskt eller enzymatiskt märka proverna för att sedan kombinera dem inför analysen i masspektrometern. Detta har fördelen att minska den experimentella variationen, men är ofta dyrt och saknar effektiva möjligheter för att undersöka prover i stor skala. En märkningsfri (label-free) metod har därför blivit populär, där stora antal prov kan mätas och jämföras. Den förenkling man tjänar i labbet, förlorar man dock bioinformatiskt, då metoden kräver omfattande datahantering. Vi har i Artikel III och IV utvecklat nya mjukvaror för just denna typ av datahantering som tar fasta på inbyggd kvalitetskontroll för stora mängder prover, samt öka användarvänligheten genom att utnyttja den kända informationen i data så mycket som möjligt. Artikel III: Genom kombination av resultat från fristående mjukvarumoduler visar vi att kvantifiering av ett större antal peptider är möjligt. Artikel IV: Vi presenterar en ny algoritm för utökning av peptididentifikationer, där alla nödvändiga parametrar fastställs under analysens gång genom information från underliggande data. Detta ökar inte bara användarvänligheten, utan ser också till att skräddarsydda parametrar sätts för varje prov, samt kommer reproduceras för olika körningar av samma data. Sammanfattningsvis har vi visat att kvalitetskontroll och storskalig datahantering kan automatiseras för att klara de krav som ställs av ett snabbt växande forskningsfält. Genom utveckling av standardiserade datahanteringsprotokoll kan möjliga biomarkörer upptäckas och selekteras för validering med väsentligt minskad felrisk.

  CLICK HERE TO DOWNLOAD THE WHOLE DISSERTATION. (in PDF format)