Developing and Evaluating Language Tools for Writers and Learners of Swedish

University dissertation from Stockholm : KTH

Abstract: Skrivande och skrivet språk är idag en viktig del av många människors liv, i datorns ordbehandlare, i e-postprogram och i chattkanaler på Internet. Skrivet språk har blivit mer eller mindre en förutsättning för människors dagliga kommunikation. Denna utveckling av samhället leder till ökade behov av att på olika sätt hantera text. En teknologi som har stor potential att hjälpa människor med skrivande och skrivet språk är språkteknologi. I denna avhandling ligger fokus på olika språkverktyg vars avsikt är att stödja skribenter och de som lär sig svenska bland annat genom att skriva.Ett språkverktyg som har utvecklats och utvärderats i avhandlingen är språkgranskningsverktyget Granska. I arbetet med Granska har fokus legat på utvecklingen av regelspråk, granskningsregler och generella analysregler samt utvärdering av dessa. Granska kombinerar en statistisk grundanalys av ordens ordklasser med regelbaserade metoder för sökning av grammatiska fel och frasanalys. I utvecklingen av granskningsreglerna är dragkampen mellan felaktiga utpekningar av fel, så kallade falska alarm, och uteblivna utpekningar av fel, det största enskilda problemet. Dragkampen uppstår genom att det är svårt att hitta många fel utan att också göra en del felaktiga utpekningar.Språkverktyg för skrivande kan i stort sett utvärderas på två sätt: med fokus på texten eller på den som skriver. I denna avhandling har båda typerna av utvärdering utförts med såväl modersmålskribenter som skribenter med svenska som andraspråk. I en första textbaserad utvärdering visade det sig att textgenre spelar stor roll för Granskas resultat. Ett vanligt fel i en textgenre förekommer nästan inte alls i en annan. Detta innebär att det blir mycket svårt för programmet att inte avge några falska alarm i de texter där feltypen saknas. I en andra textbaserad utvärdering jämfördes Granska och en kommersiell grammatikkontroll på texter från andraspråksskribenter. Den kommersiella grammatikkontrollen visade sig att ha bättre träffsäkerhet, men upptäckte färre fel än Granska.En första mindre användarstudie utfördes med Granska och fem erfarna skribenter. Syfte med studien var att utveckla Granska i linje med skribenters behov vid revision av text. Resultatet indikerade att användarna inte hade några problem med att välja mellan olika feldiagnoser om ett av ersättningsförslagen var korrekt. Falska alarm verkade vara av varierande svårighetsgrad: falska alarm från stavningskontrollen är mer eller mindre ofarliga, medan falska alarm från granskningen av mer komplicerade feltyper kan försvåra revisionsarbetet för användaren.Granska utvecklades från början för erfarna skribenter med svenska som modersmål, men allteftersom arbetet har fortskridit har även skribenter med svenska som andraspråk blivit en allt viktigare användargrupp. I detta arbete har diskussionen om granskningsmetod blivit mer och mer central. Även om gruppen andraspråksskribenter är mycket heterogen, så innehåller den här gruppens texter generellt sett mer fel, och i många fall fler fel i samma mening. Detta gör granskningsproblemet betydligt svårare. För det första så blir det svårare att avgöra ordens ordklass och frastillhörighet när flera fel finns i samma mening, och därmed har programmet allt mindre att hänga upp den grundläggande språkliga analysen på. För det andra är det svårare att konstruera granskningsregler för fel vars natur är svår att förutsäga på förhand.För att förbättra den grundläggande språkanalysen utvecklades programmet GTA, som gör en frasanalys och satsgränsigenkänning. GTA utvecklades ur de generella analysregler som redan fanns i Granska. GTA designades för att klara av att analysera texter som innehåller vissa avvikelser från språkets norm, t.ex. inkongruens. För att ta reda på hur väl programmet klarade av mindre avvikelser i form av stavfel utvärderades GTA och även två program för ordklassanalys på texter med olika andel stavfel. GTA bygger till mycket stor del på att identifikationen av ordklass fungerar för att fraser och satsgränser skall analyseras korrekt. Detta bekräftas också i utvärderingen, där det visade sig att GTA klarar sig bra så länge som den underliggande ordklassanalysen klarar att hantera avvikelser i texten. En viktig faktor för att klara språkliga avvikelser, i form av stavfel, är en fungerande metod för att hantera ord som är okända för programmet.Nya metoder för språkgranskning har undersökts i samarbete med andra forskare, och där har avhandlingens bidrag varit i form av transformationsregler i den statistiska språkgranskaren ProbGranska. Dessa regler visade sig vid en utvärdering avsevärt förbättra ProbGranskas säkerhet när det gällde att identifiera grammatiska problem. I utvecklingen av språkgranskaren SnålGranska har avhandlingen bidragit med idéer till dess grundläggande algoritm. Denna algoritm bygger på att träna ett maskininlärningsprogram på konstgjorda fel i avsaknad av en korpus med många uppmärkta autentiska fel.För att komma vidare med utvecklingen av språkverktyg för andraspråksskribenter genomfördes en längre fältstudie vid ett svenskt universitet. Syftet var att studera användningen av Granska i autentiska skrivuppgifter som studenterna genomförde i en avancerad kurs i svenska som främmande språk. Sexton studenter med olika språklig och kulturell bakgrund deltog i studien. En viktig del av studien utgjordes av studenternas bedömningar av Granskas alarm. Bedömningarna gjordes på en betygsskala från 1 till 5. Studenternas texter samlades också in i två versioner; en version före och en efter användningen av programmet. Denna metod gjorde det möjligt att studera i vilken grad studenterna följde Granskas råd, och huruvida dåliga eller bra råd från programmet fick höga eller låga betyg. Mest alarmerande var att dåliga råd angående ordföljd alltid fick högsta betyg. Andra ofta lämpliga råd dömdes ut för att beskrivningen av dessa feltyper, t.ex. anmärkningar om saknade tempusböjda verb och uteblivna subjekt, var svåra att förstå samt att de saknade ersättningsförslag.En viktig insikt från fältstudien var att Granska eller liknade verktyg inte är det enda verktyg som andraspråksskribenter behöver när de skriver text. Denna insikt tillsammans med andra resultat från fältstudien mynnade ut i flera designprinciper för program med fokus på andraspråksskribenter. Dessa designprinciper användes sedan i utformningen av språkmiljön Grim. Grim är en ordbehandlingsmiljö med olika interaktiva språkverktyg integrerade: Granska, GTA, den statistiska språkgranskaren ProbGranska, lexikonet Lexin med åtta olika språkpar, konkordansgränssnitt mot stora textmängder från korpusen Parole, och en ordböjningsfunktion. I Grim kan användaren arbeta med egna eller andras texter, och få återkoppling på språkets former från Granska och GTA, undersöka ords användning i autentiska texter samt få en ökad förståelse av målspråket genom integrerade tvåspråkiga lexikon.

  This dissertation MIGHT be available in PDF-format. Check this page to see if it is available for download.