Perception, Analysis and Synthesis of Speaker Age

University dissertation from Linguistics and Phonetics

Abstract: Popular Abstract in Swedish Talarålder är en viktig paralingvistisk egenskap i tal, som bör beaktas vid studiet av fonetisk variation. Kunskap om talarålder kan användas för att förbättra talteknologiska tillämpningar såsom automatisk taligenkänning och talsyntes. Föreliggande doktorsavhandling beskriver sex studier som undersökt ett flertal aspekter av den åldersrelaterade variationen i tal. När talapparaten förändras från tidig vuxen till hög ålder, påverkas talet på flera vis. Människor kan ganska väl bedöma talarålder med hjälp av ledtrådar i bl.a. röstläget, taltempot och röstkvaliteten. Det är dock ännu oklart vilka ledtrådar som är viktigast. Den första studien i denna avhandling undersökte hur grundtonsfrekvens (F0) och taltempo (ordduration) påverkar lyssnares perception av talarålder. Resultaten visade att dessa drag verkar vara mindre viktiga än spektrala drag (t.ex. formantfrekvenser), men också att båda dessa drag ändå korrelerade med både kronologisk och bedömd ålder. I den andra studien jämfördes två olika stimulustyper (ord och spontantal) av olika längd. Det visade sig att större stimulusdurationer (oavsett typ) verkar förbättra bedömning av kvinnlig talarålder, medan spontantal (oavsett duration) verkar innehålla viktigare ledtrådar för perception av manlig ålder. I de två följande studierna konstruerades flera automatiska bedömare av talarålder. Med dessa undersöktes en mängd akustiska drag som kan vara relevanta vid maskinbedömning av ålder, där prosodiska drag verkade vara viktigare för uppskattning av kvinnlig ålder, men spektrala drag (t.ex. F2) för manlig. De automatiska åldersbedömarna uppnådde dock inte samma prestanda som mänskliga lyssnare. Även om åtskilliga akustiska korrelat till talarålder är kända, har deras relativa betydelse ännu inte fastställts. I nästa studie analyserades 161 akustiska drag, som mättes automatiskt i sex ord uttalade av 547 talare. Normaliserade medelvärden användes för att göra direkta jämförelser av de olika dragen. Taltempo (segmentduration) och intensitetsomfång identifierades som de viktigaste akustiska korrelaten till talarålder. F0 och en del spektrala drag (t.ex. F1 och F2) verkar dock också kunna användas som åldersledtrådar ? åtminstone tillsammans med andra drag. Syntetiskt tal skulle kunna låta mer naturligt om talarålder ingick som en parameter. I den sista studien utvecklades ett forskningsverktyg för simulering av talarålder med datadriven formantsyntes och åldersviktad linjär interpolation mellan åldrarna hos fyra kvinnliga referenstalare. En utvärdering av verktyget visade att syntetiska röster med simulerad ålder bedömdes som ungefär lika gamla som naturliga röster i samma ålder. Verktyget kommer att användas i vidare studier för analys genom syntes av talarålder.

  CLICK HERE TO DOWNLOAD THE WHOLE DISSERTATION. (in PDF format)