Picture Viewing and Picture Description: Two Windows on the Mind

University dissertation from Cognitive Science

Abstract: Popular Abstract in Swedish Vi kan inte avslöja innehållet i våra tankar direkt, så hur kan vi närma oss de underliggande kognitiva processerna? Om vi vill lära oss mer om vad som försiggår i vår tankevärld, måste vi göra det indirekt, med hjälp av tankarnas yttre manifestationer. Det finns olika metoder som man kan ta till sin hjälp. I min avhandling kopplar jag ihop två ämnesområden, lingvistik och visuell perception, och kombinerar två metoder, analys av talat språk och analys av ögonrörelser, för att kasta ljus på vad som händer i våra huvuden. I en rad empiriska undersökningar studerar jag processuella aspekter av bildbeskrivningar och bildbetraktelser. Å ena sidan återspeglar ögonrörelser mänskliga tankeprocesser. Det är enkelt att avgöra vilka bildelement som attraherat betraktarens öga (och tankar), i vilken följd och hur ofta. Ögonrörelseprotokoll kan därmed ge oss en inblick i till hur våra tankeprocesser går till. Å andra sidan är de talpråkliga segment som har formulerats under bildbeskrivningen det lingvistiska uttrycket för en uppmärksamhetsfokusering. Eftersom jag använder mig av en diskurs-analytisk ansats, är mina transkriptioner av bildbeskrivningarna mycket detaljerade. De innehåller inte enbart det som sägs (verbala data) utan också hur det sägs (med en viss intonation, rytm, tempo, betoning, röststyrka, röstkvalité) samt dessutom vad som händer icke-verbalt (gester, skratt o dyl.). Alla dessa faktorer är typiska för talat språk och ger oss ytterligare information om talaren och den situativa kontexten. Därmed erbjuder de talspråkliga redogörelserna ett komplext och nyanserat verktyg för att få tillgång till våra tankeprocesser. Dessutom fångar båda dessa typer av data hela processen från visuell input till verbal output. Vad har språk och seende gemensamt? Ett sätt att svara på denna fråga är att använda strålkastarmetaforen: När vi tittar på bilder är det svårt att undersöka alla detaljer på en gång. Vi börjar titta någonstans, stannar där ett tag, fokuserar ett visst objekt, flyttar vår blick snabbt till nästa objekt i scenen, analyserar det, och gör sedan några jämförande ögonrörelser fram och tillbaka mellan de olika objekten. Med andra ord, när vi scannar en bild eller en scen, består vår visuella utforskning av fixeringar (korta pauser då ögat stannar och information tas in) och saccader (snabba ryckiga rörelser då blicken flyttas till nästa objekt). Betraktaren förnimmer inte bilden i sin helhet utan bilden ’lineariseras’ genom en rad visuella fokuseringar som betraktaren gör på vägen genom bilden. Metaforiskt uttryckt uppmärksammar vi ett bildområde i taget och detta område hamnar i strålkastarljuset. Vi gör på samma sätt när vi beskriver bilden muntligt: Vi framskrider i små enheter och fokuserar ett bildelement i taget. Detta bildelement ligger sedan i strålkastarljuset, inbäddat in en kontext (i periferin). Strålkastaren förflyttar sig till nästa bildelement som har framträtt ur periferin och detta bildelement kommer nu att ligga i fokus ett tag. Talaren zoomar in och ut när de talar om olika aspekten och olika delar av bilden. Kort sagt, talat språk och seende har följande gemensama egenskaper: (a) båda har ett fokus och en periferi, (b) deras struktur består inte av en homogen flytande ström utan snarare av sammanhängande små enheter eller kluster, (c) de bryter ner bildenheten och lineariserar bitarna. Uppmärksamhetsfokuseringen är den gemensamma nämnaren för både talat språk och seende. Ett av målen med avhandlingen är att beskriva vad som ligger i centrum för uppmärksamhet, dvs. i det verbala och visuella strålkastarljuset, i ett visst ögonblick. För huvudstudien (kap. III och IV) är tre frågor centrala: Kan vi identifiera jämförbara enheter i visuell perception och talad diskurs? Återspeglar den temporala ordningen av talspråksenheter den allmänna ordning i vilken informationen har tagits in visuellt? Har enheter i bildbeskrivning och bildbetraktelse ett liknande innehåll? Som jag kommer att visa, pekar kombinationen av verbala och visuella data på att korrelationsfrågan inte är så enkel. En verbal fokusering motsvaras inte alltid av en visuell fixering. Den perfekta temporala och semantiska matchningen mellan talspråkliga och visuella fokuseringar uppträdet mycket sällan. Om vi vill hitta en klarare korrelation, måste vi leta bland större enheter av verbala och visuella kluster. Jag föreslår superfokusering som en lämplig enhet för jämförelsen. Verbal superfokusering är en längre koherent informationsenhet som föregås av en lång paus, består av av ett antal fokuseringar (fraser) som behandlar samma tema, samt är prosodiskt avslutad (motsvaras ungefär av en längre prosodisk mening). Visuell superfokusering består av ett kluster av visuella fixeringar inom ett avgränsat bildområde, så kallad ’area of interest’. Genom att använda metoden som jag utvecklat i mina studier kan man få tillgång till mentala processer under bildbetraktelsen. På bildytan ser man att betraktaren kommer tillbaka till ett och samma bildelement. Men på basis av deras simultana beskrivningar får man reda på att de undersöker dessa oobjekt ur ett annat mentalt perspektiv. Till exempel beskriver informanterna bildelement och deras spatiala relationer ur ett innehållsperspektiv, de undersöker färger, storlekar och andra attribut ur ett kvalitativt perspektiv, de evaluerar objekten, jämför dem med andra objekt inom bilden eller utanför bilden, talar om kompositionella aspekter osv. Betraktaren upptäcker inte bara de objekt och grupperingar som ’erbjuds’ i bilden utan mycket ofta skapar de meningfulla enheter som baseras på abstrakta begrepp. Kombinationen av innehållet i den verbala och visuella strålkastaren ger oss en förstärkningseffekt: När vi använder ’två nycklar’ till våra tankeprocesser får vi mer än två gånger så mycket information eftersom talat språk och seende samarbetar med varandra. Boken är upplagd på följande sätt. Efter introduktionen införs i kapitel II verbal fokusering som en av nycklarna till de underliggande mentala processerna. Den centrala frågan i denna empiriska studie rör hur talare begreppsliggör bilden, vad de fokuserar på, i vilken ordning, hur de strukturerar den verbala beskrivningen och hur de kopplar ihop de sekventiella stegen i bildbeskrivningen. Två olika beskrivningsstilar, den narrativa och den tekniska, diskuteras. I kapitel III går jag igenom de teoretiska och metodologiska frågeställningar som är relevanta för ögonrörelsestudien i bildbetraktelser och bildbeskrivningar. Relationen mellan språk, seende och uppmärksamhet diskuteras och den verbala, visuella och multimodala analysen förs in. Jag formulerar teser för den empiriska studien, beskriver studiedesign och visar hur jag synkroniserar, analyserar och jämför verbala och visuella data. Jag använder mig av ett nytt analystiskt format, s.k. multimodalt tidskodat partitur, som jag utvecklat för detta syfte. Det operationella begreppet ’areas of interest’ diskuteras också i detta kapitel. Kapitel IV redovisar resultaten av den jämförande studien i bildbeskrivningar och bildbetraktelser. Huvudtemat är temporala och semantiska relationer mellan verbala och visuella enheter. Jag presenterar konfigurationer som jag har identifierat i mina data på fokuserings- och superfokuseringsnivån och illustrerar temporala och semantiska mönster med exempel. I ljuset av mina resultat har hypotesen om att det finns en klar korrelation mellan verbal och visuell fokusering inte bekräftats. Istället föreslår jag superfokusering som en jämförbar enhet eftersom den avgränsar kluster av både verbala och visuella data. I kapitel V återkommer jag till uppmärksamhetsfokuseringen och superfokuseringen men kontrasterar resultaten med en annan typ av data: en spontan beskrivning i ett dialogiskt sammanhang. Talat språk är förbundet med spontant ritande som ger referentiellt stöd för både talaren och lyssnaren. Samtalspartners samarbetar och teckningarna fyller olika funktioner: de har en explikativ funktion (förklarar och ger stöd för visualisering), en expressiv funktion (understryker), en demonstrativ funktion (man kan peka på dem), de ger stöd vid oklara referenser, fungerar som en extern minneslapp, och, slutligen, de representerar det globala problem som diskuteras i samtalet. I det dialogiska sammanhang där deltagarna samarbetar är struktureringen av den beskrivande diskursen situativt förankrad. Perception, kognition och kommunikation hänger ihop och undersöks som samordnade processer. I detta situativa sammanhang bidrar både verbala och icke-verbala medel (den talspråkliga beskrivningen, ritandet, pekande gester, blickriktningen, det interaktiva samarbetet mellan samtalsdeltagarna) till den gemensamma fokuseringsprocessen. I sista kapitlet, kapitel VI, breddas perspektivet igen. Jag går genom ett antal angränsande forskningsområden i ljuset av mina specifika metoder och uppnådda resultat. Metoden som jag har utvecklat i studierna kan användas på olika områden. De visuella scanningsstrategierna tillsammans med simultana kommentarer kan lösa flera frågor inom ’scene perception’. Metoden belyser mentala processer och attityder och kan därför användas som ett sensitivt evaluativt verktyg för bedömning av industriell design, gränssnittsdesign eller layout design. Vi kan studera hur människor läser multimodala nätbaserade dokument och skapar relationer mellan text och bild. Vi kan undersöka hur layouten i tidningar, illustrerade böcker, instruktionsmanualer, encyklopedier och reklamtexter uppfattas. Metoden hjälper oss att studera hur dyslektiker scannar bilden och beskriver den språkligt. De empiriska resultaten av mina studier, särskilt de resultat som rör hur ögonrörelser och talet synkroniseras och integreras, kan bidra till utvecklingen av en ny generation av multimodala interaktiva system.

  This dissertation MIGHT be available in PDF-format. Check this page to see if it is available for download.