af Peter Allerup, professor ved Danmarks Pædagogiske Universitet
Når jeg har fået til opgave at argumentere for ‘kvantitativ (herunder naturvidenskabelig) evidens i uddannelser ‘ er det første der falder mig ind, spørgsmålet om, hvad der egentlig adskiller undersøgelser eller analyser frembåret af ‘kvantitativ evidens ‘ fra andre typer af evidens. Ofte modsættes ‘kvantitativ evidens ‘ til ‘kvalitativ evidens’. Min gamle lærer Georg Rasch var tilbøjelig til, noget provokerende, at sige, at alle undersøgelser dybest set er ‘kvalitative’! Fordi alle målinger ved nærmere eftersyn består af sammenligninger. Dermed bliver det grundelement af måling ‘med tal’ som karakteriserer udsagn med ‘kvantitativ evidens’ i virkeligheden blot sammenligninger mellem det målte og en-eller-anden såkaldt målestok, der er passende inddelt – en proces der ikke fordrer tal!
På et mere praktisk niveau vil jeg antage det synspunkt, at man kan skelne mellem undersøgelser med ‘kvalitativ’ hhv. ‘kvantitativ’ evidens ud fra undersøgelsens formål. Nogle undersøgelser er sat i værk for at ‘finde’ eller ‘definere’ nye kategorier – i hvilket tilfælde jeg vil kalde den en kvalitativ undersøgelse, mens andre udnytter eksisterende kategorier, og jeg vil kalde den en kvantitativ undersøgelse.
En typisk kvalitativ undersøgelse drejer sig om indsamling og behandling af information fra interviews, åbne spørgsmål og iagttagelser, hvor materialet, som er undersøgelsens data kan være registreret som billeder, lyd eller nedskrevne ord.
En typisk kvantitativ undersøgelse drejer sig om indsamling af information trukket fra eksisterende kategorier, eller variable. En del udgøres af kvantitative variable, der umiddelbart – uden Raschs forbehold - måles ved hjælp af tal. Alder og antal års erfaring inden for et område er eksempler. Desuden indeholder kvantitative undersøgelser kvalitative (eller kategoriserede) variable, hvor variablens ‘værdi’ eller udfald ikke måles ved et tal. Registrering af køn og holdninger (’enig’/’uenig’) er eksempler herpå
Undersøgelser med kvantitativ evidens er derfor undersøgelser, der udgår fra en kvantitativ undersøgelse indeholdende på forhånd fast definerede kategorier eller variable, der optræder som enten kvalitative eller kvantitative. Analyser af data fra sådanne undersøgelser består altid af (1) simple optællinger af ‘et antal gange man har registreret en kategori (værdi af kvalitativ variabel)’ og (2) matematiske beregninger eller manipulationer på de kvantitative variable.
Antallet af personer der er ‘enig’ i en bestemt påstand, antallet af ‘piger’ der tilkendegiver, at de er ‘enig’ og antallet af elever, der har besvaret en bestemt opgave korrekt er eksempler på (1). Under (2) finder vi ‘den gennemsnitlige alder’, den ‘samlede læsetid’ ved en bestemt læsetest og ‘antallet af timer eleven ser tv‘ som eksempler. Der er i alle tilfælde tale om variable, der registreres direkte i data. Ingen af de nævnte variable er resultatet af, at man skal ‘regne’ på tallene i data for at få variablens værdi.
Kvantitative undersøgelser adskiller sig ofte fra kvalitative undersøgelser ved den formelle beskrivelse af iagttagelserne. Kvalitative undersøgelsers opsøgning af nye kategorier sker ’deterministisk’ i den forstand at der ikke formelt rejses ’tvivl’ om det iagttagne. Herover for står de kvantitative undersøgelser, hvor en formel beskrives (ofte en statistisk model) åbner mulighed for at acceptere det modsatte af, hvad man faktisk ’ser’ og registrerer :Fx ’korrekt’ eller ’ikke korrekt’ besvarelse af en opgave. Dette skyldes til en vis grad de kvantitative undersøgelsers ’lukkethed’ eller ’afsluttethed’ over for de kategorier, som fra starten medtages som mulige udfald. ’Chance’ eller ’sandsynlighed’ for iagttagelse af en hændelse får mening gennem erkendelsen af, at der er kategorier (årsager), som ikke er taget med i det lukkede system. Undersøgelser med kvantitativ evidens har derfor ret præcise muligheder for at kunne underkaste sig analyser vedrørende validitet, reabilitet, generaliserbarhed og - som vil blive taget op: Præcision.
En undersøgelse som PISA 2003 er et eksempel på en undersøgelse med kvantitativ evidens. Det samme gælder en noget ældre undersøgelse som ‘Tid til Dansk’ (DPI, 1986). Begge undersøgelser er karakteriseret ved anvendelsen af et stort antal opgaver, som eleverne besvarer og et stort antal såkaldt baggrundsvariable, der registrerer hjemlige forhold, interesser, holdninger, forventninger mv. hos eleverne.
Mens den sidste undersøgelse var en forskningsorienteret undersøgelse, der blev igangsat med det formål at undersøge ‘om én times ekstra danskundervisning gav øgede læsefærdigheder’ har PISA ingen forskningsforankring men et – i øvrigt legitimt - formål gående på ‘at vurdere, internationalt om det danske skolesystem får tilstrækkeligt udbytte i form af opnåede færdighedsniveauer af de investerede penge’
Det er fristende at tillægge begge undersøgelser kvantitativ evidens fordi formålene taler om tydelige kvantitative output-variable: Niveauer af færdighed, stiltiende accepteret som noget man måler på en skala med rigtige tal på – i stedet for et tænkt formål: ‘… at give eleverne bedre humør’ eller lignende ikke-kvantitative udbytte-variable.
Kvantitativ evidens ved undersøgelser af den nævnte ’PISA’ eller ’Tid til Dansk’- type kan ofte udspringe fra det faktum, at man kan transformere informationsindholdet i kvalitative variable til en kvantitativ variabel, et indeks – og samtidig tilfører den samlede undersøgelse nogle effektive ‘forbedringer’. Det er en forudsætning, at undersøgelsen er en kvantitativ undersøgelse – med a priori definerede kategorier. Når eleverne f.eks. besvarer 20 matematikopgaver med mulighederne ‘rigtigt’/’forkert’ besvares 20 på forhånd fastlagte kvalitative variable, der er forskellige og en skelnen mellem eleverne på dette stade, må starte med at ’forstå’ forskelle mellem samtlige kombinationer af svar - dem er de ca. 1 million af! Men i mange tilfælde er der tale om opgaver, der fra starten er tænkt til at ‘ligge på samme dimension’ og en beregning af elevens færdighed ønskes måske derfor udført som et indeks over de 20 opgave – f.eks. som procent rigtige besvarelser af de 20 opgaver.
Tilsvarende har undersøgelser af de to nævnte typer ofte baggrundsvariable, hvor der i en længere serie af spørgsmål berøres ét bestemt emne – det kunne være ‘Selvtillid’. Det er mindst lige så svært at ‘forstå’ samtlige kombinationsmuligheder af 20 ‘selvtillids’ spørgsmål som i tilfældet med matematik, og behovet for at beregne et indeks som mål for elevens grad af ‘selvtillid ‘ ligger derfor lige for.
Det er en vigtig side af undersøgelser med kvantitativ evidens, at de åbner mulighed for at ’løfte’ evidensen fra beregninger af et uoverskueligt stort antal kombinationsmuligheder mellem kvalitative variable til at dreje sig om beregninger af store eller små værdier af ét indeks. Men det sker ikke uden at give afkald på nogle frihedsgrader: I tilfældet med matematikopgaver lykkes transformationen fra de 20 enkeltopgaver til ét indeks kun, hvis opgaverne trækker i samme retning, bliver ’anonyme’ mht. det faglige indhold og alene har egenskaben ’sværhed’ fælles med de andre opgaver. Tilsvarende skal spørgsmålene bag ved ’selvtillid’ trække i én psykologisk retning, ligge på én dimension og kun adskille sig fra hinanden ved at provokere mere eller mindre grad af selvtillid frem hos respondenten.
I sig selv er ‘indekseringen’ som del af en kvantitativ undersøgelse en værdifuld proces, fordi (Georg Rasch, 1960) følgende tre udsagn er ækvivalente:
1. indeksering lykkes og indeksværdien trækker al information ud fra opgaverne/spørgsmålene for den pågældende respondent
2. respondenters færdighedsniveauer kan sammenlignes ’objektivt’, bl.a. er det ligegyldigt hvilket delsæt af opgaver/spørgsmål der anvendes ved indekseringen
3. en bestemt statistisk model for de empiriske besvarelser skal holde.
Sådanne etableringer af ‘skalaer’ hvorfra man måler med ‘indices’ tilfører undersøgelser med kvantitativ evidens et pålæg om at præcisere koncepter som ‘sværhed i matematik’ og ‘selvtillid’ i en grad, der ikke mødes ellers. Fordi pkt. 3 indebærer empirisk verifikation – så langt som statistiske modeller kan kontrolleres empirisk – får denne præcisering ofte karakter af at være en proces hvorunder et stort antal opgaver/spørgsmål undervejs udgår. Det er ofte en værdifuld erfaring som resultat af denne verifikation f.eks. at erkende at ’sværhed ’ som begreb i matematik ikke er det samme for piger som for drenge. Altså en erfaring, der går ud over en eventuel senere markering af forskelle i generelt niveau!
En undersøgelse som PISA ville ikke kunne gennemføres, hvis man ikke har sikkerhed for at pkt. 2 er opfyldt – fordi hver elev kun løser opgaver i ét ud af 13 mulige opgavehefter.
En vigtig fordel ved undersøgelser, der således transformerer information fra kvalitative variable til kvantitative indices er muligheden for at benytte målinger af ‘sikkerhed’ – eller det modsatte, som er en grundlæggende egenskab ved kvantitative variable: Måling af usikkerhed. Både PISA og ‘Tid til Dansk’ opererer eksplicit med forestillinger om at kunne skelne mellem grupper af elever mht. færdighedsniveauer og begge undersøgelser er tilrettelagt ud fra nogle beregninger vedrørende variationen på de indices, som måler elevernes færdighedsniveauer. F.eks. kan det på forhånd bestemmes hvor mange elever, der skal medtages i undersøgelsen for at en eventuel kønsforskel skal kunne vises ‘med overbevisende sikkerhed’. Det gælder også overvejelser vedrørende antallet af stillede matematikopgaver, som har direkte indflydelse på den sikkerhed, der er forbundet med beregningen af et bestemt værdi for indekset.
’Tid til Dansk’ er en kvantitativ undersøgelse, der er udført som et klassisk standard forsøgs-kontrol-eksperiment med grupper af ’forsøgspersoner’ (de, der fik én ekstra dansktime) og ’kontrolpersoner’ (de der ikke fik). Forsøgs- og kontrolpersoner sammenlignes ved ’start’ (randomiseringstest), dvs. ved årets begyndelse og ’slut’-målinger gøres op ved årets afslutning, hvor effekten tillige beregnes. Forsøgsplaner, der som den beskrevne følger klassiske krav fra randomiserede forsøgs-kontrol eksperimenter kan kun meget vanskeligt – og i nogle henseender slet ikke – gennemføres med kvalitative variable som nøglevariable, bl.a. fordi opgørelse af effekt og beregning af det nødvendige antal observationer, der skal indgå for at kunne gennemføre statistiske tests med en acceptabel styrke kræver, at variable er kvantitative og kan beskrives med statistiske modeller, der forudsætter ’kvantitivitet’. Kvalitative undersøgelser unddrager sig normalt eksakte beregninger af et nødvendigt antal observationer.
PISA undersøgelsen er ikke nogen effektundersøgelse som ’Tid til Dansk’ men har gennem en rangordning af færdighedsresultaterne på landsplan til hensigt at forsyne de enkelte lande med en mulighed for at vurdere udbyttet i form af gennemsnitlige målte færdigheder i forhold til en række af andre faktorer. Som i ’Tid til Dansk’ opererer PISA med en blanding af direkte registrerede kvantitative og kvalitative variable ( f.eks. ’antal timers forberedelse’ og svar på opgaver som kan være ’korrekt’/’ej korrekt’) og som i ’Tid til Dansk’ kan der argumenteres med fordel for, at der fra rækker af kvalitative variable udtrækkes indices til måling af den dimension, der ligger bagved. Dermed transformeres mange oprindeligt kvalitative variable over i kvantitative variable (inklusive indices). Kvantitativ evidens fra data af denne type nyder fordel af det righoldige repertoire af kvantitative metoder og begreber, som netop er til rådighed for denne type af variable. Begreber som ’middelværdi’, ’spredning’, ’korrelation’, ’lineær sammenhæng’ mm. er eksempler på de begreber, der opstår i feltet kvantitative variable og deres indbyrdes relationer. En begrebsmæssig righoldighed, der matcher den omstændighed at de matematiske forudsætninger bag ved beskrivelserne (statistiske modeller) af kvantitative variable oftest er betydeligt mere komplekse end ved de kvalitative variable. Et fænomen, der burde kalde på mere opmærksomhed omkring kontrol af den formelle beskrivelse (dvs. modellen), når der transformeres fra det kvalitative til det kvantitative, f.eks. laves indices.
Mens ’Tid til Dansk’ skabte kvantitativ evidens for, at én times ekstra danskundervisning ikke øger færdighedsniveauet og kunne illustrere disse forhold numerisk samtidig med fremvisning af relationer til en anden variabel: ’resurser til specialundervisningen’, stiller sagen sig lidt anderledes for PISA. I denne undersøgelse har vi til gode at se hvorledes anvendte resurser inden for undervisningssektoren står i relation til udbyttet i form af gennemsnitlige færdigheder for eleverne; vurderet og sammenlignet over de deltagende OECD lande. Et synspunkt kunne være, at reaktioner på de tilgængelige rangordninger giver først mening, når man ser dem i dette resurse-input lys.
Fra en hel anden side frembærer PISA undersøgelsen en kvantitativ evidens for, at danske elever har svært ved at frigøre sig fra den sociale arv. Der argumenteres for dette på baggrund af en relation mellem de to kvantitative variable: færdighedsniveau og en indeks-værdi til måling af elevens socioøkonomiske niveau. I begge tilfælde er der tale om, at baggrunden for indeksværdierne er en lang række kvalitative variable (opgavesvar og elevens oplysninger vedrørende forældrebaggrund), som er blevet transformeret til kvantitative. Relationen forudsætter accept af en bestemt (matematisk) struktur i denne relation, hvorfra man – hvis den holder – kan udlede ’forventede færdighedsniveauer’ for elever med en given socioøkonomisk baggrund. Begrebet ’mønstrebryder’ afledes herfra som en elev, der har et faktisk færdighedsniveau, der er højere en forventet.
Eksemplet med ’mønsterbryder’ er medtaget fordi det illustrerer, hvorledes ønsket om kvantitativ evidens ud fra undersøgelser hvor kvalitative variable er blevet transformeret til kvantitative kan give anledning til begreber, der i høj grad trækker på forudsætningerne bag ved den formelle beskrivelse (dvs. statistiske model – her en regressionsmodel) for de beskrevne variable. Denne beskrivelse og definition af ’mønsterbryder’ ville f.eks. ikke være mulig uden den nævnte transformation fra rækken af kvalitative variable.