Kritik mot PISA – men är den legitim?

Idag har Ekot ett reportage om en dansk forskare (Svend Kreiner) som kritiserar tolkningen av PISA-resultaten. Utifrån den begränsade information som förmedlas i reportaget är det svårt att bilda sig en uppfattning om huruvida kritiken är legitim eller inte. Det är några saker som jag hakar upp mig på i reportaget.

Pisa-testerna är kunskapstester som görs av 15-åringar i drygt 50 länder var tredje år.

2009 var det 65 länder och 2006 var det 57 länder. Nåja.

Testresultaten blir till en rankinglista där länderna rangordnas.

Nja, rankinglistan är nog det minst intressanta resultatet av hela PISA. I alla mätningar finns en osäkerhet, givetvis även i PISA. Det resultat, eller det genomsnittliga poängvärde, som ett land får är behäftat med en osäkerhet och nu behövs en liten utsvävning i statistiska metoder. När man arbetar med stickprovsdata som i PISA, alltså man gör ett urval ur en population, kommer resultatet att få en viss osäkerhet. Genom att statistiskt analysera data kan man beräkna ett standardfel som är ett mått på osäkerheten. Standardfelet (SE) får då inte vara så stort att resultatet plus/minus två ggr standardfelet faller utanför den signifikansnivå man valt (vanligen 5%). Alltså, det numeriska värde som man fått fram är behäftat med en osäkerhet på ±2SE. Sverige hade resultatet 507 poäng på lässkalan i PISA 2006 vilket med ett standardfel på 3,5 ger att Sveriges resultat sannolikt ligger mellan 500 och 514 poäng. Eftersom alla länders resultat har en liknande osäkerhet blir det då inte så himla intressant att titta på en rankinglista där en skillnad på några få poäng kan göra många platser på listan. Bättre är då att göra en gruppering av länder som inte har ett resultat som är signifikant skilt från det land man tittar på, en grupp av länder som har signifikant bättre resultat, och en grupp av länder som har signifikant sämre resultat.

Professor Svend Kreiner har länge varit kritisk mot Pisas sätt att utvärdera sina testresultat och nu har han gjort en egen genomgång av alla tester i läsförståelse från 2006.

Man kan undra varför han väljer lästestet i 2006 års undersökning när det var naturvetenskap som var huvudområde, alltså var ca hälften av provfrågorna naturvetenskap, en fjärdedel matematik och en fjärdedel läsning. Det ger en större osäkerhet att jobba med ett område som inte är undersökningens huvudfokus.

– Jag kunde få Danmark att bli som bäst trea och som sämst fyrtioetta, beroende på vilka frågor jag valde att analysera.

Som jag sagt tidigare är placeringen pÃ¥ rankinglistan i sig inte särskilt intressant, utan vilka signifikanta skillnader som uppstÃ¥r, men det jag reagerar pÃ¥ här är ”beroende pÃ¥ vilka frÃ¥gor jag valde att analysera”. Om han nu valt att bara använda nÃ¥gra av de redan fÃ¥ frÃ¥gorna inom läsning sÃ¥ mÃ¥ste osäkerheten bli väldigt stor i resultatet, särskilt som det frÃ¥gebatteri i läsning som är med är det minsta antal frÃ¥gor som anses vara möjligt att använda för att kunna säga nÃ¥got om resultatet. Inte konstigt om han fick stora variationer säger jag bara. Det skall bli intressant att titta närmare pÃ¥ själva rapporten som enligt @tovesvenonius pÃ¥ ekot ännu inte är offentliggjord.

Slutligen noterar jag att han valt att gå ut med detta resultat (som inte publicerats än) just när alla länders PISA-ansvariga är på ett PGB-möte (PISA Governing Board) och inte finns tillgängliga för kommentarer …