I min sidste post bragte jeg Anscombe’s kvartet på banen: Fire meget forskellige grafer - der forskelligeheder til trods, deler samme nøgletal: Gennemsnit, korrelation, varians og lineær regressionskoefficient. Lektien var (og er) at det altid kan betale sig at kigge på data via en graf, og aldrig plot stole på gennemsnit m.m.
Hvad betyder det for de grafer der bruges ude for snævre statistiske cirkler - fx i erhvervslivet? Er den nuværende praksis, hvor excel ofte har sat standarden, optimal? Hvis du har ideer, så skriv dem endelig i kommentarfeltet nedenfor.
Foreløbig har jeg bemærket at de fleste kunder jeg har arbejdet for (ofte forskellige organisatoriske spørgeskemaer), ønsker resultater vist som søjler, hvor søjlerne angiver gennemsnitsværdi.
Argumentet for at fortsætte denne praksis er, at søjlediagrammer er velkendte, og derfor nemme at fortolke (At feinschmeikkre krymper tær når punktnedslag, så som gennemsnit, formidles med en søjle - lader jeg ligge for nu)1. På den anden side vister Anscomb’s eksempel også, at gennemsnit er en dårlig måde at beskrive en fordeling.
I mod søjlediagrammer taler også, at de har et meget lav data-blæk ratio. Dvs. der bruges meget blæk på at beskrive meget lidt data. Så hvorfor - og særligt i disse miljøsympatiske tider - printe en hel søjle, når man blot kan printe en lille prik for den værdi man er interesseret i?
Alt i alt synes jeg der må være god grund til at personalechefer, HR-ansvarlige og andre ledere, overvejer at finde måder at visualisere fx, medarbejdertilfredshed på. Nedenfor er fire forskellige måder at angribe visualiseringen på.
Det er meningen at eksemplet illustrere en virksomhed på ca. 100 ansatte i 8 forskellige kontorer. Graferne nedenfor viser det gennemsnitlige tilfredshedsniveau i hvert kontor.
Øverst til venstre er et almindeligt søjlediagram med de problemer jeg lige har beskrevet. Øverst til højre er de faktiske værdier for hver ansat i hvert kontor, tilføjet søjlediagrammet. Herved fås et klart udtryk for at gennemsnittet i de fleste tilfælde dækker over meget store forskelle blandt medarbejderne. Nederst til venstre er søjle diagrammet skiftet ud med et traditionelt boxplot. Mange kan ikke lide boxplots’ tilsyneladende kompleksitet2. Men boxplots (eller box and whisker plots) er faktisk simple. Boksen udgør det område hvor 50 procent af data befinder sig. Stregen inden i boksen angiver medianen. De tynde pinde (whiskers) strækker sig ud til mindste og største værdie i data, med mindre disse værdier er outliers3. Hvis der er outliers vises disse som individuelle datapunkter.
Det fremgår tydeligt af boxplottet, at i kontor “e” er medarbejderne generelt lige tilfredse, men en enkelt medarbejder er markant mere tilfreds end de andre. I kontor “c” derimod er der to medarbejdere som er markant mindre tilfredse end kollegerne. Denne indsigt fremgår ikke af det almindelige søjlediagram. Det fremgår også, at selv om kontor “c” og “d” næsten har samme gennemsnits scorer - er der alligevel tale om meget forskellige kontorer. I kontor “d” er der således generelt meget store forskelle i medarbejdernes trivsel. Vil en personalechef finde det relevant at tage disse forskelle i betragtning når der gennemføres udviklingstiltag i organisationen? Hvis “ja”, så er et almindeligt søjlediagram ikke godt nok.
Endelig, nederst til højre, er et dekadent blækorgie, basseret på søjlediagram, med individuelle værdier for hver ansat, tilføjet et baggrundstapet med fortolkningshjælp. Værdier i det røde felt er uacceptabel, værdier i det orange felt er skidt, værdier i det hvide felt er målsætningen, og værdier i det grønne felt er over målsætning.
En femte fremgangsmåde kunne være et såkaldt beanplot. Beanplottet viser både individuelle datapunkter, gennemsnit på tværs af alle kategorier, median og en distribution af data. I princippet er et beanplot derfor boxplottet overlegent. Men - efter min vurderin - kun ved store datasæt. I organisationsanalser hvor der næsten altid vil være mellem 10 og 20 ansatte i et kontor - højst 30, er boxplottet bedre. Beanplot nedenfor.
Så hvad der den bedste løsning? Personligt synes jeg boxplottet kommer tætest på - evt. med individuelle datapunkter tilføjet, og medianen (den midterste streg i hver boks) fremhævet meget tydeligt - måske kombineret med en diamant form der angiver gennemsnit. Imidlertid er det stadig ikke helt tilfredsstillende. Vil alle forstå det - og vil undersøgelsens blive taget alvorligt når boxplottet illustrere at hvert kontor rummer mange forskellige meninger? Jeg tror hvertfald - særligt over tid - at det kan betale sig at undersøge om nogle kontorere igen og igen, viser resultater med stor spredning. I givet fald vil det måske bedste egne sig som en særskilt afrapportering?
Jeg håber du, som læser denne post - har et forslag vi kan arbejde videre med…
nb. alle data er tilfældigt genereret.
- fordi en søjlegraf altid skal gå fra 0 til dens værdi, og ikke bør kunne gå under 0, er der konsensus om at søjlediagrammer primært bør bruges ved frekvensfordelinger, så som histogrammer [↩]
- Dertil kommer at findes i et utal af afskygninger - hvorfor man ikke altid kan være helt sikker på hvordan de skal tolkes. Dette er et validt modargument - men alligevel - den mest vedtagende praksis er den som jeg beskriver ovenfor [↩]
- normalt defineres disse som værdier der ligger mere end 1.5 gange forskellen mellem 1. kvartil og 3. kvartil, væk fra enten 1. eller 3. kvartil. [↩]




Skriv den første kommentar ↓
Du kan blive den første...Udfyld formularen nedenfor og giv din mening til kende.
Hvad synes du?