Indlæg i kategorien 'Grafer' ↓
januar 12th, 2010 — Generel samfundsvidenskab, Grafer
Jeg elsker når folk deler deres arbejde: Fornyligt diskuterede Gelman en graf af sammenhængen mellem et lands udgifter til sygehusvæsenet. Det fik så en vis Frank Hansen til at lægge sin egen lille analyse frem. Jeg har så pudset grafen lidt af, og fremhævet danmark:

Det gik lidt hurtigt med at lave grafen, så jeg fik ikke ekspliciteret at udgifterne er pr. person pr. år i købekrafts justeret USD.
Konklusion: Vi kan godt gøre det bedre.
Del dette
oktober 31st, 2009 — Generel samfundsvidenskab, Grafer
I Danmark forestår den progressive beskatning en, sammenlignet med andre lande, stor omfordeling af indkomsten. Giver de velbeslåede derudover selv lidt ekstra?
Kræftens Bekæmpelse har lagt indsamlingsresultater ud på internettet. Kombineret med data fra de kommunale nøgletal, kan man undersøge samenhængen mellem indsamlingsresultater og forhold som andel af beboer i bymæssig beboelse, befolkningstæthed, region, skattegrundlag m.m. Stort set alt er dog insignifikant. Kort sagt: Folk giver det de giver - sikkert en tyver som ligger lommen.

Klik for større udgave
For de nysgrerrige: Billedet er det samme (inkl. øboernes generøsitet) i 2008. Data stammer fra kræftens bekæmpelses hjemmeside, og de kommunale nøgletal.
Del dette
oktober 29th, 2009 — Grafer
I min sidste post bragte jeg Anscombe’s kvartet på banen: Fire meget forskellige grafer - der forskelligeheder til trods, deler samme nøgletal: Gennemsnit, korrelation, varians og lineær regressionskoefficient. Lektien var (og er) at det altid kan betale sig at kigge på data via en graf, og aldrig plot stole på gennemsnit m.m.
Hvad betyder det for de grafer der bruges ude for snævre statistiske cirkler - fx i erhvervslivet? Er den nuværende praksis, hvor excel ofte har sat standarden, optimal? Hvis du har ideer, så skriv dem endelig i kommentarfeltet nedenfor.
Foreløbig har jeg bemærket at de fleste kunder jeg har arbejdet for (ofte forskellige organisatoriske spørgeskemaer), ønsker resultater vist som søjler, hvor søjlerne angiver gennemsnitsværdi.
Argumentet for at fortsætte denne praksis er, at søjlediagrammer er velkendte, og derfor nemme at fortolke (At feinschmeikkre krymper tær når punktnedslag, så som gennemsnit, formidles med en søjle - lader jeg ligge for nu). På den anden side vister Anscomb’s eksempel også, at gennemsnit er en dårlig måde at beskrive en fordeling.
I mod søjlediagrammer taler også, at de har et meget lav data-blæk ratio. Dvs. der bruges meget blæk på at beskrive meget lidt data. Så hvorfor - og særligt i disse miljøsympatiske tider - printe en hel søjle, når man blot kan printe en lille prik for den værdi man er interesseret i?

Alt i alt synes jeg der må være god grund til at personalechefer, HR-ansvarlige og andre ledere, overvejer at finde måder at visualisere fx, medarbejdertilfredshed på. Nedenfor er fire forskellige måder at angribe visualiseringen på.
Det er meningen at eksemplet illustrere en virksomhed på ca. 100 ansatte i 8 forskellige kontorer. Graferne nedenfor viser det gennemsnitlige tilfredshedsniveau i hvert kontor.
Øverst til venstre er et almindeligt søjlediagram med de problemer jeg lige har beskrevet. Øverst til højre er de faktiske værdier for hver ansat i hvert kontor, tilføjet søjlediagrammet. Herved fås et klart udtryk for at gennemsnittet i de fleste tilfælde dækker over meget store forskelle blandt medarbejderne. Nederst til venstre er søjle diagrammet skiftet ud med et traditionelt boxplot. Mange kan ikke lide boxplots’ tilsyneladende kompleksitet. Men boxplots (eller box and whisker plots) er faktisk simple. Boksen udgør det område hvor 50 procent af data befinder sig. Stregen inden i boksen angiver medianen. De tynde pinde (whiskers) strækker sig ud til mindste og største værdie i data, med mindre disse værdier er outliers. Hvis der er outliers vises disse som individuelle datapunkter.
Det fremgår tydeligt af boxplottet, at i kontor “e” er medarbejderne generelt lige tilfredse, men en enkelt medarbejder er markant mere tilfreds end de andre. I kontor “c” derimod er der to medarbejdere som er markant mindre tilfredse end kollegerne. Denne indsigt fremgår ikke af det almindelige søjlediagram. Det fremgår også, at selv om kontor “c” og “d” næsten har samme gennemsnits scorer - er der alligevel tale om meget forskellige kontorer. I kontor “d” er der således generelt meget store forskelle i medarbejdernes trivsel. Vil en personalechef finde det relevant at tage disse forskelle i betragtning når der gennemføres udviklingstiltag i organisationen? Hvis “ja”, så er et almindeligt søjlediagram ikke godt nok.
Endelig, nederst til højre, er et dekadent blækorgie, basseret på søjlediagram, med individuelle værdier for hver ansat, tilføjet et baggrundstapet med fortolkningshjælp. Værdier i det røde felt er uacceptabel, værdier i det orange felt er skidt, værdier i det hvide felt er målsætningen, og værdier i det grønne felt er over målsætning.

En femte fremgangsmåde kunne være et såkaldt beanplot. Beanplottet viser både individuelle datapunkter, gennemsnit på tværs af alle kategorier, median og en distribution af data. I princippet er et beanplot derfor boxplottet overlegent. Men - efter min vurderin - kun ved store datasæt. I organisationsanalser hvor der næsten altid vil være mellem 10 og 20 ansatte i et kontor - højst 30, er boxplottet bedre. Beanplot nedenfor.

Så hvad der den bedste løsning? Personligt synes jeg boxplottet kommer tætest på - evt. med individuelle datapunkter tilføjet, og medianen (den midterste streg i hver boks) fremhævet meget tydeligt - måske kombineret med en diamant form der angiver gennemsnit. Imidlertid er det stadig ikke helt tilfredsstillende. Vil alle forstå det - og vil undersøgelsens blive taget alvorligt når boxplottet illustrere at hvert kontor rummer mange forskellige meninger? Jeg tror hvertfald - særligt over tid - at det kan betale sig at undersøge om nogle kontorere igen og igen, viser resultater med stor spredning. I givet fald vil det måske bedste egne sig som en særskilt afrapportering?
Jeg håber du, som læser denne post - har et forslag vi kan arbejde videre med…
nb. alle data er tilfældigt genereret.
Del dette
oktober 28th, 2009 — Diverse, Grafer
Ofte hører jeg folk foretrække tabeller frem for grafer. Et hovedargument er tit at grafer kan være svære at aflæse, hvorimod en tabel altid er præcis.
Hertil kan der siges at det netop er en pointe at en graf ikke gøre et stort nummer ud af små forskelle: Hvis man har svært ved at se forskellen på grafen, er det nok fordi forskellen er lille.
Studier i perception har desuden gentagende gange vist, at de fleste mennesker faktisk tilegner sig budskabet i en graf hurtigere end budskabet i en tabel.
Den absolut væsentligste grund til at bruge grafer er dog, at tal lyver. Ikke med vilje selvfølgelig - men statistiske nøgletal så som gennemsnit og varians, er kun klodsede måder at opsummere data på. Eksempelvis denne tabel:
| Gennemsnit X |
9 |
| Varians X |
10 |
| Gennemsnit Y |
7,5 |
| Varians Y |
3,75 |
| Korrelation ml. X og Y |
0,816 |
| Liniær regressions linje |
y = 3 + 0,5x |
Enhver der har arbejdet med tal, vil med rimelighed kunne forestille sig hvad disse tal dækker over. Du kan evt. prøve at tegne sammenhængen for dig selv først.
Continue reading →
Del dette
oktober 26th, 2009 — Diverse, Grafer
Regeringen Lars Løkke Rasmussen foreslår i sit regeringsudspil, fremlagt ved folketingets åbning første tirsdag i oktober, at sænke den kriminelle lavalder. Uanset at dette er i modsætning til anbefalingerne fra regerings egen kommission. Ganske vidst har jeg ikke kunne finde udtalelsen fra den seneste komission (nedsat i 2007) - men Rapport om ungdomskriminalitet fra den foregående komission (med et vist medlemssammenfald) er frit tilgængelig på nettet. Fra resumet kan bl.a. læses:
Det er ekspertgruppens vurdering, at serviceloven i langt de fleste tilfælde giver tilstrækkelige muligheder for en reaktion med et socialt indhold, herunder med mulighed for at fastholde den pågældende med henblik på behandling, hvis et barn eller en ung under 15 år begår alvorligere kriminalitet.
Det står også at læse i rapporten fra 2001 at det er svært at få et statistisk overblik over omfanget af ungdomskriminalitet, fordi kriminalitet begået af unge under 15 ikke registreres på samme måde som kriminalitet begået af unge over 15.
Der er derfor to veje til at vurdere omfanget af ungdomskriminalitet: Den ene er at snakke med professionelle - politi, forsorg, socialrådgiverel, om deres oplevelser. De vil kunne fortælle os om unge i stigende omfang tager skylden for de ældre, om de er blevet mere forrået, om der er blevet flere episoder af den helt grove karakter, som nemt skjuler sig i statistikken.
Den anden metoder er at bruge statistik for den nærmeste aldersgruppe som indikator. Dvs. vi kigger på omfanget af kriminalitet begået af unge over 15. Det gør vi i figuren nedenfor. Bemærk dog at de to metoder kan være gensidigt udelukkende. Når vi ser et fald i kriminalitet for unge over 15, kan det skyldes at der er flere unge under 15 som strategisk tager skylden. Kort sagt: Nedenstående kan ikke bruges til særligt meget uden inddragelse af fagpersonernes kendksab til kontekst.
Udvikling i antallet af domsfældelser, 2006-2008, unge ml. 15 og 19, fordelt på forskellige typer af overtrædelser. 2006 sættes til værdien 1. I figuren er der for hvert år angivet hvor mange domsfældelser der fandt sted i seriens sidste år, 2008. Herved kan man se hvilke overtrældelser der er flest af.

Klik for at se fuld størrelse
En lidt anden måe at vise de samme data på, er med et tilpasset “bumps chart” , som jeg frimodigt oversætter til “hop plot”. I figuren nedenfor er alle kategorier af lovovertrædelser i 2006 sat til indeksværdi 1 (dvs. 100%). For hvert år, er der for hver kategori, ligesom i figur 1 ovenfor, angivet den relative ændring. Blot antager graflinjen forskellige farver afhængig af ændringen. Hvis der er færre lovovertrædelser end året før, er linjen grøn, hvis der er flere, er linjen rød.

Klik for fuld størrelse
Overordnet set er der i 2008 færre dømte lovovertrædelser end i 2006. Omvendt er der flere end i 2007. Kategorien “alvorligere vold” er i 2008 steget med ca 10% sammenlignet med 2006.
Men det ser ikke ud til at volden er eksploderet. Her skulle man bruge en længere tidsserie.
Del dette
oktober 23rd, 2009 — Diverse, Grafer
Danmarks statistik er en guldgrubbe. Fx kan man hente relativt detaljeret data for tildeling af opholdstilladelser. Grafen nedenfor viser udviklingen fra 1996 til 2008, fordelt på type af opholdstilladelser, og verdensdel. Året 2001 - hvor regeringsmagten overgik til Anders Fogh Rasmussen og VK - er markeret med en lodret streg.
Bemærk at y aksen varierere meget fra de forskellige typer af opholdstilladelser.

statistik opholdstilladelser 1996 2008
Overordnet, ser det ud til at AFR1 fra starten satte fokus på at nedbringe indvandring fra familiesammenføringer, og fra personer tildelt flygtninge status. Senere ser vi en stigning i opholdstilladelser givet til uddannelse og arbejde. Primært tildelt europæere og asiater.
Jeg har ikke gravet i tallene til at vide hvad der adskiller “Andet grundlag” fra “Øvrige grunde”. Fx savner jeg humanitært ophold. Skal jeg forfine grafen vil jeg nok også slå de tre forskellige familiesammenføringer sammen til en enkelt kategori.
Edit: Her er en version hvor familiesammenføringer er slået sammen i en kategori, og hvor skala for y-aksen er den samme for alle subplots:

Del dette
maj 19th, 2009 — Diverse, Grafer
Det er nemt at få lidt mere kød på danidas udviklingstal. Hvis man fx gerne vil have et fint lille kort over befolkningstæthed i EU landene (basseret på disse data), kan man fx bruge R og Andy Eggers smarte googlemap funktion. Det kunne fx give sådan et billede:

Data fra 2006, Malta eksklusive, Kilde: http://udviklingstal.dk/eu0.htm
Nedenfor kode til R
Continue reading →
Del dette
maj 7th, 2009 — Grafer
Med hjælp fra den kære R mail-liste har jeg opdateret hop-plottet (bumps chart) fra min tidligere post:
Den nye figur bruger linjetykkelse til at angive hvor stor forandringen har været i perioden. Røde streger angiver at andelen er faldet, mens blå streger angiver at andelen er steget. Denne figur syntes jeg er meget nemt at få et overblik over.

Som det ses er der kun en enkelt blå linje. Tallene bag denne figur er tilfældigt generert, hvilket skaber et mere kaotisk billede. Men igen giver farvemarkering og linjetykkelse overblik. Den sort streg angiver at der ikke har været nogen ændring.
Del dette
maj 2nd, 2009 — Grafer
De fleste vil vide at jeg ikke bryder mig om lagkagediagrammer, piecharts og tærtegrafer etc. (hadet barn har mange øgenavne). Men for alle de stakler der ikke kender mig, bringer wana.dk nu en lille illustration af hvorfor lagkagegrafer er så dårlige.
Nedenstående, og mange lignende, faldt jeg i dag. Læg mærke til at det grønne, gule og grå stykke lagkage næsten har samme størrelse. Sådan ser det hvertfald ud. Læs procentsatserne…

Det er nærmest umuligt a se i lagkage diagrammet at det grønne stykke er 50 % større end det gule!
Og sammenlign så med et helt almindelig søjlediagram.

Jeg kan ikke lade være med at tænke på en hvis ingeniørs oplevelse:

God tærteløs weekend 
Del dette
april 28th, 2009 — Grafer
Jorge spørger om ikke grafer m.m. i nogle tilfælde bør appellere til følelserne, i stedet for kun at repræsentere de nøgne tal. Det er et svært spørgsmål - for selv om figurerne måske kan gøres mere spektakulære, er der også en reel fare for at de bliver svære at forstå - særligt fordi følelser og visuelle referencerammer sjældent vil være ens for forskellige mennesker. Derfor er rådet normalt: Brug det der virker - velkendte graftyper, designet til at vise data på en måde som mennesket kognitivt har nemt ved at afkode. Det er af denne grund at man normalt skal holde sig fra boble-grafer m.m.
I Jared Dimonds “Den tredje Chimpanse” faldt jeg dog over en mulig undtagelse. Bryster og Penisser er jo noget vi alle har et forhold til, så derfor finder jeg faktisk følgende sammenligning af forskelle mellem hunner og hanner rigtig god - og meget sjov.


Del dette