22. marts 2010 — Generel samfundsvidenskab
Dette er en spændende analyse.

I USA er der mere kontrol med politiske donationer end i Danmark - og alle oplysninger er offentligt tilgængelige. Det gør det muligt at undersøge bl.a. hvilke brancher der giver penge til hvilke politikere. Og således ovenstående graf, der har tre interessante indsigter (synes jeg).
For det første er den blå “bølge” mere flad end den røde. Det kan tolkes sådan at demokraterne er en mere divers gruppe end republikanerne (rød bølge). Dette understreges af at en betragtelig del af demokraterne faktisk har værdier større end 0 på den ideologiske skala (0 er sat til uafhængig, negative værdier er venstreorienteret og positive værdier er højreorienterede).
For det andet overlapper de to bølger lidt, hvilket giver en indikation af hvor store/små mulighederne for samarbejde mellem de to partier er.
For det tredje er en masse forskellige brancher plottet ind. Kun fire brancher er klar republikanske (Olie, bil, bygge og energi). Blandt de resterende er der dog store forskelle. Film branchen er mest vestreorienteret, mens hedge funde og andre finansfolk, tilsyneladende “hedger” deres donationer (dvs. de spiller på begge heste). Tandlæger og forsikringsfolk ligger ret langt til højre.
Overraskende?
Bare man kunne lave noget tilsvarende i Danmark.
Del dette
12. januar 2010 — Generel samfundsvidenskab, Grafer
Jeg elsker når folk deler deres arbejde: Fornyligt diskuterede Gelman en graf af sammenhængen mellem et lands udgifter til sygehusvæsenet. Det fik så en vis Frank Hansen til at lægge sin egen lille analyse frem. Jeg har så pudset grafen lidt af, og fremhævet danmark:

Det gik lidt hurtigt med at lave grafen, så jeg fik ikke ekspliciteret at udgifterne er pr. person pr. år i købekrafts justeret USD.
Konklusion: Vi kan godt gøre det bedre.
Del dette
6. november 2009 — Generel samfundsvidenskab
I mangel af bedre kan BNP prognoser helt sikkert bruges til et eller andet. Men jeg er alligevel overrasket over hvor store ueninghederne kan være. For sjov sammenlignede jeg IMF’s prognose over for CIA’s prognoser. Resultatet ses nedenfor.

Hvis IMF og CIA havde været enige - skulle punkterne (som hver repræsentere et land) være fordelt langs den blå linje. I stedet ser vi at CIA generelt er langt mere optimistisk - særligt for lande som IMF vurdere vil have en negativ vækst.
Herudover er det dog slående hvor store forskelle der er mellem enkeltlande. Nederst til højre er fx en prik (Zimbabwe). IMF vurdere realvæksten til ca 4% - CIA vurdere væksten til ca. -14%. Midt øverst er en anden prik. IMF vurdere real-væksten til ca. 0,5%, mens CIA vurdere realvæksten til ca. 14%. Og så videre.
Fremover er jeg mere forsigtig med at tillægge BNP prognoser nogen som helst værdi.
(ps. kilderne er angivet i figuren: IMF: http://2.ly/QR og CIA: http://2.ly/QS)
Del dette
31. oktober 2009 — Generel samfundsvidenskab, Grafer
I Danmark forestår den progressive beskatning en, sammenlignet med andre lande, stor omfordeling af indkomsten. Giver de velbeslåede derudover selv lidt ekstra?
Kræftens Bekæmpelse har lagt indsamlingsresultater ud på internettet. Kombineret med data fra de kommunale nøgletal, kan man undersøge samenhængen mellem indsamlingsresultater og forhold som andel af beboer i bymæssig beboelse, befolkningstæthed, region, skattegrundlag m.m. Stort set alt er dog insignifikant. Kort sagt: Folk giver det de giver - sikkert en tyver som ligger lommen.

Klik for større udgave
For de nysgrerrige: Billedet er det samme (inkl. øboernes generøsitet) i 2008. Data stammer fra kræftens bekæmpelses hjemmeside, og de kommunale nøgletal.
Del dette
29. oktober 2009 — Grafer
I min sidste post bragte jeg Anscombe’s kvartet på banen: Fire meget forskellige grafer - der forskelligeheder til trods, deler samme nøgletal: Gennemsnit, korrelation, varians og lineær regressionskoefficient. Lektien var (og er) at det altid kan betale sig at kigge på data via en graf, og aldrig plot stole på gennemsnit m.m.
Hvad betyder det for de grafer der bruges ude for snævre statistiske cirkler - fx i erhvervslivet? Er den nuværende praksis, hvor excel ofte har sat standarden, optimal? Hvis du har ideer, så skriv dem endelig i kommentarfeltet nedenfor.
Foreløbig har jeg bemærket at de fleste kunder jeg har arbejdet for (ofte forskellige organisatoriske spørgeskemaer), ønsker resultater vist som søjler, hvor søjlerne angiver gennemsnitsværdi.
Argumentet for at fortsætte denne praksis er, at søjlediagrammer er velkendte, og derfor nemme at fortolke (At feinschmeikkre krymper tær når punktnedslag, så som gennemsnit, formidles med en søjle - lader jeg ligge for nu). På den anden side vister Anscomb’s eksempel også, at gennemsnit er en dårlig måde at beskrive en fordeling.
I mod søjlediagrammer taler også, at de har et meget lav data-blæk ratio. Dvs. der bruges meget blæk på at beskrive meget lidt data. Så hvorfor - og særligt i disse miljøsympatiske tider - printe en hel søjle, når man blot kan printe en lille prik for den værdi man er interesseret i?

Alt i alt synes jeg der må være god grund til at personalechefer, HR-ansvarlige og andre ledere, overvejer at finde måder at visualisere fx, medarbejdertilfredshed på. Nedenfor er fire forskellige måder at angribe visualiseringen på.
Det er meningen at eksemplet illustrere en virksomhed på ca. 100 ansatte i 8 forskellige kontorer. Graferne nedenfor viser det gennemsnitlige tilfredshedsniveau i hvert kontor.
Øverst til venstre er et almindeligt søjlediagram med de problemer jeg lige har beskrevet. Øverst til højre er de faktiske værdier for hver ansat i hvert kontor, tilføjet søjlediagrammet. Herved fås et klart udtryk for at gennemsnittet i de fleste tilfælde dækker over meget store forskelle blandt medarbejderne. Nederst til venstre er søjle diagrammet skiftet ud med et traditionelt boxplot. Mange kan ikke lide boxplots’ tilsyneladende kompleksitet. Men boxplots (eller box and whisker plots) er faktisk simple. Boksen udgør det område hvor 50 procent af data befinder sig. Stregen inden i boksen angiver medianen. De tynde pinde (whiskers) strækker sig ud til mindste og største værdie i data, med mindre disse værdier er outliers. Hvis der er outliers vises disse som individuelle datapunkter.
Det fremgår tydeligt af boxplottet, at i kontor “e” er medarbejderne generelt lige tilfredse, men en enkelt medarbejder er markant mere tilfreds end de andre. I kontor “c” derimod er der to medarbejdere som er markant mindre tilfredse end kollegerne. Denne indsigt fremgår ikke af det almindelige søjlediagram. Det fremgår også, at selv om kontor “c” og “d” næsten har samme gennemsnits scorer - er der alligevel tale om meget forskellige kontorer. I kontor “d” er der således generelt meget store forskelle i medarbejdernes trivsel. Vil en personalechef finde det relevant at tage disse forskelle i betragtning når der gennemføres udviklingstiltag i organisationen? Hvis “ja”, så er et almindeligt søjlediagram ikke godt nok.
Endelig, nederst til højre, er et dekadent blækorgie, basseret på søjlediagram, med individuelle værdier for hver ansat, tilføjet et baggrundstapet med fortolkningshjælp. Værdier i det røde felt er uacceptabel, værdier i det orange felt er skidt, værdier i det hvide felt er målsætningen, og værdier i det grønne felt er over målsætning.

En femte fremgangsmåde kunne være et såkaldt beanplot. Beanplottet viser både individuelle datapunkter, gennemsnit på tværs af alle kategorier, median og en distribution af data. I princippet er et beanplot derfor boxplottet overlegent. Men - efter min vurderin - kun ved store datasæt. I organisationsanalser hvor der næsten altid vil være mellem 10 og 20 ansatte i et kontor - højst 30, er boxplottet bedre. Beanplot nedenfor.

Så hvad der den bedste løsning? Personligt synes jeg boxplottet kommer tætest på - evt. med individuelle datapunkter tilføjet, og medianen (den midterste streg i hver boks) fremhævet meget tydeligt - måske kombineret med en diamant form der angiver gennemsnit. Imidlertid er det stadig ikke helt tilfredsstillende. Vil alle forstå det - og vil undersøgelsens blive taget alvorligt når boxplottet illustrere at hvert kontor rummer mange forskellige meninger? Jeg tror hvertfald - særligt over tid - at det kan betale sig at undersøge om nogle kontorere igen og igen, viser resultater med stor spredning. I givet fald vil det måske bedste egne sig som en særskilt afrapportering?
Jeg håber du, som læser denne post - har et forslag vi kan arbejde videre med…
nb. alle data er tilfældigt genereret.
Del dette
28. oktober 2009 — Diverse, Grafer
Ofte hører jeg folk foretrække tabeller frem for grafer. Et hovedargument er tit at grafer kan være svære at aflæse, hvorimod en tabel altid er præcis.
Hertil kan der siges at det netop er en pointe at en graf ikke gøre et stort nummer ud af små forskelle: Hvis man har svært ved at se forskellen på grafen, er det nok fordi forskellen er lille.
Studier i perception har desuden gentagende gange vist, at de fleste mennesker faktisk tilegner sig budskabet i en graf hurtigere end budskabet i en tabel.
Den absolut væsentligste grund til at bruge grafer er dog, at tal lyver. Ikke med vilje selvfølgelig - men statistiske nøgletal så som gennemsnit og varians, er kun klodsede måder at opsummere data på. Eksempelvis denne tabel:
| Gennemsnit X |
9 |
| Varians X |
10 |
| Gennemsnit Y |
7,5 |
| Varians Y |
3,75 |
| Korrelation ml. X og Y |
0,816 |
| Liniær regressions linje |
y = 3 + 0,5x |
Enhver der har arbejdet med tal, vil med rimelighed kunne forestille sig hvad disse tal dækker over. Du kan evt. prøve at tegne sammenhængen for dig selv først.
Læs videre →
Del dette
26. oktober 2009 — Diverse, Grafer
Regeringen Lars Løkke Rasmussen foreslår i sit regeringsudspil, fremlagt ved folketingets åbning første tirsdag i oktober, at sænke den kriminelle lavalder. Uanset at dette er i modsætning til anbefalingerne fra regerings egen kommission. Ganske vidst har jeg ikke kunne finde udtalelsen fra den seneste komission (nedsat i 2007) - men Rapport om ungdomskriminalitet fra den foregående komission (med et vist medlemssammenfald) er frit tilgængelig på nettet. Fra resumet kan bl.a. læses:
Det er ekspertgruppens vurdering, at serviceloven i langt de fleste tilfælde giver tilstrækkelige muligheder for en reaktion med et socialt indhold, herunder med mulighed for at fastholde den pågældende med henblik på behandling, hvis et barn eller en ung under 15 år begår alvorligere kriminalitet.
Det står også at læse i rapporten fra 2001 at det er svært at få et statistisk overblik over omfanget af ungdomskriminalitet, fordi kriminalitet begået af unge under 15 ikke registreres på samme måde som kriminalitet begået af unge over 15.
Der er derfor to veje til at vurdere omfanget af ungdomskriminalitet: Den ene er at snakke med professionelle - politi, forsorg, socialrådgiverel, om deres oplevelser. De vil kunne fortælle os om unge i stigende omfang tager skylden for de ældre, om de er blevet mere forrået, om der er blevet flere episoder af den helt grove karakter, som nemt skjuler sig i statistikken.
Den anden metoder er at bruge statistik for den nærmeste aldersgruppe som indikator. Dvs. vi kigger på omfanget af kriminalitet begået af unge over 15. Det gør vi i figuren nedenfor. Bemærk dog at de to metoder kan være gensidigt udelukkende. Når vi ser et fald i kriminalitet for unge over 15, kan det skyldes at der er flere unge under 15 som strategisk tager skylden. Kort sagt: Nedenstående kan ikke bruges til særligt meget uden inddragelse af fagpersonernes kendksab til kontekst.
Udvikling i antallet af domsfældelser, 2006-2008, unge ml. 15 og 19, fordelt på forskellige typer af overtrædelser. 2006 sættes til værdien 1. I figuren er der for hvert år angivet hvor mange domsfældelser der fandt sted i seriens sidste år, 2008. Herved kan man se hvilke overtrældelser der er flest af.

Klik for at se fuld størrelse
En lidt anden måe at vise de samme data på, er med et tilpasset “bumps chart” , som jeg frimodigt oversætter til “hop plot”. I figuren nedenfor er alle kategorier af lovovertrædelser i 2006 sat til indeksværdi 1 (dvs. 100%). For hvert år, er der for hver kategori, ligesom i figur 1 ovenfor, angivet den relative ændring. Blot antager graflinjen forskellige farver afhængig af ændringen. Hvis der er færre lovovertrædelser end året før, er linjen grøn, hvis der er flere, er linjen rød.

Klik for fuld størrelse
Overordnet set er der i 2008 færre dømte lovovertrædelser end i 2006. Omvendt er der flere end i 2007. Kategorien “alvorligere vold” er i 2008 steget med ca 10% sammenlignet med 2006.
Men det ser ikke ud til at volden er eksploderet. Her skulle man bruge en længere tidsserie.
Del dette
23. oktober 2009 — Diverse, Grafer
Danmarks statistik er en guldgrubbe. Fx kan man hente relativt detaljeret data for tildeling af opholdstilladelser. Grafen nedenfor viser udviklingen fra 1996 til 2008, fordelt på type af opholdstilladelser, og verdensdel. Året 2001 - hvor regeringsmagten overgik til Anders Fogh Rasmussen og VK - er markeret med en lodret streg.
Bemærk at y aksen varierere meget fra de forskellige typer af opholdstilladelser.

statistik opholdstilladelser 1996 2008
Overordnet, ser det ud til at AFR1 fra starten satte fokus på at nedbringe indvandring fra familiesammenføringer, og fra personer tildelt flygtninge status. Senere ser vi en stigning i opholdstilladelser givet til uddannelse og arbejde. Primært tildelt europæere og asiater.
Jeg har ikke gravet i tallene til at vide hvad der adskiller “Andet grundlag” fra “Øvrige grunde”. Fx savner jeg humanitært ophold. Skal jeg forfine grafen vil jeg nok også slå de tre forskellige familiesammenføringer sammen til en enkelt kategori.
Edit: Her er en version hvor familiesammenføringer er slået sammen i en kategori, og hvor skala for y-aksen er den samme for alle subplots:

Del dette
25. september 2009 — Ledelse, Organisation
Normalt reklamerer jeg ikke for dzidzo på denne side. Set i lyset af djøfs medlemsundersøgelse hvor 39 % angiver balance mellem arbejde og familie som en af de tre største stressfaktorer, gør jeg dog lige opmærksom på denne lille ‘nyhed‘:

Udbrændthed skyldes konflikt mellem arbejde og familieliv.
Del dette
23. september 2009 — Diverse
Jeg har længe været meget interesseret i hvorledes statistik og moderne computerkræft kan hjælpe med at opdage nyttige mønstre i meget komplekse sammenhænge. De seneste år er der kommet flere og flere eksempler på værdifulde indsigter fra textmining. Vi kan dels takke moores lov, dels internettets enorme mængde af textmining venlige data.
OKcupid har i mange år været det eneste interessante netdating sted jeg har hørt om - og det er mig en gåde at ingen af de øvrige firmaer har forsøgt at efterligne deres statistikbårne koncept.
OKcupid’s datamining giver dels brugerne direkte fordele ift. matchsandsynlighed mellem to potentielle turtelduer, dels giver OKcupid os andre generelle indsigter i den menneskelige psyke såvel som sprogets finurligheder. Eksempelvis fungerer det tilsyneladende ikke at kontakete sin partner med ord som “hot”, “sexy” eller beautifull. Men hvad med “pretty”? Pretty kan jo bruges på mange forskellige måder:

Så når “pretty” bruges til at beskrive udseende går det galt. Men når “pretty” bruges til at beskrive andre forhold på en ikke alt for skråsikker måde - går det godt.
Jeg kan i øvrigt godt lide at gennemsnits svarprocenten på 32% her udgør en slags baseline. Så det er nemt at se at grønne søjler er bedre end gennemsnittet og røde søjler er dårligere end gennemsnittet.
Du kan læse mange flere gode råd på okcupids blog.
link: http://blog.okcupid.com/index.php/2009/09/14/online-dating-advice-exactly-what-to-say-in-a-first-message/
Del dette