Indlæg i kategorien 'Diverse' ↓

Hvordan formidler vi præcist og brugbart data?

Ofte hører jeg folk foretrække tabeller frem for grafer. Et hovedargument er tit at grafer kan være svære at aflæse, hvorimod en tabel altid er præcis.

Hertil kan der siges at det netop er en pointe at en graf ikke gøre et stort nummer ud af små forskelle: Hvis man har svært ved at se forskellen på grafen, er det nok fordi forskellen er lille.

Studier i perception har desuden gentagende gange vist, at de fleste mennesker faktisk tilegner sig budskabet i en graf hurtigere end budskabet i en tabel.

Den absolut væsentligste grund til at bruge grafer er dog, at tal lyver. Ikke med vilje selvfølgelig - men statistiske nøgletal så som gennemsnit og varians, er kun klodsede måder at opsummere data på. Eksempelvis denne tabel:

Gennemsnit X 9
Varians X 10
Gennemsnit Y 7,5
Varians Y 3,75
Korrelation ml. X og Y 0,816
Liniær regressions linje y = 3 + 0,5x

Enhver der har arbejdet med tal, vil med rimelighed kunne forestille sig hvad disse tal dækker over. Du kan evt. prøve at tegne sammenhængen for dig selv først.

Continue reading →

Den kriminelle lavalder

Regeringen Lars Løkke Rasmussen foreslår i sit regeringsudspil, fremlagt ved folketingets åbning første tirsdag i oktober, at sænke den kriminelle lavalder. Uanset at dette er i modsætning til anbefalingerne fra regerings egen kommission. Ganske vidst har jeg ikke kunne finde udtalelsen fra den seneste komission (nedsat i 2007) - men Rapport om ungdomskriminalitet fra den foregående komission (med et vist medlemssammenfald) er frit tilgængelig på nettet. Fra resumet kan bl.a. læses:

Det er ekspertgruppens vurdering, at serviceloven i langt de fleste tilfælde giver tilstrækkelige mu­ligheder for en reaktion med et socialt indhold, herunder med mulighed for at fastholde den pågæl­dende med henblik på behandling, hvis et barn eller en ung under 15 år begår alvorligere kriminali­tet.

Det står også at læse i rapporten fra 2001 at det er svært at få et statistisk overblik over omfanget af ungdomskriminalitet, fordi kriminalitet begået af unge under 15 ikke registreres på samme måde som kriminalitet begået af unge over 151.

Der er derfor to veje til at vurdere omfanget af ungdomskriminalitet: Den ene er at snakke med professionelle - politi, forsorg, socialrådgiverel, om deres oplevelser. De vil kunne fortælle os om unge i stigende omfang tager skylden for de ældre, om de er blevet mere forrået, om der er blevet flere episoder af den helt grove karakter, som nemt skjuler sig i statistikken.

Den anden metoder er at bruge statistik for den nærmeste aldersgruppe som indikator. Dvs. vi kigger på omfanget af kriminalitet begået af unge over 15. Det gør vi i figuren nedenfor. Bemærk dog at de to metoder kan være gensidigt udelukkende. Når vi ser et fald i kriminalitet for unge over 15, kan det skyldes at der er flere unge under 15 som strategisk tager skylden2. Kort sagt: Nedenstående kan ikke bruges til særligt meget uden inddragelse af fagpersonernes kendksab til kontekst.

Udvikling i antallet af domsfældelser, 2006-2008, unge ml. 15 og 19, fordelt på forskellige typer af overtrædelser. 2006 sættes til værdien 1. I figuren er der for hvert år angivet hvor mange domsfældelser der fandt sted i seriens sidste år, 2008. Herved kan man se hvilke overtrældelser der er flest af.

Klik for at se fuld størrelse

Klik for at se fuld størrelse

En lidt anden måe at vise de samme data på, er med et tilpasset “bumps chart” , som jeg frimodigt oversætter til “hop plot”. I figuren nedenfor er alle kategorier af lovovertrædelser i 2006 sat til indeksværdi 1 (dvs. 100%). For hvert år, er der for hver kategori, ligesom i figur 1 ovenfor, angivet den relative ændring. Blot antager graflinjen forskellige farver afhængig af ændringen. Hvis der er færre lovovertrædelser end året før, er linjen grøn, hvis der er flere, er linjen rød.

Klik for fuld størrelse

Klik for fuld størrelse

Overordnet set er der i 2008 færre dømte lovovertrædelser end i 2006. Omvendt er der flere end i 2007. Kategorien “alvorligere vold” er i 2008 steget med ca 10% sammenlignet med 2006.

Men det ser ikke ud til at volden er eksploderet. Her skulle man bruge en længere tidsserie.

  1. da kriminalitet begået af unge over 15 opgøres skal afgøres af en dommer, kan man måske spekulerere i om statistikken i fald den fandtes, ville være sammenlignelig, eftersom jeg gætter på at sanktioner overfor unge under 15 ihøjere grad beror på en helhedsbetragtning []
  2. man kunne sammenligne med antallet af anmeldte forbrydelser - men der er så mange ekstra fejlkilder forbundet hermed, at den strategi næppe vil være farbar []

Opholdstilladelser - tendenser

Danmarks statistik er en guldgrubbe. Fx kan man hente relativt detaljeret data for tildeling af opholdstilladelser. Grafen nedenfor viser udviklingen fra 1996 til 2008, fordelt på type af opholdstilladelser, og verdensdel. Året 2001 - hvor regeringsmagten overgik til Anders Fogh Rasmussen og VK - er markeret med en lodret streg.

Bemærk at y aksen varierere meget fra de forskellige typer af opholdstilladelser.

statistik opholdstilladelser 1996 2008

statistik opholdstilladelser 1996 2008

Overordnet, ser det ud til at AFR1 fra starten satte fokus på at nedbringe indvandring fra  familiesammenføringer, og fra personer tildelt flygtninge status. Senere ser vi en stigning i opholdstilladelser givet til uddannelse og arbejde. Primært tildelt europæere og asiater.

Jeg har ikke gravet i tallene til at vide hvad der adskiller “Andet grundlag” fra “Øvrige grunde”. Fx savner jeg humanitært ophold. Skal jeg forfine grafen vil jeg nok også slå de tre forskellige familiesammenføringer sammen til en enkelt kategori.

Edit: Her er en version hvor familiesammenføringer er slået sammen i en kategori, og hvor skala for y-aksen er den samme for alle subplots:

Gode råd til netdating

Jeg har længe været meget interesseret i hvorledes statistik og moderne computerkræft kan hjælpe med at opdage nyttige mønstre i meget komplekse sammenhænge. De seneste år er der kommet flere og flere eksempler på værdifulde indsigter fra textmining. Vi kan dels takke moores lov, dels internettets enorme mængde af textmining venlige data.

OKcupid har i mange år været det eneste interessante netdating sted jeg har hørt om - og det er mig en gåde at ingen af de øvrige firmaer har forsøgt at efterligne deres statistikbårne koncept.

OKcupid’s datamining giver dels brugerne direkte fordele ift. matchsandsynlighed mellem to potentielle turtelduer, dels giver OKcupid os andre generelle indsigter i den menneskelige psyke såvel som sprogets finurligheder. Eksempelvis fungerer det tilsyneladende ikke at kontakete sin partner med ord som “hot”,  “sexy” eller beautifull. Men hvad med “pretty”? Pretty kan jo bruges på mange forskellige måder:

Så når “pretty” bruges til at beskrive udseende går det galt. Men når “pretty” bruges til at beskrive andre forhold på en ikke alt for skråsikker måde - går det godt.

Jeg kan i øvrigt godt lide at gennemsnits svarprocenten på 32% her udgør en slags baseline. Så det er nemt at se at grønne søjler er bedre end gennemsnittet og røde søjler er dårligere end gennemsnittet.

Du kan læse mange flere gode råd på okcupids blog.

link: http://blog.okcupid.com/index.php/2009/09/14/online-dating-advice-exactly-what-to-say-in-a-first-message/

Netflix - en lektie i samarbejde og innovation

Takeaway: Innovation sker når nye folk inddrages og udfordre ‘de gamle’ med nye metoder. Innovation er ikke betinget af at medarbejderne sidder lårerne af hinanden i et storrumskontor.

Så er Netflix konkurrencen slut. To lige gode hold var med i slutløbet og afleverede lige gode resultater. Men der er kun plads til et hold på toppen af skamlen. Så prisen og førstepræmien gik til det hold som efter 3 år’s konkurrence var ti minutter hurtigere end konkurrencens nr. 2. 10 minutter som betød 1 mio. us$.

Hvad er Netflix? Nefflix er en online videofilm udlejler, der ligesom alle andre online sites forsøger at udnytte det store potentiale i at kende deres kunder bedre end kunderne kender sig selv. Amazon er måske bedst kendt for at gøre deres kunder opmærksom på interessante bøger - baseret på tidligere købsmønstre. Netflix gør det samme -blot for film.

Kort fortalt gik konkurrencen ud på at forbedre Netflix’ egen metode til at forudsige brugernes vurdering af film med mindst 10%. Til syneladende en svær opgave. Imidlertid ved jeg intet om maskinlæring, så præcis hvor svær opgaven var, skal jeg ikke kunne sige.

Men jeg finder det interessant at de fleste deltager i konkurrencens sidste fase, alle var sammensmeltede hold, med deltagere fra forskellige discipliner og verdensdele. Og jeg finder det interessant at vinderholdet selv fusionerede og bragte nye folk på banen:

“When we were approaching the first progress prize as the BellKor team, there were several other teams that joined together to make a real run at us, and that was surprising to us,” said Netflix Prize-winner Chris Volinsky, originally of team BellKor. “The success of that collaboration told us that this was a real, powerful way to improve our scores. When you’re banging heads together in an office trying to come up with new ideas, you sometimes run out of ideas, and you need to bring new people into the team, and that turned out to have a great benefit in terms of the predictive power of the models.”

Som sådan forekommer Netflix konkurrencen at være en god case for frugten af tværfagligt samarbejde. Samtidig med at det måske er en pointe at vinderholdet først har mødt hinanden fysisk efter konkurrencen. De har således ikke haft mulighed for at skændes om faglige uenige på kontoret - men allene bidraget hvor de kunne hjemme fra hver deres verdensdel.
Anyways: Tillykke til BellKor’s Pragmatic Chaos.

Kilde: Wired

Update: Her er kortfattet beskrevet hvordan filmratings bliver forudset.

Spørgeskema resultater

På bl.a. Harvard har bl.a. Gary King - som altid er værd at holde øje med - forsket en del i spørgeskemakonstruktion. King har bl.a. undersøgt hvordan vignetter kan bruges til at validerer rspondenters svar vedrørende vanskelige vurderingsspørgsmål. Herhjemme har Henning Olsen blandt vist hvordan spørgsmålsformulering har markant indflydelse på de svar som indsamles. Nu viser det sig at denne indsigt også er opdaget i England:

youtube: Yes minister og spørgeskemaer

Det går op og ned

Wulff-Morganthaler fra 8/6 2009 observerer:

Det minder jo lidt om denne video fra 2007 - som antydede at der snart ville ske noget drastisk.

Hvilket igen så får mig til at tænke på random walks - som nogle gange ligner alt andet end random.

Google viser aktuelle biograftider

Det er første gang jeg ser denne funktion i den dansk sammenhæng. Og jeg bruger endda google.com - så hurra for IP identifikation. Avancerede søgeresultater baseret på kendskab til brugeren er fremtiden. Og google bliver måske snart presset af microsofts bing.com

Det ser ud til google bruger kultunaut.dk

Det ser ud til google bruger kultunaut.dk

Google charts + R + udviklingstal.dk

Det er nemt at få lidt mere kød på danidas udviklingstal. Hvis man fx gerne vil have et fint lille kort over befolkningstæthed i EU landene (basseret på disse data), kan man fx bruge R og Andy Eggers smarte googlemap funktion. Det kunne fx give sådan et billede:

Data fra 2006, Malta eksklusive, Kilde: http://udviklingstal.dk/eu0.htm

Data fra 2006, Malta eksklusive, Kilde: http://udviklingstal.dk/eu0.htm

Nedenfor kode til R

 Continue reading →

Danmarks CO2 udslip

Det er ikke nogen nyhed - men når nu udviklingstal.dk lægger rigets CO2 udslip ud til offentlig skue - ja så kan vi lige så godt kigge på det. Og det går vist ikke så godt

Kilde: www.dst.dk 5/2009. Udarbejdet for Danida af Geografforlaget/ Karsten Duus.

Kilde: Udviklingstal.dk - egen tilvirkning.

Se fx også: http://www.altinget.dk/artikel.aspx?id=94408