27. april 2021

Big Brother er nogle gange dummere end vi tror

Big Data

Ny forskning rejser spørgsmål om værdien af digital overvågning og ’big data’. Faktisk kan traditionelle former for data, der er mindre indgribende over for den enkeltes privatliv, være langt bedre til at forudse vores adfærd, viser et studie blandt universitetsstuderende.

Foto: DTU Compute
Digital overvågning af studerendes studieliv på DTU kan kun i begrænset grad forudsige deres faglige præstationer, viser nyt studie. Foto: DTU Compute

Vi efterlader konstant små digitale aftryk, når vi bruger smartphones, internettet eller andre digitale teknologier. En strøm af privat information, der ikke bare viser, hvor vi har været, og hvad vi har lavet, men som også kan afsløre vores interesser og fremtidige adfærd.

Sociale medier og internetannoncører har længe udnyttet disse ’big data’ til at tappe ind i vores drømme, og brugen af digitale spor spreder sig stærkt i resten af samfundet som en måde at forudsige menneskers adfærd.

Men står den digitale overvågning altid mål med gevinsten? Nej, konkluderer en gruppe forskere ved Københavns Universitet og DTU, som har undersøgt, i hvilken grad omfattende digital overvågning af studerendes studieliv på universitetet kunne bruges til at forudsige deres eksamensresultater.

Resultatet var ikke imponerende.

”Vi kunne med simple og mindre følsomme former for statistiske data udvikle modeller, der var langt bedre til at forudsige de studerendes præstationer. Det var meget overraskende for os, for brugen af ’big data’ vokser stærkt,” siger Andreas Bjerre Nielsen, der er adjunkt på Økonomisk Institut og Copenhagen Center for Social Data Science (SODAS) ved Københavns Universitet.

Overvågning af DTU-studerende

I det konkrete studie har forskerne overvåget og kortlagt lidt over 500 DTU-studerendes studieadfærd gennem data fra deres mobiltelefoner, som bl.a. viste, hvor de befandt sig på campus, hvilke kurser de deltog i, hvilke medstuderende de omgikkes og disses faglige niveau. Den digitale overvågning blev suppleret med spørgeskemaundersøgelser, som tegnede et billede af den enkelte studerendes personlighedstræk.

Men selv når man lagde disse meget omfattende og private data ind i avancerede algoritmer og inddrog machine-learning (kunstig intelligens), kunne de kun i begrænset omfang forudsige de studerendes senere præstationer målt på eksamensresultater.

Faktisk viser studiet, at noget så simpelt som de studerendes folkeskole- og gymnasiekarakterer giver et langt mere præcist bud på, hvordan de senere klarer sig på universitetet (se figur).

Figur: Datatypers evne til at forudsige studerendes faglige præstationer (i procent)

Figur
Figuren viser med såkaldte violin-diagrammer (illustrerer usikkerhed), hvor godt forskellige former for data kan forudsige universitetsstuderendes faglige præstationer. ’Administrative data’, der bl.a. dækker over tidligere karakterer i gymnasiet, er markant mere præcise end ’big data’.

I studiet forudsiger ’big data’ med cirka 43 procents præcision, om en studerendes eksamensresultater vil ligge i topgruppen blandt de studerende, i midtergruppen eller i bunden. Det er kun lidt bedre end tilfældige gæt, som vil ramme rigtigt i 33 procent af tilfældene.

Omvendt rammer modellen rigtigt i 58 procent af tilfældene, når man bruger mere simple data som folkeskole- og gymnasiekarakterer og oplysninger om de studerendes sociale baggrund. Og lige så overraskende: Modellen bliver ikke mere præcis, selv om man kombinerer de traditionelle data med ’big data’.

Hvis jeg gerne vil forudsige, hvor hurtigt du kan løbe en 100-meter, kan jeg lave alverdens blodprøver, muskelbiopsier og styrketests, men har du løbet distancen før, er det ofte bedre at kende dine gamle tider.

Sune Lehmann

Ifølge Sune Lehmann, der er professor ved DTU og SODAS og medforfatter til den videnskabelige artikel om studiet, peger resultaterne på et aspekt ved brugen af big data, som der har været ringe fokus på i forskningen: Nemlig om big data altid er gode og relevante data.

”Store adfærdsdatasæt kan bruges til at svare halvgodt på en bred vifte af spørgsmål. Men er vi kun interesserede i at få svar på nogle få, veldefinerede spørgsmål, kan det være både bedre og lettere at bruge data, som knyttet til de specifikke spørgsmål,” siger Sune Lehmann, der trækker en parallel til sportens verden:

”Hvis jeg gerne vil forudsige, hvor hurtigt du kan løbe en 100-meter, kan jeg lave alverdens blodprøver, muskelbiopsier og styrketests. Men har du løbet distancen før, er det ofte bedre at kende dine gamle tider.”

Rejser spørgsmål om data og overvågning

For Andreas Bjerre-Nielsen er resultaterne samtidig tankevækkende, fordi de rejser spørgsmål om den stigende digitale overvågning og brug af ’big data’ over alt i samfundet.

Her er mulighederne for at høste og udnytte digitale data vokset kraftigt hånd i hånd med de digitale teknologiers fremmarch. Private virksomheder kan overvåge forbrugsmønstre ned i detaljen, det offentlige vil kunne spotte borgere med risiko for langtidsledighed og sygdom. Skoler og uddannelsesinstitutioner kan følge deres elever og studerendes færden og brug af studietilbud.

Vi bør blive mere sikre på, om digital overvågning overhovedet virker, og om andre mindre følsomme data i virkeligheden er mere relevante.

Andreas Bjerre-Nielsen

”Digital overvågning kan være effektivt. F.eks. kan algoritmer forhindre kreditkortssvindel ved at holde øje med bankunders forbrugsmønstre. Andre gange er det ikke tilfældet. Det bør vi tage højde for, inden vi indfører overvågningssystemer, som kan være indgribende i forhold til privatlivet og samtidig svære at gennemskue,” siger Andreas Bjerre-Nielsen.

”En vigtig lære af vores studie er derfor, at vi bør blive mere sikre på, om digital overvågning overhovedet virker, og om andre mindre følsomme data i virkeligheden er mere relevante. Som når vi viser, er det f.eks. bedre at kigge på de studerendes karakterer end at indføre omfattende overvågning, hvis man gerne vil at vide, hvilke studerende der er i størst risiko for at blive fagligt udfordret.”

Studiet med titlen ’Task-specific information outperforms surveillance-style big data in predictive analytics’ er netop publiceret i PNAS, der hører blandt verdens mest citerede tidsskrifter.