Feilretting på Wikipedia

Masterarbeidet ved Høgskolen i Nesna og forskjellene mellom bokmål og engelsk

Våren 2008 ble det gjennomført et mindre forskningsprosjekt på Høgskolen i Nesna som skapte bølger i nettsamfunnet på Wikipedia. En masterstudent vandaliserte planmessig et mindre antall artikler for å se hvordan feilrettingen på Wikipedia fungerte. Dette skjedde både på bokmålsutgaven og på den engelske utgaven. Etter en intens debatt ble resultatene stort sett avvist som uinteressante, men de er lang fra uinteressante – de er høyst aktuelle.

Rammene for masterarbeidet

Noe av det som nettsamfunnet reagerte mest på var navngiving av brukere og publisering av eposter som hadde blitt utvekslet med disse. Dette har Høgskolen i Nesna innrømmet at de burde fanget opp, og det er nok grunn til å kritisere dem for at det skjedde. Nettsamfunnet fant det også kritikkverdig at artikler hadde blitt vandalisert og at brukere som ønsket å bruke tiden på Wikipedia til nyttig arbeid dermed måtte rydde opp i vandaliseringen. Sett retrospektivt kan vi si at dette gir oss en mulighet til å få innblikk i hvordan Wikipedia fungerer og ikke minst effekten av det som kalles patruljering.

Høsten 2007 ble det tatt ibruk en forenklet form for patruljering på bokmålsutgaven. Dette skjedde etter at det var flere tilfeller hvor vandalisme hadde blitt liggende i artikler over lang tid. Våren 2010 er det startet et tilsvarende arbeid på engelsk Wikipedia, dette er kalt pending changes. Også tidligere var det noe patruljering, men da med spesielle verktøy som nokså få brukte. Det er ingenting i arbeidet som indikerer at masterstudenten hadde kunnskap om disse metodene, men det er indikasjoner på at han kjente til at administratorer hadde «noe annet» de forholdt seg til.

Det ble lagt inn feil i 29 artikler på bokmålsutgaven og i 28 artikler på den engelske utgaven. Nokså lite var kjent om hvordan feil fordeler seg i Wikipedia og hvordan feilretting fungerer. Senere er det blitt kjent at feilretting følger en power law noe som gjør analyser og tallfesting av oppførselen vanskelig. Slike fordelinger har noen tilfeller som er raske å påvise, og så en lang hale av resttilfeller. For feil på Wikipedia betyr det at noen feil er raske å påvise og en masse feil blir liggende i lang tid.

Feilene som ble lagt inn var delt i tre kategorier etter vanskelighetsgrad. Fordi dette var feil som ikke er typiske for vandalisering, da er det vanligere med rumpehumor og kjærlighetserklæringer, så var det vanskelig å fange de opp via de vanlige indikasjonene. Det ble også brukt flere forskjellige brukernavn og maskiner slik at det var vanskeligere å få oversikt over hva som foregikk.

Engelsk Wikipedia

Artiklene som ble brukt på engelsk Wikipedia ble vist frem fra i underkant av 300 ganger i løpet av mai 2008 til mer enn 50 000 ganger. Midlere antall fremvisninger ligger på omtrent 10 000 ganger i løpet av en måned.

Antall feil som ble rettet over perioden hvor forsøket pågikk var nokså få, men om vi regner litt på tallene (og titter over skuldera så ingen statistiker ser hva vi gjør) så kan vi ta tallene og regne de om til 80–20 -regelen. I kategori 1,2 og 3 (fra enkleste feil til vanskeligste) ble det rettet henholdsvis 11, 8 og 3 feil. Regner vi om tallene så får vi henholdsvis 1150, 2200 og 12000 fremvisninger før 80% av feilene er rettet. Merk at vi lineariserer en sterkt ulineær funksjon, og at vi har et særdeles lite datagrunnlag.

Vi gjør noen nokså hårete omregninger for å komme frem til disse tallene. Vi bruker tiden det gikk før feilene ble endret og antall sidevisninger for artiklene. Så beregnes middelverdien over alle korrigerte artikler. Dette representerer en andel, men vi ønsker 80% så vi skalerer for å få et representativt tall.

Viktigste lærdom er at vanskeligere feil gir lengre tid før feilene rettes. Det er også svært mange sidevisninger før feilene rettes, men fordi antall sidevisninger er høyt så blir feil rettet i løpet av noen dager. For kategori 1 til 3 er tallene henholdsvis 3,5 dager, 6,5 dager og 37,5 dager. Hvor stor feilmargin det siste tallet har er ukjent, men den er ganske sikkert stor!

Norsk (bokmål) Wikipedia

På bokmålsutgaven var det på dette tidspunktet innført patruljering, men det ble ikke gjennomført veldig metodisk. En del brukere syntes imidlertid at det var spennende å følge opp og nedla masse tid i daglig patruljering. I noen dager kunne patruljeringen gå i stå, for så å bli tatt opp igjen. Dette var rammen på bokmålsutgaven når forsøkene startet.

Antall fremvisninger på bokmålsutgaven er av en helt annen størrelsesorden. Færreste fremvisninger er nede i 61 og meste er på 3552 fremvisninger i løpet av en måned.

Resultatene som presenteres i masteroppgaven tar kun utgangspunkt i antall dager før feilene rettes. Hvis vi isteden gjør som for engelsk så får vi noen nokså merkelige resultater. I kategori 1,2 og 3 (fra enkleste feil til vanskeligste) blir det nå rettet henholdsvis 14, 10 og 8 feil. Regner vi på tallene så viser det seg at for 80% retting så har vi henholdsvis 139, 90 og 130 fremvisninger. Dette representerer omtrent 6,7 dager, 4,3 dager og 6,3 dager. Et dramatisk annerledes resultat i antall sidevisninger enn det vi kunne forvente utfra hva som skjedde på engelsk Wikipedia, hva skjedde på bokmål?

Går vi inn i historikken og sjekker så finner vi veldig få tilfeldige brukere

  • yngre administrator uten tung fagutdanning, retter fem av artiklene
  • geolog og lærer, retter fire av artiklene
  • sykepleier, retter en av artiklene
  • patruljør, universitetsutdannet sosionom, retter en av artiklene
  • patruljør, bakgrunn i biologi, historie og geografi, retter tre (fire) av artiklene
  • administrator, bakgrunn i biologi, it og musikk, retter tre av artiklene
  • administrator, bakgrunn innen it, retter en av artiklene
  • administrator, bakgrunn fra geografi, retter en av artiklene
  • ukjent bruker, retter en av artiklene
  • student innen biologi, retter to av artiklene
    De involverte brukerne er for en stor del patruljører eller administratorer som automatisk får de samme tilgangene, – de ser alle når et bidrag må sjekkes manuelt.

Mastergradsstudenten har også vært i omfattende dialog med bruker A for å få vedkommende til å åpne for redigering på artikler som er blitt låst på grunn av tidligere vandalisme. Når en artikkel blir låst får en noe av samme effekten som under fagfellevurdering, men kommunikasjonen med administratorene er ofte vanskelig for brukerne som var bakgrunnen for låsingen blir oppfattet som «troll». Forskjellen mellom å bidra i en fagfellevurdering og i et åpent nettsamfunn er tidligere behandlet i artikkelen Crowdsourcing og peer review.

Feilrettingen på bokmålsutgaven blir ikke drevet av tilfeldige brukere i samme grad som på engelsk Wikipedia, det kan synes som om brukere med tilgang til verktøy for patruljering søker opp artikler med endringer og blir involvert i feilretting. Fordi dette skjer deterministisk, artiklene merkes automatisk som upatruljert inntil noen har sjekket dem, så driver det feilene ned. Dette skjer ikke med samme effektivitet som under en fagfellevurdering, men det skjer og stort sett virker det som om det driver artikkelens kvalitet i riktig retning.

Oppsummering

Det er fristende å foreslå metoder som forsterker den deterministiske prosessen på bokmålsutgaven, men noe slikt vil veldig raskt bli counterproduktivt. Metoder må ikke bare sikre at det blir produsert materiale av høyere kvalitet, det må også produseres i tilstrekkelig kvantitet. En aktuell problemstilling er om leserne i større grad kan bli involvert i feilrettingen. Da påvirkes ikke innholdsproduksjonen negativt, men skribenter kan føle at et økt fokus på feil blir ubehagelig.

Antakelig hadde resultatene for engelsk Wikipedia blitt noe bedre om vi hadde oppgitt døgnet med en desimal eller to, men trendene ville sannsynligvis vært synlige likevel. Den stokastiske feilrettingsprosessen som ble brukt på engelsk Wikipedia er klart langsommere enn den deterministiske som blir brukt på bokmålsutgaven.

Det burde bli gjort en gjennomgang av rollen til brukerne inne på engelsk Wikipedia, det er ikke umulig at enkelte av disse kan ha brukt verktøy for å identifisere bidrag som burde sjekkes. Det kan imidlertid virke som om en slik prosess har vært vesentlig langsommere enn på bokmålsutgaven.

Vist 288 ganger. Følges av 1 person.
Annonse