Crowdsourcing og peer review

Kvalitet er ikke gratis på Wikipedia – løsninger krever at feil og mangler får økt synlighet

Kvalitetsprosessene som opptrer i åpne dugnadssystemer slik som Wikipedia og fagfellevurdering i vitenskapelige tidsskrifter er tilsynelatende gitt av forskjellige mekanismer. Ved nærmere inspeksjon viser det seg at begge mekanismer kan modelleres på samme vis. Metodene har grunnleggende forskjeller i hvem som bidrar med vurderinger og hvordan vurderingene kommer til uttrykk i materialet, men selve mekanismene kan modelleres likt. Dette får konsekvenser for systemer basert på commons-based peer production, ikke minst åpne leksikonprosjekter.

Kvalitetskontroll (Quality control) går ut på å se om sluttresultatet tilfredsstiller kravene, kvalitetssikring (Quality assurance) er den vedvarende prosessen som gjør det mulig å gjennomføre kvalitetssikring, prosjektadministrasjon (Project management) utfører den formelle kvalitetssikringen. Vi snakker ofte litt løst om innholdets kvalitet, mens det vi egentlig mener er reliabilitet (Reliability) og validitet (Validity) av innholdet.

Det er viktig å være klar over at kvantitet og kvalitet er to forskjellige forhold som ikke nødvendigvis trekker i samme retning. I dette notatet fokuseres det på hvordan kvaliteten påvirkes av de involverte. Åpne produksjonsmodeller som Wikipedia lar flere bidra med sine kunnskaper, det totale kunnskapstilfanget blir større, men tradisjonell fagfellevurdering (peer review) har egenskaper som gir færre restfeil.

Fagfellevurdering

Fagfellevurdering (peer review) blir ofte holdt frem som den foretrukne modellen for kvalitetssikring i vitenskapelige publikasjoner. Modellen baserer seg på at en eller flere personer med tilstrekkelig faglig kapasitet skal vurdere et arbeid for å komme med korrektiver. Det brukes både anonym fagfellevurdering og fagfellevurdering hvor forfatter og den som gjør vurderingen kjenner hverandres identitet. Det er også brukt åpne internettbaserte modeller, for eksempel Cochrane collaboration model. Denne modellen har redaksjonsprosesser som inkluderer fagfellevurdering både før og etter publisering.

Modeller som er internettbaserte har vist seg å gi litt forskjellige resultater i forskjellige undersøkelser. I en undersøkelse hos Medical Journal of Australia sa 60 (81%) av forfatterne og 150 (92%) av de som gjorde vurderingene seg villige til å bli med på en undersøkelse hvor fagfellevurderingen forut for publiseringen ble gjort på et nettsted. Selv med positive tilbakemeldinger fra leserne så medførte bare 29% av kommentarene at forfatterne endret manuskriptene.Nature 2006

Crowdsourcing

Nettdugnad (Crowdsourcing) er blitt kjent gjennom FOSS (Free Open Source Software) og CBPP (Commons-Based Peer Production). Metodene som brukes ligner på metodene i vitenskapelige publikasjoner, men der kvalitetssikringen er eksplisitt gitt ved fagfellevurdering er den implisitt gitt i prosessene ved crowdsourcing. Et eksempel på hvordan dette kan skje er i Wikipedia hvor en vesentlig del av kvalitetssikringen er lesere som finner feil og retter dem.

Merk at det også finnes en prosess knyttet til patruljering (recent changes patrol) og på noen prosjekter også review (reviewing). Det siste er en form for patruljering med utvidet støtte. Slike prosesser er godt egnet for å finne overfladisk vandalisme og trolling, men er mindre egnet til å finne faglige feil og misforståelser.

Det er gjort tester hvor Wikipedia på flere språk er sammenlignet med andre leksika. Det åpne nettleksikonet har kommet overraskende bra ut av sammenligningene. En sammenligning av Wikipedia og Encyclopædia Britannica påviste i 2005 at feilraten i de to leksikonene var sammenlignbar.Nature 2005 Brittanica argumenterte senere med at denne testen hadde feil. Senere i 2005 og våren 2006 utførte Larry Press, som er professor ved California State University at Dominguez Hills, en undersøkelse som kom til omtrent samme konklusjoner som Nature.

En annen sammenligningende studie ble gjort i 2007 av Stern. De sammenlignet tysk Wikipedia med Brockhaus Enzyklopädie. Arbeidet var satt ut til WIND GmbH som analyserte 50 artikler fra hvert leksikon. Tematisk fordelte artiklene seg på politikk, økonomi, sport, vitenskap, kultur, underholdning geografi, medisin, historie og religion. Det ble brukt fire vurderingskriterier nøyaktighet, fullstendighet, oppdaterthet og klarhet i fremstillingen. De vurderte Wikipedia til å være mer nøyaktig i gjennomsnitt, med karakteren 1,6 på en skala fra 1 (beste) til 6 (verste). Brockhaus oppnådde karakteren 2,3.Stern 2007

Et problem med litt overfladiske tester er at de måler forhold knyttet til det omtalte i artiklene, uten å se på hva som burde vært omtalt i artiklene. Dette blir lett en vurderingssak hvor aktører involvert i fagfeltet har en annen oppfatning av hva som er viktig enn de som står på utsiden og søker informasjon.

Flere sammenligninger er omtalt i artikkelen Reliability of Wikipedia inne på Wikipedia.

Modellering av bidrag

Crowdsourcing i en wiki er en kontinuerlig prosess, mens peer review er en aktivitet som starter etter at et manuskript er sendt inn til vurdering. For peer review er versjonen som sendes inn første versjon i en iterativ prosess for å påvise feil. På en wiki er prosessen med å påvise feil vedvarende fra artikkelens begynnelse. Prosessene skiller seg også ved at endringer blir gjort direkte på en wiki, mens under peer review vil den som gjør vurderingen gi en tilbakemelding til forfatteren som så gjør endringen. På enkelte nettsteder brukes modeller som er en blanding, ofte ved at en form for redaksjon har ettersyn med publiserte artikler eller at de som gjør peer review endrer direkte i den aktuelle artikkelen.

Innhold akkumulerer på bakgrunn av endringer som er gitt av aktiviteten til de involverte. Hvert ledd i modellen er en sammensatt stokastisk verdi som beskriver hvor mye innhold som bidras ved hver iterasjon. En mer involvert modell kan beskrive motivasjonsfaktorer i et «marked av skribenter», men dette går ut over det vi trenger for den her litt forenklede analysen.

Selv om vi ikke skal gå inn på mer avanserte modeller så bør det påpekes at det opptrer et fenomen når to eller flere samarbeider og disse oppdager avvik mellom sine kunnskaper. I disse tilfellene medfører samarbeid at sjansen for å introdusere feil synker betydelig. For å forenkle så antar vi at slikt ikke skjer og at alle de stokastiske variable er uavhengige.

Endring ved iterasjon k er gitt av en funksjon q:

Subskriftet add angir at det er en verdi som legges til og del at den trekkes ifra, mens good angir at verdien representerer gode bidrag og wrong at bidraget er feilaktig. Merk at q kan bli negativ i uttrykket.

Oppstillingen er en forenkling (for ikke å si overforenkling) ved at alle stokastiske variable er antatt å være uavhengige. Dette er ikke helt korrekt da endring av en tekst har elementer fra flere prosesser, å fjerne et feilaktig årstall og erstatte det med et korrekt vil for eksempel medføre at vi får nye ledd som beskriver endringer. Vi kan imidlertid dele en slik prosess i to iterasjoner hvor en er fjerningen av feilene og den neste er tillegget av den korrekte informasjonen. Da er vi tilbake til foranstående form.

Tilsvarende kan vi definere pådrag for gode bidrag (pådraget hvor leddene representerer korrekt innhold eller korrigerende innhold) og for feilaktige bidrag (pådraget hvor leddene representerer feilaktig innhold eller endring av korrekt innhold):

Akkumuleres disse pådragene over tid så vil verdien ved en fremtidig iterasjon N bli gitt ved summen av alle tidligere pådrag:

Vi har en sum som består av alle gode bidrag som er tillegg og fjerning av dårlige, og en som består av alle dårlige eller feilaktige. Vi kan også normalisere disse mot det akkumulerte pådraget:

Den første av disse gir relativ andel av innhold som har ønsket kvalitet, det vil si det som er «riktig», mens det siste angir andelen innhold med uønsket kvalitet, det vil si det som er «feil». Den første av disse to ønsker vi å maksimalisere, den siste ønsker vi å minimalisere.

De stokastiske variable er påvirket av flere forhold, deriblant vil påvisning av feil og retting av disse være påvirket av sannsynlighet for å detektere dem (probabiblity of detection). I de fleste publiseringssystemer blir det gjort lite for å øke oppdagelsesraten for feil, de er stort sett basert på at noen leser et ordinært manuskriptet og noterer feil eller gjør korreksjoner direkte.

Feilretting i fagfelle

Ser vi på den siste formelen så kan vi se på hvordan denne påvirker tradisjonell fagfellevurdering. Prosessen involverer få personer, hvor forfatteren er en av de involverte, likevel er resultatet en tekst av høy kvalitet.

Under ordinær peer review så må to personer bli enige om å gjennomføre en endring før den tar effekt. Det er viktig at det kun er forfatteren som endrer teksten. Forfatteren har skrevet teksten og mener denne er riktig. Den som gjør peer review gjør forfatteren oppmerksom på en feil og må overbevise denne om at feilen er reell før den får effekt. Det vil si at leddene i teller (numerator) for relativ andel feil blir små fordi sannsynligheten for at de utløser konflikt i kunnskapsoppfattelsen til reviewer og forfatter er store. Denne konflikten begrenser muligheten for at nye feil blir skrevet inn. Nevner (denominator) for relativ andel feil vil alltid bli stor for der står forfatterens opprinnelige bidrag.

Det er en forfatter E og flere reviewers R. Innenfor dette begrensede settet finnes det delt kunnskap x. For at kunnskapen skal medføre en forandring under fagfellevurderingen så må den finnes i snittet mellom forfatterens kunnskap og kunnskapen til de som gjør fagfellevurderingen. Vi får en sannsynlighet for at noen av de som gjør fagfellevurderingen har kunnskaper som passer med det som blir beskrevet. Og vi gjør en ørliten overforenkling, men den gjør det hele enklere å forstå – personene har ikke kunnskap som er uavhengig av hverandre.

Selv om det under tradisjonell fagfellevurdering er relativt få personer involvert, tallet N er lite, så kan prosessen potensielt gi høy kvalitet. Det som begrenser kvaliteten er at prosessen termineres tidlig. Det kan være så få som en til to som gjør fagfellevurdering, dermed blir mengden restfeil betydelig.

Feilretting i crowdsourcing

Når noen bidrar i en nettdugnad (crowdsourcing) så kan flere bidra enn den opprinnelige forfatteren. I praksis finnes det på prosjekter slik som Wikipedia ingen entydig opphavsmann utover den som først opprettet dokumentet. På denne siden utvikles det et manuskript hvor alle kan skrive uten å klarere sine innlegg med de andre. Det betyr at mekanismen med to involverte for å gjennomføre endringer ikke fungerer og at ratene for feilleddene er vesentlig høyere enn for ordinær peer review, de enkelte skribentenes feil formidles videre. Konfliktene som i fagfellevurderingen hindret prosessen i å introdusere nye feil finnes ikke.

Det er mange forfattere E og ingen dedikerte reviewers. Innenfor dette begrensede settet finnes det delt kunnskap x. For at kunnskapen skal medføre en forandring under crowdsourcing så må den finnes en person som har vilje til å skrive den inn.

Gode bidrag vil drive relativ feilrate ned, men med en langt lavere rate enn ved å kreve at to eller flere samarbeider om feilretting. Noen prosjekter slik som bokmålsutgaven av Wikipedia bruker patruljering som selv om den medfører at en person aktivt sjekker for feil, så arbeider han alene. Den metodiske prosessen som sikrer at det alltid er en ekstra person involvert i bidrag fra ukjente bedrer situasjonen for disse bidragene. Feilraten etter patruljering er imidlertid fortsatt høy.

nynorskutgaven av Wikipedia brukes det ikke patruljering, men et mindre nettsamfunn som kjenner hverandre godt kompenserer til en viss grad for dette. Ukjente brukere blir lettere oppdaget.

Merk at alle de involverte kan produsere innhold og dermed vil produksjonsvolumet (kvantiteten) bli stor. Kvaliteten vil derimot bli mindre med denne modellen enn med tradisjonell peer review. Også her gjør vi en ørliten overforenkling, men den gjør det hele enklere å forstå – personene har ikke kunnskap som er uavhengig av hverandre.

Merk at bare et fåtall av de involverte produserer hoveddelen av innholdet og dermed vil produksjonsvolumet (kvantiteten) bli liten. Kvaliteten vil derimot bli stor med denne modellen.

Oppsummering

De enkelte leddene i bidragsprosessen kan ses på som stokastiske variable. Det betyr blant annet at de kan påvirkes ved å endre sannsynligheten for å oppdage en uønsket endring (probabillity of detection). Det vil være svært interessant å undersøke om forhold ved bidragsprosessen kan manipuleres for å øke forholdet mellom gode og dårlige bidrag. Patruljering på bokmålsutgaven skaper en slik forskyvning av sannsynlighetene ved å fremtvinge observasjon av endringene av minst en ekstra person. Andre forhold som bidrar negativt er slikt som forkortet tid hvor endringen blir observert, for eksempel ved å fylle siste endringer med urelatert materiale.

Patruljering og lignende teknikker er en form for postpublication peer review. Disse har som ulempe at hele feilrettingsprosessen blir synlig utad. At prosessen blir synlig utad blir ofte feiltolket som at den ikke finnes eller ikke fungerer, noe som er feil. Fordi prosessene er synlige utad blir et stort antall personer involvert i feilretting i motsetning til fagfellevurdering hvor feilretting kun er tilgjengelig for noen få i et kort tidsrom. Dette er også observert i ordinær peer review hvor hele prosessen er langsom (sluggish) på grunn av for få personer til å gjøre vurderingene.

Det som er ønsket er økt synlighet for det som kan være mulige feil, økt probabillity of detection, det vil si at nye bidrag som ikke har vært gjennom tilstrekkelig grad av «peer review» gjennom fremvisninger må gjøres mer synlig enn annet innhold. Materiale med mulige feil må eksponeres for leserne uavhengig av hvorvidt forfatteren er en administrator eller en nybegynner. Samtidig må feilretting på noe vis medføre et koordinert arbeid fra flere slik at enkeltpersoner blir bremset fra å skrive inn nye feil.

Det er noen få metoder som er kjent og som dramatisk kan endre probabillity of detection ved å manipulere feilenes synlighet; reviewers som setter en referanseversjon og hvor alle etterfølgende endringer blir vist med kontrastfarge, løsninger for fargekodet tiltro eller hvor mye tiltro er knyttet til dette tekstfragmentet, metoder for å rapportere om tekstfragmenter som har problemer, og andre metoder for å øke brukeres mulighet til å oppdage og rapportere feil og mangler. Spesielt kan nevnes metoder for å la brukere foreslå rettinger til låste artikler hvor andre brukere kan stemme på disse – uavhengig av hvorvidt artikkelen er åpen for redigering, og merke tekstfragmenter de mener inneholder feil.

Varianter av peer review som en del av crowdsourcing har klare fordeler ved at en større antall personer er involvert, men ordinær fagfellevurdering kan gi høyere kvalitet ved hver iterasjon. Crowdsourcing gir ingen garanti for lavere feilrater, snarere tvert om. Uten ekstra verktøy er sjansen for at en enkelt bidragsyter skal introdusere feil høyere enn i tradisjonell peer review hvor to personer må bli enige om å korrigere en feil.

Vist 271 ganger. Følges av 1 person.
Annonse