Utviklingstrekk i skribentmassen på Wikipedia

Enkle analyser indikerer at det kan finnes en internasjonal «dugnadskonstant» som slår gjennom brukermassen til nettleksikonet. Slike dugnadskonstanter vil sette en nedre grense for hvor små språkene kan være om de skal danne fungerende nettsamfunn som produserer leksikon. Språkene vil ikke ha tilstrekkelig mange brukere som kan gå inn i rollen som skribenter, noe som igjen setter en grense for når det oppstår et nettsamfunn med tilstrekkelig produksjonskapasitet.

Finnes det en «dugnadskonstant»?

Det har kommet mange påstander om hvordan brukermassen utvikler seg på Wikipedia og da spesielt den delen som gjelder de aktive skribentene. Disse er sentrale for å opprettholde veksten og kvaliteten på Wikipedia. Hvis det finnes begrensende faktorer som påvirker disse så har det betydning både for fremtidig utvikling og for hva slags prosjekter som fungerer.

Trender kan indikere at det finnes begrensende faktorer på flere av Wikipedia-prosjektene. Slike begrensende faktorer opptrer også på bokmål og nynorsk Wikipedia. Slike dugnadskonstanter kan gjøre det umulig å få til Wikipedia og Wikipedia-lignende prosjekt for små språk slik som samisk.

I denne artikkelen vil det bare ses på enkelte trender i brukermassen for nettsamfunnet. Det er også aktuelt å se på nettsamfunnet i relasjon til det totale tekstkorpus. Dette vil hele tiden akkumulere og hvis skribentmassen forblir stabil så vil dette i seg selv representere et økende vedlikeholdsproblem. Vi kommer ikke til å gå inn på dette problemområdet.

Trender i prosjektene

I disse analysene støtter vi oss på Erik Zachtes statistikker om Wikipedia. Vi bruker tabellene Wikipedia statistikk – alle sprog og og Wikipedia statistikk – engelsk. Fra disse tabellene henter vi kolonnene for nye skribenter (kolonne B), skribenter med mer enn 5 bidrag (kolonne C) og de med mer enn hundre bidrag ( kolonne D). Bokstavene i parentes viser til Zachtes merking av kolonner i tabellene.

Dataene plottes sammen med en differanse for alle andre prosjekter i en felles figur, og vi lar de gå fra april 2001 til venstre i figuren og til januar 2010 til høyre i figuren. Sagt på en annen måte så går grafene fra tidenes morgen i Wikipedia og frem til nåtiden med en oppløsning på en måling for hvert kvartal.

Figuren viser nye skribenter, skribenter med mer enn fem bidrag og skribenter med mer enn hundre bidrag for hele Wikipedia, den engelske utgaven og summen av andre utgaver. Underlagsdata kommer fra Erik Zachtes statistikk over totaler for Wikipedia.

Innhold skrives av et stort antall mer eller mindre sporadiske skribenter. Noen av disse er innom for å rette litt, eller legge til et par opplysninger, men er ikke involvert i prosjektenes daglige drift. Typisk vil de ha færre enn fem bidrag i måneden. Denne gruppen skribenter er svært stor og er ikke tatt med blant grafene. Til denne gruppen hører også typiske vandaler.

Samtidig finnes det en gruppe skribenter som er tungt inne i den daglige driften, men disse har nokså sterke bindinger til prosjektet og endringer er i mindre grad synlig. Typisk har disse mer enn 100 bidrag i måneden. Gruppen er for en stor del administratorer som jobber med vedlikehold. En av administratorene på bokmålsutgaven mente at han hadde vært sløv den siste tiden, han hadde knapt 500 bidrag i februar! Skribenter fra denne gruppen er vist med mørk grønn, lys grønn og fiolett graf. Den fiolette er den eneste som er noe dominerende og den er for skribenter i hele Wikipedia.

Nye bidragsytere er slike som ikke tidligere er observert. De er vist med gul, mellom blå og rød graf. I denne analysen er nye brukere ikke så interessant, for de tar ikke nødvendigvis del i innholdsproduksjonen. Antall nye brukere som redigerer viser et svakt fall, men dette kommer muligens av at de aktuelle skribentene beholder sine kontoer etter småredigeringer. Det totale antall registrerte kontoer akkumulerer hele tiden da det ikke skjer noen opprydding i gamle og tilsynelatende døde kontoer. Fordi antall nye kontoer faller såvidt raskt så er det mer enn bare akkumulering som driver fallet, muligens kan årsaken ligge i fremvekst av prosjekter på lokalt språk i kombinasjon med globale kontoer og at dette senker behovet for registrering på flere språk.

Bidragsytere med mer enn fem bidrag hver måned er en viktig gruppe bidragsytere på Wikipedia for disse skribentene skriver nokså mange av artiklene. Senere tar vi utgangspunkt i disse brukerne når vi ser på trender mellom prosjektene. Grafene er i mellomgrønn, brun og lys blå. Gjennom året er det noe fluktuasjoner, selv om sommerperioden ikke er så utpreget når en ser på totalprosjektet som på enkelte av språkprosjektene. Dette er naturlig da det er et stort antall skribenter på begge halvkuler. Det er likevel en overvekt på den nordlige halvkule og dermed faller antall skribenter noe gjennom sommerperioden.

Grafene som viser antall bidragsytere er relativt stabile for både nye, bidragsytere med mer enn 5 bidrag og bidragsytere med mer enn 100 bidrag. Hva mer er, disse har vært stabile over flere år. Hvert målepunkt (rad) fra tabellen representerer et kvartal, dermed har trendene vært stabile i rundt regnet tre år. I januar 2007 var det totalt 95370 skribenter og i april samme år når totalen 98028 skribenter.

Det engelskspråklige prosjektet er det som får desidert mest fokus på Wikipedia. Engelsk Wikipedia hadde en voldsom utvikling når skribentmassen først begynte å øke, i en periode fra oktober 2005 og til januar 2006 økte antall skribenter med 10593 fra 14811 og til 25404. I april 2007 nådde engelsk Wikipedia 53380 skribenter i intervallet over fem bidrag og færre enn hundre per måned. Denne utviklingen kan vi følge som den grønne grafen. Etter perioden med voldsom vekst stoppet økningen på engelsk Wikipedia og falt noe tilbake. I samme periode opprettholdt Wikipedia totalaktiviteten. Dette ser vi av den lyseblå grafen. Samtidig med fallet på engelsk voks de andre prosjektene frem, noe som er synlig i den brune grafen som krysser den grønne.

Skribenter på engelsk Wikipedia er ikke bare personer med engelsk som morsmål. Etter hvert som prosjekter på deres egne språk har tatt av så migrerer mange over til disse. De nye språkene kan sies å kannibalisere skribentmassen i det engelske prosjektet. En slik utvikling vil vedvare for det engelske prosjektet inntil det når en mer naturlig balanse mellom tilvekst og tap av skribenter til andre språk.

Samtidig som lekkasjen fra engelsk og til de lokale språkene representerer en belastning for engelsk Wikipedia, om enn nokså moderat, så medfører de lokale språkene at lokalstoff fra de aktuelle landene øker i engelsk Wikipedia og de andre store språkene. Det er påvist at stoff beveger seg fra de lokale språkene og inn i de store språkene, for derifra å spre seg ut i alle de andre små språkene. Slik kan innhold over noen år propagere til språk talt på lokaliteter som er nokså fjernt fra der stoffet opprinnelig ble beskrevet.

Skribenter og antall internettbrukere

Internettbruk er i voldsom endring. For å normalisere tallene for de enkelte språkprosjektene har vi brukt tall fra OECD Broadband Portal – Broadband penetration, historical time series (Jumi 2009) Vi mangler gode tall for antall internettbrukere og deres morsmål, spesielt i enkelte land hvor det finnes flere offisielle språk, og derfor må vi gjøre et mindre utvalg enn ønskelig.

Figuren viser trendene til bredbåndspenetrering i et utvalg land. Fordi tallene følger antall abonnenter og det er en usikkerhet knyttet til hvor mange som faktisk bruker hvert abonnement, så kan den reelle dekningsgraden være høyere. Dette tallet vil også påvirkes av familiestørrelse i de enkelte landene. Underlagsdata kommer fra statistikk på OECD Broadband portal.

Fordi det er en økning i antall internettbrukere over tid så vil dette gi et fall i de normaliserte grafene. I tillegg vil ikke nye internettbrukere i samme grad som de etablerte være villige til å involvere seg i større prosjekter.

Når vi senere omtaler «brukere» så er dette egentlig definert utfra OECDs «subscribers». Vi gjør dermed en overforenkling ved at vi snakker om en udefinert normalhusholdning og ikke en enkelt person. Dette kan være en av grunnene til at vi får noe avvikende tall i land sør for Sentraleuropa, familiene er rett og slett større enn i Nordeuropa. Tallene er ikke korrigert for dette.

Når vi normaliserer tallene til Erik Zachte, disse er språkspesifikke, mot OECD sine tall for bredbåndsabonnenter i de enkelte landene, så får vi et tall for hvor sannsynlig det er at en internettbruker på et språk bidrar til Wikipedia på dette språket. Fordi OECD-tallene avslutter før våre tall har vi fremskrevet tallene lineært for å dekke hele Zachtes statistikk.

Figuren viser antall skribenter med mer enn fem bidrag for Wikipedia på et lite utvalg språk, men normalisert mot antall internettbrukere i aktuelle land. Underlagsdata kommer fra Erik Zachtes statistikk for Wikipedia på disse språkene og fra OECD Broadband Portal.

I en slik normalisert statistikk så viser det seg at mange av språkprosjektene kommer ut med tilnærmet samme forhold mellom antall skribenter og antall internettbrukere – det finnes en slags dugnadskonstant. Dette viser at det finnes et forventet antall skribenter innen en språkgruppe. Hvis noen av de mer uvanlige språkene holdes utenfor så er typiske tall 0,2 til 0,5 skribenter per 1000 internettabonnenter i gruppen med mer enn fem bidrag per måned. De mest uvanlige språkene er fortsatt i vekst og har ikke nådd et stabilt nivå, mens noen land har flere språk og tallene er derfor usikre. I noen tilfeller burde også folkegrupper i andre land tas med, men vår modellering er kun en tilnærming og som sådan er den tilstrekkelig.

Merk at det kan se ut som om tidsbruk på sosiale nettsteder er avvikende i enkelte land. Dette vil komme i tillegg til hvem som har tilgang til bredbånd. Justeres det for dette så vil for eksempel japansk Wikipedia komme midt blant resten. Se Medie Norge: Sosiale medier – et overblikk, side 10, Gjennomsniilig tid brukt på sosiale medier i april 2010. (Oppdatert 2010-09-29)

Vi er spesielt interessert i bokmål og nynorsk, men vi mangler separate tall for disse. For å få noen omtrentlige tall så splitter vi norske internettbrukere i en gruppe for nynorsk (13%) og en for bokmål (87%). Tallene kommer fra diskusjoner med nynorskbrukere og ligger innenfor intervallet oppgitt i Wikipedias artikkel om nynorsk Tall fra Wikipedias egen statistikk for aktive skribenter indikerer at 9,5% og 90,5% ville være riktigere. Da ville nynorsk få en vesentlig høyere dugnadskonstant enn bokmål. Det kan synes som om små språk generelt får en noe høyere dugnadskonstant enn større språk, men det er ikke gjort noen grundigere analyser av dette da det er relativt få fungerende prosjekter på slike språk.

For Wikipedia betyr dette at vi må slå sammen prosjekter sammen om språkene blir for små, eller at vi må bruke andre virkemidler. I fremtiden kan det vise seg at maskinoversettelser kan brukes for å slå sammen prosjekter for små språk slik at vi får større og levedyktige nettsamfunn.

Ser vi på samisk og antar at en andel på 34% har internett blant den samiske befolkningen (OECD-tall for Norge), av dette snakker en tredjedel samisk (ikke alle samer kan samisk), så gir et tall på 60 000 samer at vi ender på 1,36 til 3,4 brukere i den aktuelle gruppen. Tallene kan være noe verre da ikke alle samer behersker den nye skriftnormen for nordsamisk. Midler vi over siste år så finner vi at det er 3,7 brukere i gruppen utfra Zachtes statistikker, nokså tett på det forventede intervallet.

Dette er helt klart for lite til å etablere et stabilt og fungerende nettsamfunn. Kanskje er det mulig å påvirke brukere slik at de er mer villige til å forme et stabilt nettsamfunn, men anslagene tyder på nettsamfunnet er for lite. Et fungerende nettsamfunn ville gi en graf som lå helt i overkant av figuren, helst langt over, noe som ikke virker sannsynlig utfra dette datagrunnlaget. Det er også viktig at virkemidler for å løse problemet med små nettsamfunn ikke må forutsette et fungerende nettsamfunn av en for stor størrelse før de kan stimulere til ekstra vekst.

Oppsummering

Det synes som om gjennomgangen underbygger at det finnes en «dugnadskonstant» som tilsynelatende er av samme størrelsesorden for alle språkprosjektene. Noen av prosjektene har en stabil og høy dugnadskonstant og det vil være av stor nytte både for Wikipedia og andre lignende prosjekter om årsaken kan identifiseres. Det kan synes som om det er en motivasjonsfaktor involvert, spesielt når gruppene blir mindre og mer homogene. Generelt er det antatt at både sosiale, kulturelle, moralske og økonomiske virkemidler kan brukes for å øke interessen rundt et nettsamfunn og at økonomiske virkemidler nok ikke er av de viktigste.

Andre wikier har klart å lage fungerende nettsamfunn selv om det aktuelle rekrutteringsgrunnlaget er vesentlig mindre enn språkgruppen for samisk. En slik wiki er Lokalhistoriewiki fra Norsk Lokalhistorisk Institutt som på flere områder kan sammenlignes med nynorsk Wikipedia. Muligens kan dette ha sammenheng med at nettsamfunnet allerede er etablert utfra brukernes behov i andre sammenhenger, det vil si at de har en interesse for lokalhistorie. Dette skaper et interessefellesskap, men samtidig skaper interessen en begrensing som gir et særdeles dårlig rekrutteringsgrunnlag. Interessefellesskapet er da en motivasjonsfaktor som veier opp for begrensingen i rekrutteringsgrunnlaget. Tilsvarende kan en også se på Store norske leksikon som et sterkt begrenset nettsamfunn. I dette tilfellet er det ønske om markante redaktører med en sterk faglig bakgrunn som skaper begrensingen. Hvorvidt det finnes noen reell motivasjonsfaktor utover økonomiske incentiver i denne gruppen er uklart.

Det kan se ut som om skribentmassen på engelsk Wikipedia var større enn de engelskspråklige landene alene kunne understøtte. Fra en meget god start faller prosjektet noe tilbake og nærmer seg en verdi som stemmer godt med mange av de andre prosjektene. Tilsvarende effekter er observert på enkelte andre språk, slik som finsk, som også faller tilbake på et mer normalt nivå. Noen av språkene som er med i analysen virker det som fortsatt er iferd med å konsolidere brukermassen. Det er verd å merke seg at det er først de siste årene at editorer for skriftspråk med ideografiske tegn har fungert tilfredsstillende og fortsatt er det tildels store uløste tekniske problemer.

Vist 1018 ganger. Følges av 1 person.

Kommentarer

Hva om du bruker den samme metodikken på nettsamfunnene som etablerer seg rundt lokalaviser, som f eks Bergensavisen?

Nå har jeg ikke sagt så mye om hva som skjer når det involveres interessefellesskap og motivasjonsfaktorer, men jeg tror sjansen er stor for at det finnes en tilsvarende «konstant» for nettsamfunn etablert rundt aviser. For en allmenn lokalavis vil jeg tro at det vil oppstå en vekstkurve tilsvarende det som skjer på Wikipedia, og at om den normaliseres mot avisens lesertall på nett så vil en se tilsvarende konstanter for sammenlignbare aviser. Konstantene for aviser vil nok bli vesentlig forskjellig fra Wikipedia sine, spesielt om normaliseringen blir gjort annerledes.

Interessefellesskap som kan påvirke nettsamfunnenes størrelse er da slike ting som lokalgeografisk tilhørighet og kanskje politisk tilhørighet. En skal også huske på at gruppedannelser kan skje på nettet uavhengig av geografisk avstand, og dette kan få betydning for nokså sære publikasjoner.

Nettsamfunn som er løsrevet fra selve avisproduktet tror jeg kan arte seg vesentlig annerledes. Eksempler på slike er Origo, Blink og Nettby.

Plutselig gikk det opp for meg hvorfor Setesdalswiki har problemer med å få andre skribenter enn meg. Til å begynne med måtte man registrere seg for å skrive der, men selv om man nå kan bidra uten å være registrert, har det ikke hjulpet. Trolig må man prøve å finne noen tiltak, man kan ikke bare håpe på at andre bidragsytere skal falle ned fra himlen. Jeg antar at Setesdalswiki ikke er alene om å ha en slik erfaring.

Takk for en tankevekkende artikkel.

Bra artikkel, John Erling, det var interessant lesing jeg hadde stor glede av! Det er tre ting ved det du skriver jeg gjerne vil spørre om:

1: Du skriver at mange bidragsytere migrerer over til prosjekter på deres eget språk når disse prosjektene har tatt av. Er det noen tall tilgjengelig på dette? Jeg er nok mest nysgjerrig i hva du legger i “mange” og hvordan det er blitt et etablert faktum.

2: “Det er påvist at stoff beveger seg fra de lokale språkene og inn i de store språkene, for derifra å spre seg ut i alle de andre små språkene.” Dersom dette er påvist ser jeg gjerne at du oppgir en referanse på dette, naturlig nok.

3: Jeg sliter litt med å forstå hvordan du går fra tallene for Wikipedia-prosjekter og OECD over til bidragsytere pr språk. Såvidt jeg forstår deg er du klar over at OECD-tallene er pr land, mens Wikipedia-prosjektene jo er språkbaserte. Hvordan kobler du land og språk sammen i dette her?

Først, dette er ikke en fagfellevurdert artikkel så jeg har tatt meg noen friheter. Hvis noen ønsker å gjøre det her mer etterrettelig så er det nok et par shortcuts som må sjekkes, eventuelt må en finne frem til bedre datagrunnlag. Det her er «Illustrert vitenskap», ikke «Transactions on …» Hvis dere finner at tallene er annerledes så feel free, kom gjerne med tilbakemeldinger! :D

1: Det er synlig i trendene mellom de forskjellige språkene, men hvordan en skulle verifisere det… Muligens kan en sette opp noe som bruker cookies på et samplet utvalg for å se om trendene en ser av grafene er reelle. Hvis ikke brukerne migrerer så betyr det at noe annet skaper et tilnærmet like stort fall i antall brukere på engelsk som tilveksten på andre språk. Det virker ikke særlig sannsynlig, men kanskje en kan se for seg at det burde vært en fortsatt vekst på engelsk og at denne mangler på grunn av fremvekst av andre nettfenomener. For eksempel startet Facebook å vokse voldsomt i 2007. Hvis andre sosiale nettsteder skal spise av bidragsyterne til Wikipedia, og på en slik måte at det gir ømsket effekt, så må det være noe som vokser vedvarende og stabilt og stort sett kun brukes av engelskspråklige samtidig som det appellerer til samme målgruppe. Jeg kan ikke se at det finnes noe slikt fenomen.

Hvis en skal sjekke om brukere migrerer så vil det antakelig være tilstrekkelig å se på et lite utvalg over en ganske kort tid. Det vil ikke være nødvendig å bruke cookies for å spore brukere over lang tid. Problemet er som du sikkert kjenner til å få lov til å spore brukere overhodet inne på Wikipedia.

En bedre formulering hadde muligens vært å si at sammenhengen virker sannsynlig men ikke bevist.

2: Det er nokså enkelt å følge stoff manuelt mellom språk ved å ta for seg noen artikler. Det som da er nokså typisk er at stoffet skrives på prosjektet som har språket til hjemmeområdet (språk A) for fenomenet, deretter portes stoffet til store språk (språk B) og da gjerne av noen som behersker begge språkene. Først når stoffet er på de store språkene propagerer det videre ut til andre små språk (språk C). Dette tror jeg har med antall brukere av språkene. Det er få som snakker språk A, mange snakker språk B, og igjen få som snakker språk C. Veien fra A til C har færre aktuelle skribenter enn veien A til B til C, og dermed blir stoff oversatt i to trinn. Men merk, det finnes mange unntak slik som oversettelse mellom norsk og polsk. I dette tilfellet er årsaken sannsynligvis noe så enkelt som polske jordbærplukkere.

Hvordan en skal verifisere dette utfra objektive kriterier er jeg ikke sikker på. En mulighet er å bruke Google Translate og så se på hvilken tidskonstanter en får for de enkelte nøkkelordene. Midlet over et stort antall ord så tror jeg en kan finne propagasjonshastigheten. På grunn av feil i oversettelsen vil nok estimatet ha nokså stor usikkerhet, men det kan fungere for å få et anslag på hastigheten.

En annen mulighet for å påvise viktigheten av de sentrale store språkene er å se på midlere tid fra artikkelen finnes på hjemmespråket til den finnes på det eksterne, og tilsvarende fra den finnes på for eksempel engelsk og til den finnes på det fjerntliggende språket. Dette har noen iboende feil og sannsynligvis vil en alltid finne at veien fra engelsk til et annet språk er kortere fordi nordmenn oversetter til engelsk. Så noen form for korreksjonsfaktor må inn. Det kan virke som det er en midlere tid B-C for artikler som er antatt å komme fra A, og en midlere tid B-C for alle artikler. Blir tiden før artikkelen observeres kortere i utvalget som er kjent for å komme fra A enn i hele settet så indikerer det at oversettelse via B (dvs engelsk) er en viktig faktor.

Det siste brukt på propagasjonshastighet beregnet ved hjelp av Google Translate vil muligens gi bedre estimater enn eksistens av iw-lenker.

Men referanse, det er nok noe som er observert på Wikipedia og «common knowledge».

3: I en del land er det store dominerende språkgrupper. Det gjør at antall internettabonnenter omtrent tilsvarer antall brukere i disse språkene. Desto mer veldefinerte nasjonsgrensene er i forhold til språkgruppene, desto bedre samsvarer resultatene mellom landene. En del land gir helt merkelige resultater, men da vil en ofte finne at familemønsteret er annerledes enn i Nordeuropa, at det finnes andre språkgrupper innenfor eller utenfor landegrensene eller lignende.

Det er heller ikke et helt tilfeldig utvalg av språk, en del språk er såvidt vanskelig å få tall på at de er utelukket. Eksempler er portugisisk, spansk og fransk.

Jeg tror at det også finnes en del kulturelle forskjeller som har betydning for hvor store disse konstantene blir. Det virker ikke særlig sannsynlig at det blir flatt for alle språk og kulturer, men tallene blir nok av samme størrelsesorden. Hvem kan sitte på mer representative tall for antall reelle internettbrukere? Kanskje Google har noe slikt i forbindelse med Gmail.

I et større prosjekt hadde jeg kanskje spurt Google om tall på brukere av de enkelte språkene, men dette var et lite kveldsprosjekt hvor det ikke var intensjon om å oppnå tall med flere desimalers nøyaktighet – det er trendene som er interessante.

Annonse