Reliabilitet er et talmæssigt udtryk for nøjagtigheden af en måling. Det har derfor sammenhæng med begrebet måleusikkerhed. Mens man med validitet vurderer i hvor høj grad, man kan regne med, at målemetoden faktisk måler det, den er beregnet til, vurderer man med reliabilitet præcisionen af målemetoden.

Faktaboks

Etymologi
Ordet reliabilitet kommer af engelsk reliabilty 'pålidelighed, sikkerhed'.
Også kendt som

målenøjagtighed

Reliabilitet er vigtig i forbindelse med enhver måling, men er særlig relevant i forbindelse med måling i samfundsvidenskaberne og psykologi, hvor det, der måles, ofte ikke er direkte observerbart. Det gælder fx begreber som social status, holdning, intelligens, personlighedstræk, dygtighed og psykologiske vanskeligheder.

Oftest måles disse begreber gennem sammenfatning af en række observerbare informationer, typisk en række spørgsmål eller opgaver (items). Resultaterne fra hvert item bidrager til måleskalaen, fx ved at blive lagt sammen til et samlet tal, en sumscore. Et eksempel er måling af personlighedstrækket udadvendthed, hvor testpersonen besvarer en række spørgsmål om, hvordan vedkommende plejer at forholde sig i forskellige sociale situationer, hvorefter svarene sammenfattes til en extraversionsskala.

Forskellige typer af reliabilitet

Der er forskellige typer af fejl, der kan påvirke resultatet af en måling.

Intern konsistens

Hvis items ikke i tilstrækkelig grad handler om det samme, giver det fejl. Man kan undersøge, om der er tilstrækkelig grad af overensstemmelse, korrelation, mellem testens items.

Test-retest reliabilitet

Tilfældige forhold ved målesituationen kan give fejl og påvirke resultatet. Ved at gentage målingen på et senere tidspunkt kan man forsøge at kontrollere for tilfældige fejl. Dette forudsætter dog, at man kan regne med, at den egenskab, der måles, ikke faktisk ændrer sig i mellemtiden.

Interraterreliabilitet

Ved målinger, hvor testeren (rateren) skal kode kvalitative data, fx fra interviews, observationer eller performancebaserede tests, er det vigtigt, at forskellige testere (ratere) når til samme resultat. Dette kan undersøges ved at sammenligne forskellige personers kodning af de samme personers test.

Reliabilitet af parallelle testudgaver

I nogle tilfælde er det nødvendigt at udvikle forskellige udgaver af den samme test. Det gælder fx ved hukommelsestests. Hvis en person skal testes igen, kan man ikke bruge de samme opgaver. Man kan kontrollere, om testversionerne er ækvivalente ved at udsætte en gruppe mennesker for begge versioner og undersøge, om de to versioner giver samme resultat.

Testlængde og reliabilitet

En test med flere items vil være mere reliabel end en kortere test, for så vidt items er af samme kvalitet. Det kan forstås som udtryk for den almene erfaring, at mere information giver større sikkerhed i vurdering. Testlængde vil derfor være udtryk for et kompromis mellem reliabilitet og indsatsen ved flere items.

Statistisk definition af reliabilitet

Nedenstående tager udgangspunkt i klassisk testteori. En nyere forståelse er tilknyttet målingsmodeller med udgangspunkt i latente variable.

Resultatet af en måling, T, er en sum af ‘den sande score’, S, og fejlscore. F:

\(\begin{equation}T = S + F \end{equation}\)

For at definere reliabilitet er det nødvendigt med en række ensartede målinger, fx fra en gruppe af personer, en referencefordeling. Varians i sættet af målinger for denne, var(T), er et mål for, hvor store forskelle der er mellem de observerede måleresultater for personerne. Variansen af den sande score, var(S), viser den sande forskellighed i gruppen. Fejlvarians, var(F), er den variation blandt personerne, der ikke stammer fra den egenskab der måles men fra forskellige andre, der ikke har noget med den målte egenskab at gøre.

Reliabilitetskoefficienten ρ (rho) er den sande varians som andel af den samlede varians:

\(\begin{equation} ρ = var(S) /var(T) \end{equation}\)

Den sande score er i princippet ukendt. En tilnærmelse fås som et gennemsnit af gentagne målinger under samme betingelser, og det er muligt at opstille en øvre og nedre grænse for den sande score. Ved anvendelse af målingsmodeller med latente scores kan man skelne mellem sande varians og fejlvarians.

Reliabilitet som intern konsistens

Der findes forskellige måder at måle intern konsistens. Ofte bruges Cronbachs alfa, som er en slags gennemsnit af alle korrelationer mellem items i skalaen. Ofte nævnes en reliabilitet på mindst 0.75 som tilstrækkelig.

Man kan imidlertid også beregne nøjagtigheden af en måling ud fra reliabiliteten. Dette har den fordel at man kan vurdere nøjagtigheden i forhold til det formål, man har med målingen. Hvis man har brug for meget præcise målinger, er det nødvendigt med høj reliabilitet.

Nøjagtigheden af en måling, x, kan vises som et interval inden for hvilket den sande værdi vil ligge. Der skal anvendes standardmålevejlen SEm, som beregnes ud fra reliabiliteten og standardafvigelsen i en referencefordeling, SD således:

\(\begin{equation} SEm = SD*\sqrt[]{1 – ρ }\end{equation}\)

Det betyder, at når reliabiliteten, ρ, bliver større, bliver udtrykket under kvadratrodstegnet mindre, og SEm bliver også mindre, og intervallet hvori den sande værdi ligger, bliver snævrere. Med 95 % nøjagtighed kan den sande værdi af x beregnes til at ligge mellem to værdier:

\(\begin{equation} x + 1.96*SEm\end{equation}\) og

\(\begin{equation} x – 1.96*SEm \end{equation}\)

Cronbachs alfa er imidlertid usikker og kan både under- og overvurdere reliabiliteten i forskellige situationer. En bedre beregning af reliabiliteten kan fås med de nyere statistiske metoder med brug af latente variable, hvor det er muligt at skelne mellem sande varians og fejlvarians.

Man kan beregne hvor stor indflydelse længden af testen har på reliabiliteten ved at anvende Spearman-Browns prophecy-formel.

Interraterreliabilitet

Når testresultater er interviewdata, observationer eller andre verbale data, vil man ofte score dem efter et kategoriseringssystem.

For at vurdere reliabiliteten af en test når flere testere (ratere) skal vurdere den på en trinvis, ordinal skala, har man i nogle tilfælde anvendt den procentvise overensstemmelse, altså antal vurderinger hvor testerne (raterne) er enige i forhold til alle vurderingerne. Dette mål er imidlertid påvirket af tilfældigheder. En metode, der er korrigeret for tilfældighed, er Cohens Kappa. Hvis testerne (raterne) vurderer ud fra en kontinuert skala, bruger man målemetoden intraclass correlation.

Læs mere i Den Store Danske

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig