Estimation er et statistisk begreb, hvor man ud fra kendte observationer kan bestemme ukendte talstørrelser i form af parametre i en statistisk model. Mange af disse talstørrelser kendes ikke, men man ønsker på grundlag af data at bestemme skøn over deres værdi. Fx anvendes der ved bestemmelsen af alkoholpromillen i blod flere målinger, der pga. målefejl etc. ikke angiver helt den samme promille. I en statistisk model vil det være naturligt at opfatte den sande alkoholpromille som en parameter, hvis eksakte værdi ikke kendes, mens målingerne opfattes som observationer af normalfordelte stokastiske variable med den sande promille som middelværdi. Ved hjælp af observationerne estimeres alkoholpromillen ofte ved gennemsnittet af de foretagne målinger; men der er andre metoder, fx medianen (den midterste observation) eller gennemsnittet af de resterende målinger, efter at den største og den mindste måling er udeladt af materialet. Den konkret beregnede talværdi kaldes et estimat for parameteren.

Faktaboks

Etymologi

af lat. aestimatio, af aestimare 'vurdere'

En estimator er en regneforskrift, der angiver, hvorledes man ud fra de observerede talværdier beregner værdien af parameteren. Da den statistiske model specificerer sandsynlighedsfordelinger for de stokastiske variable, overføres usikkerheden på observationerne til estimatoren, der altså også opfattes som en stokastisk variabel. Ud fra dens fordeling kan man derfor bestemme estimatorens egenskaber. Attraktive egenskaber ved estimatorer er, at de i gennemsnit rammer rigtigt, også kaldet, at estimatoren er middelret, og at dens varians er lille, så estimatet med stor sandsynlighed ikke afviger meget fra den sande værdi. Teoretisk er det attraktivt, at estimatoren ifølge en præcis definition nærmer sig den sande værdi, hvis datamaterialet tænkes udvidet til at omfatte stadig flere observationer. Er dette tilfældet, siges estimatoren at være konsistent.

Ved hjælp af estimatorens fordeling kan man bestemme den usikkerhed, der er knyttet til den estimerede værdi. Det kan eventuelt gøres ved et konfidensinterval, der angiver grænser, der med fx 95% sandsynlighed omslutter den sande parameterværdi. Ved hjælp af estimatorens fordeling kan man også afgøre, om den sande parameterværdi kan være lig med en på forhånd fastsat værdi, eller om der er væsentlige forskelle.

I fuldt specificerede statistiske modeller anvendes ofte maksimum likelihood estimation, der har en række af de nævnte attraktive egenskaber, og hvis fordeling kan approksimeres ved normalfordelingen. I tilfælde, hvor man kender omkostningerne ved at bestemme en parameterværdi, der afviger fra den sande værdi, er det muligt at vælge estimatorer, fx minimax estimatorer, som minimerer omkostningerne ved decisionsteoretiske metoder. I andre tilfælde, hvor den statistiske model ikke helt kan beskrive alle observationerne, fx på grund af fejlmålinger, er det klogt at anvende robuste estimatorer, der ikke påvirkes væsentligt af enkelte fejl i data. Fx er medianen anvendt som estimator robust, da dens værdi ikke afhænger af de ekstreme observationers eksakte værdier.

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig