Sådan vurderer du kvaliteten på en test: Validitet
Det kan kræve ekspertviden at vurdere en tests validitet i dybden. Denne artikel hjælper dig, så du kan vælge en test med høj validitet og skabe mest mulig værdi for din virksomhed.
Hvis reliabiliteten er skinnerne, så er validitet toget. Begge ting skal være i orden, for at passagererne kommer derhen, hvor de skal. Men mens du godt kan lægge skinnerne ned uden at der er et tog, så kan toget ikke køre uden skinner. På samme måde er reliabilitet en forudsætning for validitet, men siger i sig selv ikke noget om en tests validitet.
Det kræver ekspertviden at vurdere en tests validitet i dybden, hvilket er en af grundene til, at mange internationale virksomheder kræver, at deres testværktøjer er certificerede / registrerede af et større bureau som fx BPS (Storbritannien) eller DNV (Norge).
Hvis en test har en certificering på bare et enkelt sprog, betyder det i langt de fleste tilfælde, at du uden videre kan stole på dens kvalitet.
Dog skal du være opmærksom på, at mange udbydere bruger forskellige logoer og ikoner til at signalere kvalitet, men som ikke nødvendigvis betyder, at testen er blevet vurderet psykometrisk, men blot at virksomheden (eller en person i virksomheden) er medlem af en bestemt organisation. Prøv at klikke på logoerne på hjemmesiden for at se, om du bliver dirigeret ind på en side specifikt for den test, du kigger på (hos fx BPS). Hvis du ikke gør, så er sandsynligheden ret høj for, at logoet blot er ren markedsføring.
Vil du gerne gå i dybden med forskningen bag testværktøjer? Så tag et kig på denne artikel, og bliv klogere på studierne bag.
Hvad er validitet?
Validitet refererer til gyldigheden af en test og er relateret til dokumentation og fortolkning af data. Man kigger på, hvorvidt om data er pålidelige. Validitet viser om testen undersøger det, den siger, at den gør.
Hvis du står i en situation, hvor du selv skal vurdere om en test er god nok, er der tre områder du bør være særlig opmærksom på:
1. Vælg en teoretisk funderet test
Testkonstruktion bygger i dag stort set altid på et teoretisk fundament. Fx er langt de fleste personlighedstest til erhvervslivet baseret på trækteori (de såkaldte Big Five traits). Det skyldes, at der er en stor overvægt af forskning, der viser deres forbindelse til mange forskellige relevante udfald fx teamwork, performance, fastholdelse og engagement.
Vælg derfor altid en test, som lægger sig op ad en psykologisk anerkendt teori. Langt hen ad vejen er det et rigtig godt første tjek af, om den test, du arbejder med, er af høj kvalitet.
2. Undersøg om teori og praksis hænger sammen
Alle kan skrive, at deres test er baseret på en eller anden teori, men hvordan kan du undersøge, om det så passer?
Du bliver nødt til at lave lidt benarbejde, for der findes ikke én rigtig måde at validere en test på. Som minimum er du nødt til at kigge på fact sheets, men for at gå mere i dybden, bør du også læse lidt af den dokumentation, som enhver test bør have. Her skal du være opmærksom på konstrukt-validitet, eller med andre ord: Måler testen dét, den påstår at måle?
Hvis vi tager udgangspunkt i EFPAs (European Federation of Psychologists’ Associations) rammeværk for evaluering af tests, så skal en testudbyder kunne fremvise en og gerne flere af følgende typer af studier på deres test:
- Item-test korrelationer
- Korrelationer med andre lignede tests
- Test bias
- Gruppeforskelle
- Faktoranalyse
- Multi-metode design
Item-test korrelationer:
For at en skala i en test er valid, så skal alle de spørgsmål, som skalaen indeholder, hænge godt sammen. Det vil sige, at hvis en person svarer “højt” på ét spørgsmål, så skal personen typisk også svare højt på de andre. Det kan man analysere ved hjælp af item-test korrelationer, hvor tommelfingerreglen er, at de som minimum skal være 0,3 og gerne med et gennemsnit på mindst 0,5.
Korrelationer med andre lignede tests:
Hvis en test påstår at måle Big Five, så skal den helst også have en stor overensstemmelse med andre etablerede test, der måler Big Five. Det samme gælder for andre teorier. Måden man undersøger det på, er ved at teste de samme personer med forskellige tests, og så se i hvor grad deres scores korrelerer. Typisk vil man her acceptere korrelationer højere end 0,55.
Test bias:
Test bias er et meget bredt område, men helt kort handler det om, at forskellige grupperinger af mennesker skal have lige vilkår for at svare på testen. Fx hvis man har et spørgsmål i en kognitiv test, der handler om kendskab til en bestemt by i Danmark, så vil alle danskere have en klar fordel. Sådan designer man naturligvis aldrig tests, men det, der typisk sker er, at én specifik oversættelse er dårlig. Det betyder, at dem, der tager testen på dét sprog, er dårligere stillet end fx testens andre sprog. Testudbydere skal derfor kunne vise, enten ved en ekstremt grundig oversættelsesproces eller ved analyser, at deres test er fri for bias.
Gruppeforskelle:
Hvis det, man forsøger at måle, har en “naturlig” forskel på tværs af forskellige grupper, så skal testen også vise de forskelle. For personlighed finder man fx ofte, at ældre personer har lavere scores på dimensionen Neuroticisme (en af de fem dimensioner i Big Five), og hvis den test, man sidder med, rent faktisk bygger på Big Five, så skal den helst også kunne påvise denne sammenhæng. Selvfølgelig hænger de her ting ikke sammen 1:1, men der er mange ting, man kan lede efter, og så længe testen bare kan påvise nogle af dem, så er det ofte tilstrækkeligt.
Denne artikel går ikke i dybden med begreberne faktoranalyse og multi-metode designs. Men der er gode beskrivelser at finde online, hvis du er interesseret. Typisk vil disse begreber heller ikke være de første typer af studier, som udbyderne laver, så det vil være sjældent, at du behøver at have denne viden om dem for at vurdere en test.
3. Find ud af om testen virker
Sidste og måske vigtigste måde at vurdere validitet ud fra et brugerperspektiv på er kriterievaliditet. Dette begreb giver udtryk for sammenhængen mellem testens resultater og et eksternt kriterie, typisk en vigtig KPI for virksomheden. Hvis testen er i stand til gentagne gange at forudsige performance, så ved du, at den virker til formålet.
Kriterievaliditet rapporteres typisk som en korrelationskoefficient mellem fx en skala i testen og KPI. Generelt set anses værdier over 0.2 som acceptable og over 0.35 som gode. Hvis du kun skal kigge på ét mål for validitet, så er det bedst at gå efter kriterievaliditet, og gå efter tests som kan dokumentere resultater med korrelationer på mindst 0.35.
Som du nok kan fornemme, er det kompliceret at vurdere validitet. Men som tommelfingerregel er det mest optimalt at gå efter en test med en akkreditering. Er dette ikke muligt, har denne artikel forhåbentlig givet dig en idé om, hvordan du kan selv kan vurdere validiteten selv.
Styrk din forståelse af testværktøjer og se hvordan de kan skabe værdi for din virksomhed.