Im GRADE-System gibt es eine Reihe von Faktoren, die dazu führen können, dass die Qualität des Evidenzkörpers herabgestuft wird. Dazu gehört auch Inkonsistenz, also wenn die Ergebnisse der eingeschlossenen Studien deutlich voneinander abweichen.
Nach der GRADE-Methodik bedeutet eine ausgeprägte Inkonsistenz (Heterogenität) des Evidenzkörpers, wenn Punktschätzer zwischen den Studien stark variieren, die Konfidenzintervalle sich minimal oder gar nicht überlappen und bestimmte statistische Tests auf eine starke Heterogenität hindeuten.
Dann sollte man natürlich nach möglichen Ursachen für die Heterogenität der Ergebnisse suchen. Das könnte etwa an den unterschiedlichen Studienpopulationen oder unterschiedlichen Endpunkten liegen, an Unterschieden in Dosierung oder Vergleichsintervention oder dem Verzerrungspotential der jeweiligen Studien. Lässt sich keine Erklärung für die Heterogenität finden, sinkt das Vertrauen in den Effektschätzer.
Bei bestimmten Fragestellungen muss eine starke Heterogenität allerdings nicht zwangsläufig zu einer Abstufung führen. Das ist etwa dann der Fall, wenn trotz der Heterogenität des Effektschätzers die Wahrscheinlichkeit für einen Nutzen größer ist als für einen Schaden. Anders würde die Beurteilung jedoch ausfallen, wenn aufgrund der Heterogenität des Effektschätzers unklar wäre, ob die Intervention eher nützt oder eher schadet.
Eine häufig angeführte Begründung für Heterogenität sind Subgruppen-Effekte. Die GRADE-Systematik rät jedoch zu Vorsicht und nennt Kriterien, anhand derer die Glaubwürdigkeit von Subgruppen-Analysen geprüft werden sollten:
- Ist die Subgruppen-Variable bereits zu Beginn der Studie, also vor der Randomisierung, spezifiziert?
- Kommt der Unterschied zwischen den Subgruppen durch Vergleiche innerhalb einer Studie zustande? (oder durch Vergleiche zwischen verschiedenen Studien?)
- Gibt es Hinweise aus der statistischen Analyse, dass die Unterschiede zwischen den Subgruppen nicht zufällig entstanden sind?
- Lag der Subgruppen-Analyse eine entsprechende Hypothese zugrunde, die dann bestätigt wurde?
- Wurden insgesamt bei der Analyse nur wenige Hypothesen (neben der Subgruppenhypothese) getestet?
- Lassen sich die Unterschiede zwischen den Subgruppen über mehrere Studien und Endpunkte hinweg konsistent nachweisen?
- Lässt sich der angenommene Unterschied zwischen den Subgruppen biologisch oder soziologisch plausibel erklären?
Mehr Details zu diesen Fragen finden sich im Originalartikel im JCE.
Die deutsche Fassung ist hier erschienen.