In den letzten Folgen habe ich bereits einige mögliche Gründe vorgestellt, aus denen nach dem GRADE-Ansatz die Qualität der Evidenz herabgestuft werden kann: wenn ein hohes Risiko für einen Bias in den Studien vorliegt oder der Verdacht besteht, dass ein Publikationsbias vorliegen könnte. In der heutigen Folge geht es um einen weiteren qualitätsmindernden Aspekt: fehlende Präzision des Effektschätzers.
Wie präzise der Behandlungseffekt aus den vorliegenden Studien geschätzt werden kann, wird mit Hilfe des Konfidenzintervalles (meist das 95%-Konfidenzintervall) beschrieben. Damit wird der Tatsache Rechnung getragen, dass die in einer Studie ermittelten Werte für den Behandlungseffekt zufällig vom wahren Wert abweichen können. Ein ausreichend enges Konfidenzintervall gilt im GRADE-Ansatz als Qualitätsparameter. Ein zu weites Konfidenzintervall ist besonders dann kritisch zu sehen, wenn sich unterschiedliche Entscheidungen ergeben würden, je nachdem ob die obere oder die untere Grenze dem wahren Wert entsprechen würden – das ist etwa dann der Fall, wenn das Konfidenzintervall den Nulleffekt (etwa ein relatives Risiko von 1,0) einschließt.
Allerdings muss neben der absoluten Breite des Konfidenzintervalls auch berücksichtigt werden, wie groß der Behandlungseffekt insgesamt ist, wie wichtig die jeweilige Zielgröße ist oder wie stark die Therapie den Patienten belastet. Dabei spielen natürlich Werturteile und Präferenzen eine wichtige Rolle.
Die Betrachtung der Konfidenzintervalle reicht jedoch nicht in allen Fällen aus. Das ist etwa dann der Fall, wenn in Studien nur geringe Ereignisraten beobachtet werden. Denn dann kann durch Zufall der Behandlungseffekt größer erscheinen als er tatsächlich ist. Diese Gefahr ist besonders bei kleinen Studien gegeben oder bei solchen Untersuchungen, die wegen positiver Ergebnisse in der Behandlungsgruppe vorzeitig abgebrochen werden. Nach dem GRADE-Ansatz sollte deshalb zusätzlich zu dem Konfidenzintervall geprüft werden, ob die eingeschlossene Anzahl der Patienten in einen systematischen Review mindestens so groß ist, wie für einen einzigen RCT mit ausreichender statistischer Power notwendig wäre. Diese Anzahl kann bei klinischen Studien mit einer Fallzahlschätzung bestimmt werden.
Im GRADE-Ansatz wird dieser Schwellenwert auch als optimale Informationsgröße (OIS). Die OIS lässt sich über computergestützte Programme anhand der geschätzten Risikoreduktion und Ereigniszahlen sowie der gewünschten Fehler der 1. und 2. Art berechnen.
Weitere Details zu diesen Fragen finden sich im Originalartikel im JCE.