Studienauswahl

Best verfügbare Evidenz – was ist das?

Eine Literaturrecherche kann sehr ergiebig sein und nicht alles, was publiziert wurde, ist es Wert, gelesen zu werden. Allerdings kann eine informierte Entscheidung nicht allein durch das Lesen der Artikelzusammenfassungen (Abstracts) getroffen werden. Die Fülle der angebotenen Informationen sollte also sinnvoll reduziert werden. Hilfreich für die Artikelauswahl ist hier die Überlegung, was als bester oder best verfügbarer wissenschaftlicher Beweis für die formulierte Fragestellung gelten kann.

Handelt es sich bei den Treffern um Erfahrungsberichte einzelner Altenheime mit ihrem Programm? Wurden Studien mit nur 20 Teilnehmern durchgeführt? War eine Vergleichsgruppe vorhanden?

Wie muss eine Studie überhaupt angelegt sein, um den Beweis erbringen zu können, dass das getestete Trainingsprogramm besser ist als keines oder ein anderes?

Die Forschungsfrage ist also ausschlaggebend für die Wahl der Methode (Sackett, Wennberg 1997). Während randomisiert-kontrollierte Studien (RCTs) die beste Methode zur Überprüfung von pflegerischen Interventionen sind, können qualitative Studien aufschlussreich in Hinsicht auf die Erforschung von Patientenerfahrungen, Patientenansichten und Patienten-Compliance sein (DiCenso, Cullum 1998). EBN bezieht gerade wegen der letztgenannten wichtigen Komponente pflegerischen Handelns qualitative Forschung bewusst mit ein (DiCenso, Cullum 1997).

In unserem Beispiel ist der bestmögliche Beweis durch eine randomisiert-kontrollierte Studie zu erbringen (Cooke 1996; Bortz, Döring 1995). Dieser Studientyp hat im Vergleich zu anderen den Vorteil eines definiertes Vorgehens, mit dem der Nutzen einer Intervention nachgewiesen oder widerlegt werden kann. Das Design (Konzept) eines RCT umfasst unter anderem:

Aufstellung und Prüfung einer Forschungshypothese,
Festlegung auf das Studiendesign und die Programmentwicklung vor Durchführung der Studie,
Powerschätzungen, d.h. das Errechnen der nötigen Größe der Untersuchungsgruppen, um einen relevanten Effekt nicht zu übersehen,
Falldefinition, d.h. die Festlegung auf Ein- und Ausschlusskriterien für die Rekrutierung der Probanden,
Vergleichbarkeit der Interventionsgruppe und der Vergleichsgruppe und
Randomisierung (Bewohner oder die Heime werden zu den Untersuchungsgruppen per Zufall zugeordnet).

Im Internet finden sich zahlreiche Publikationen von Systemen, die die Aussagekraft von Studientypen bezogen auf die Fragestellung klassifizieren. Hier sei auf die Einteilung von Ball, Sackett, Phillips et al. verwiesen, welche im Internet beispielsweise unter http://cebm.jr2.ox.ac.uk/docs/levels.html oder in der Übersetzung unter http://www.gesundheit.uni-hamburg zu finden ist. Diese Fassung ist eine Weiterentwicklung der 1997 von Fletcher and Sackett für die Canadian Task Force on the Periodic Health Examination entwickelten Levels of Evidence (Canadian Task Force on the Periodic Health Examination 1997).

Nach den Levels of Evidence können Studientypen, die Fragestellungen zu Interventionen, diagnostischen Tests, Prognosen usw. bearbeiten, entsprechend der Stärke der Evidenz, das heißt ihrer potentiellen Aussagekraft, wie folgt eingeteilt werden:

Tabelle 2: Evidenzstärke

Oxford Centre for Evidence-based Medicine Levels of Evidence (Mai 2001)

Level	Therapie/Prävention, Ätiologie/Nebenwirkungen	Prognose	Diagnose	Differential Diagnose/Symptom Prävalenzstudie	Ökonomische - und Entscheidungsanalyse
1a	Systematischer Review (SR) (mit Homogenität von randomisiert-kontrollierten Studien (RCTs)	SR (mit Homogenität*) der eingeschlossenen Kohortenstudien; Klinische Entscheidungsfindung (CDR†) validiert in verschiedenen Populationen	SR (mit Homogenität*) der Level 1 diagnostischen Studien; CDR† mit 1b Studien von verschiedenen klinischen Zentren	SR (mit Homogenität*) von prospektiven Kohortenstudien	SR (mit Homogenität*) von Level 1 ökonomischen Studien
1b	Einzelner RCT (mit engem Konfidenzintervall‡)	Einzelne Kohortenstudie mit > 80% Nachbeobachtungsrate; CDR† validiert in einer einzelnen Population	Validierungs-** Kohortenstudie mit gutem††† Referenzstandard; oder getesteter CDR† in einem klinischem Zentrum	Prospektive Kohortenstudie mit guter Nachbeobachtungsrate****	Analyse basiert auf klinisch sinnvollen Kosten oder Alternativen; systematische(r) Review(s) der Evidenz; Einbeziehung einer Sensitivitätsanalyse
1c	Alle oder keiner §	Alle oder keiner; Fallserie	Absolute SpPins und SnNouts††	Alle oder keiner Fallserie	Absolute ökonomische Kosten-Nutzen-Analyse ††††
2a	SR (mit Homogenität* ) der Kohortenstudien	SR (mit Homogenität) von entweder retrospektiven Kohortenstudien* oder unbehandelten Kontrollgruppen in RCTs	SR (mit Homogenität) von Level >2 diagnostischen Studien*	SR (mit Homogenität*) von 2b und besseren Studien	SR (mit Homogenität*) von Level >2 ökonomischen Studien
2b	Einzelne Kohorten Studie (eingeschlossen RCT mit schlechter Qualität; z.B. <80% Nachbeobachtungsrate)	Retrospektive Kohortenstudie oder Nachbeobachtungsrate von unbehandelten Kontrollpatienten in einem RCT; Ableitung einer CDR† oder lediglich validiert bei einem Teil der Stichprobe§§§	Explorative** Kohortenstudie mit gutem††† Referenzstandard; CDR† nach Derivation oder lediglich validiert bei einem Teil der Stichprobe§§§ oder Basisdaten	Retrospektive Kohortenstudie, oder geringe Nachbeobachtungsrate	Analyse basiert auf klinisch sinnvollen Kosten oder Alternativen; begrenzte(r) Review der Evidenz, oder einzelne Studie; Einschluss multi-variabler Sensitivitätsanalyse
2c	Ergebnisforschung; Ökologische Studien	Ergebnisforschung		Ökologische Studien	Audit oder Ergebnisforschung
3a	SR (mit Homogenität) von Fall-Kontroll-Studien*		SR (mit Homogenität*) von 3b und besseren Studien	SR (mit Homogenität*) von 3b und besseren Studien	SR (mit Homogenität*) von 3b und besseren Studien
3b	Einzelne Fall-Kontroll Studie		Nicht-konsekutive Studie; oder ohne Konsistenz der angewendeten Referenzstandards	Nicht-konsekutive Kohortenstudie oder sehr limitierte Population	Analyse basiert auf limitierte Alternativen oder Kosten, qualitativ schlechte Berechnung der Daten, aber Einschluss der Sensitivitätsanalyse mit klinisch relevanten Variationen
4	Fall-Serie (und qualitative schlechte Kohorten- und Fall-Kontroll-Studien)	Fall-Serie (und qualitative schlechte prognostische Kohortenstudien)	Fall-Kontrolle Studie, schlechte oder nicht unabhängige Referenzstandards	Fall-Serie oder veralteter Referenzstandard	Analyse ohne Sensitivitätsanalyse
5	Expertenmeinung ohne kritische Analyse oder basiert auf physiologischer oder experimenteller Forschung oder "Grundprinzipien"	Expertenmeinung ohne kritische Analyse oder basiert auf physiologischer oder experimenteller Forschung oder "Grundprinzipien"	Expertenmeinung ohne kritische Analyse oder basiert auf physiologischer oder experimenteller Forschung oder "Grundprinzipien"	Expertenmeinung ohne kritische Analyse oder basiert auf physiologischer oder experimenteller Forschung oder "Grundprinzipien"	Expertenmeinung ohne kritische Analyse oder basiert auf ökonomischer Theorie oder "Grundprinzipien"

Entwickelt von Bob Phillips, Chris Ball, Dave Sackett, Doug Badenoch, Sharon Straus, Brian Haynes, Martin Dawes seit November 1998.

Übersetzt und publiziert mit freundlicher Genehmigung von Bob Phillips durch Gabriele Schlömer, FR Gesundheit, Universität Hamburg
http://www.gesundheit.uni-hamburg.de

Anmerkungen

Benutzer können ein Minuszeichen “-“ verwenden, um den Grad anzuzeigen, der fehlt, um zu einer schlüssigen Antwort zu kommen, weil:

ENTWEDER ein einzelnes Ergebnis mit breitem Konfidenzintervall (z.B. eine ARR ist in einem RCT statistisch nicht signifikant aber das Konfidenzintervall schließt klinisch relevante Nebenwirkungen und Nutzen nicht aus)
ODER ein systematischer Review mit besorgniserregender (und statistisch signifikanter) Heterogenität

Solche Evidenz ist uneinheitlich und kann deshalb nur zu einer Grad D Empfehlung generiert werden.

*	Mit Homogenität meinen wir einen systematischen Review ohne bedeutende Varianz (Heterogenität) in Bezug auf die Richtung und die Varianz der Ergebnisse zwischen einzelnen Studien. Nicht alle systematischen Reviews mit statistisch signifikanter Heterogenität müssen zwingend besorgniserregend sein und nicht alle besorgniserregenden Heterogenitäten müssen statistisch signifikant sein. Wie oben erwähnt sollten Studien mit besorgniserregender Heterogenität mit einem “–„ am Ende des gewünschten Grades versehen werden.
†	Clinical Decision Rule (CDR) = klinische Entscheidungsfindung. Dies sind Algorithmen oder Punktesysteme, die zu einer prognostischen Schätzung oder einer diagnostischen Kategorie führen.
‡	Siehe Anmerkung #2 als Hilfe zum Verständnis, Eingruppieren und Gebrauch von Studien mit breiten Konfidenzintervallen.
§	Trifft zu, wenn alle Patienten starben, bevor die Therapie verfügbar war und nach Einführung der Therapie einige überleben; oder wenn einige Patienten starben, bevor die Therapie verfügbar war und keiner nach Einführung der Therapie stirbt.
§§	Mit qualitativ schlechten Kohortenstudien meinen wir jene, die die Vergleichsgruppe nicht klar definiert haben und/oder die Exposition und Ergebnisse nicht in der gleichen objektiven Art und Weise (verblindet) in den beiden Gruppen (exponiert und nicht-exponiert) gemessen haben und/oder keine angemessenen Störfaktoren identifiziert und kontrolliert haben und/oder keine angemessene Nachbeobachtungsrate haben. Mit qualitativ schlechten Fall-Kontrolle Studien meinen wir jene, die keine definierte Vergleichsgruppe haben und/oder die Exposition und Ergebnisse nicht in der gleichen objektiven Art und Weise (verblindet) in den beiden Gruppen (Fälle und Kontrollen) gemessen haben und/oder keine angemessenen Störfaktoren identifiziert und kontrolliert haben.
§§§	Eine Validierung bei einem Teil der Stichprobe wird erreicht, wenn alle Informationen ein einem Zweig gesammelt werden und dieser dann künstlich in Derivations- und Validierungsgruppe geteilt wird.
††	Ein "Absoluter SpPin" ist ein diagnostisches Ergebnis dessen Spezifität so hoch ist, so dass ein Positives Ergebnis die Diagnose einschließt. Ein "Absoluter SnNout" ist ein diagnostisches Ergebnis, dessen Sensitivität so hoch ist, so dass das Negative Ergebnis die Diagnose ausschließt.
‡‡	Gut, besser und schlecht bezieht sich auf den Vergleich zwischen Behandlungen im Sinne ihrer klinischen Risiken und ihres Nutzens.
†††	Gute Referenzstandards sind unabhängig vom Test und werden blind oder objektiv an allen Patienten angewandt. Schlechte Referenzstandards werden zufällig angewandt, sind aber dennoch vom Test unabhängig. Der Gebrauch nicht unabhängiger Referenzstandards (wenn der Test in der Referenz eingeschlossen ist oder wenn das Testen die Referenz beeinflusst) impliziert eine Level 4 Studie.
††††	Behandlungen mit hohem Nutzen sind ebenso gut, aber günstiger oder besser bei gleichen oder geringeren Kosten. Behandlungen mit geringem Nutzen sind ebenso gut, aber teurer oder schlechter bei gleichen oder höheren Kosten.
**	Validierungsstudien testen die Qualität eines spezifischen diagnostischen Tests, basierend auf der vorher entwickelten Evidenz. Eine explorative Studie sammelt Informationen und untersucht alle Daten (z.B. mit einer Regressionsanalyse) um herauszufinden, welche Faktoren signifikant sind.
***	Mit qualitativ schlechten prognostischen Kohortenstudien meinen wir solche, in denen die Stichprobenauswahl verzerrt ist und diejenigen Patienten bevorzugt sind, die bereits das Ergebnis haben oder die Messung der Ergebnisse in weniger als <80% der Studienpopulation durchgeführt wurde oder das Ergebnis durch nicht verblindete, nicht objektive Art und Weise gemessen wurde oder keine Korrektur der Störfaktoren durchgeführt wurde.
****	Eine gute Nachbeobachtungsrate in einer Differentialdiagnosestudie beträgt >80%, mit angemessener Zeit für das Auftreten alternativer Diagnosen (z.B. 1-6 Monate akute, 1-5 Jahre chronische).

Bei der Studie von Hill-Westmoreland, Soeken und Spellbring (2002) lautet die grundlegende Fragestellung: Was sind die Effekte von Programmen zur Sturzprävention auf die Sturzrate bei älteren Personen?

In die Übersichtsarbeit wurden 12 randomisiert-kontrollierte und quasi-randomisierte Studien eingeschlossen, die wie folgt gruppiert wurden. Studien, die:

körperliche Übungen wie Gehübungen, Muskelstärkung, Reaktionszeit,
Mobilität wie Gangübungen, Balance, Transfer, Gehhilfen,
Schulung zur Prävention von Sturzgefahren, Relaxations-Training, Angestelltentraining,
Screening auf Visus, Gehör, Alkoholkonsum, mentale Verfassung, Depression,
biologisches und körperliches Assessment wie Blutdruck und EKG,
Modifikationen von Medikamenten, der persönliche Sicherheit oder der Umgebungssicherheit

untersuchten.

Bei der systematischen Übersichtsarbeit von Gillespie, Gillespie, Robertson et al. (2003) lautet die grundlegende Zielsetzung: Ermittlung der Effekte von Interventionen, die die Sturzrate bei älteren Menschen (zu Hause oder institutionalisiert) reduzieren sollen.

In die Übersichtsarbeit wurden 40 randomisiert-kontrollierte Studien eingeschlossen. Lediglich 2 RCTs (Mulrow, Geretly, Kanten et al. 1994; Ray, Taylor, Meador et al. 1997) wurden in Altenpflegeheimen durchgeführt. Die anderen (34) in der Gemeinde, (2) in Langzeitpflegeeinrichtungen und (2) in Krankenhäusern.

Die Interventionen wurden wie folgt gruppiert:

körperliche Übungen/physikalische Therapie,
Veränderungen des Wohnraums,
kognitive bzw. Verhaltensmodifikation,
Ernährung bzw. Vitaminsupplementierung,
Hormone und oder andere pharmakologische Therapien,
multidisziplinäres, multifaktorielles, gesundheits- oder umweltbedingtes Risikofaktorscreening,
strukturelle Systemmodifikation.

Studienauswahl

Für die Beantwortung der möglichen präventiven Trainingsprogramme zur Sturzprävention bei Altenpflegeheimbewohnern können zunächst die Publikationen von Gillespie, Gillespie, Robertson et al. 2003 und von Hill-Westmoreland, Soeken, Spellbring 2002 ausgewählt werden, da in diesen systematischen Übersichtsarbeiten die Patientengruppe, die zu erwägenden Interventionen sowie die Endpunkte mit der eingangs aufgestellten Problematik übereinstimmen.