Die empirische Forschung in der Ökonomie ist von der Replikationskrise in den Wissenschaften nicht verschont geblieben. Der Artikel benennt die Hauptgründe dafür und zeigt mögliche Lösungen auf wie man aus dieser Krise wieder herausfinden kann. Das Ziel ist es dabei eine Reihe von verlässlichen empirischen Antworten auf unsere wichtigsten ökonomischen Fragestellungen zu erhalten.
Das Problem der falschen empirischen Antworten
Die empirischen Studien, welche eine bestimmte Literatur in der Ökonomie zur Verfügung stellt, liefern in ihrer Gesamtheit oft keine präzisen Antworten. Für jede wichtige Fragestellung gibt es eine Vielzahl an Studien, deren Resultate nicht wirklich miteinander kompatibel sind und die sich auch oft widersprechen. Es ist dabei sehr schwierig, Studien nach ihrem Wahrheitsgehalt zu ordnen. Jeder Forscher, der eine gewissenhafte Literaturübersicht zu einem bestimmten Thema erstellt hat, wird dem zustimmen. Wir haben beispielsweise viel zu viele gleichsam vernünftige Erklärungen für zentrale Phänomene wie den Konjunkturzyklus, das Wirtschaftswachstum oder die Einkommensungleichheit. Das Buch «False Feedback in Economics – The Case for Replication” von KOF Ökonom Andrin Spescha sucht nach dem Grund hierfür. Die zentrale These des Buches ist, dass „False Feedback“, definiert als falsche empirische Antworten, die schwierig als solche zu erkennen sind, z.B. Resultate, die auf verletzten Annahmen beruhen, verantwortlich dafür sind. Wissen kann in einem Gebiet nur wachsen, wenn sich Forscher auf wahre Antworten stützen können. Falsche Antworten hingegen lassen Forscher in falsche Richtungen steuern und das Wissen stagniert.
Zahlreiche Studien haben bereits versucht das Problem der falschen empirischen Antworten in der Ökonomie zu quantifizieren (z.B. Ioannidis et al. 2017, Brodeur et al. 2016, Harvey et al. 2016, Camerer et al. 2016, Black et al. 2020). Es bleibt zwar schwierig, das tatsächliche Ausmass festzustellen, sicher aber ist, dass es das Problem der falschen empirischen Antworten gibt.
Die unzähligen Freiheitsgrade der Forscher als Hauptproblem
Die Ökonomie hat mit der sogenannten «credibility revolution» (Angrist and Pischke 2010), die den Fokus auf bessere Forschungsdesigns legt, einen grossen Qualitätssprung erfahren. Experimente allein verbessern die Situation jedoch nicht zwingend. Die Diskussion, dass Forschungsergebnisse falsch sein könnten, hat in der Medizin (Ioannidis 2005) und der Psychologie (Simmons et al. 2011) begonnen – Felder, in denen Experimente die Norm sind. Die Diskussion mündete schliesslich in der sogenannten Replikationskrise, wobei Experimente besonders stark betroffen waren – schlicht und einfach, weil es die einzigen Studien sind, die man sauber replizieren kann. Die Frage stellt sich also, wieso sogar Experimente zu falschen Forschungsergebnissen führen können. Die Antwort ist, dass auch wenn die Identifikationsstrategie einer Studie absolut sauber ist, die unzähligen Entscheide im dichten Dschungel der Datensammlung, Datensäuberung und Datenanalyse die Studie immer noch falsch machen können. Forscher haben zu viel Spielraum in ihren empirischen Analysen, so dass die Resultate der Studien zu oft weit neben dem eigentlich richtigen Resultat zu liegen kommen.
Dieser grosse Spielraum in der Erstellung von Studien wird in der Literatur der Metascience als «researcher degress of freedom» bezeichnet (Simmons et al. 2011). Die unzähligen Freiheitsgrade sind der eigentliche Grund hinter den viel zu oft falschen empirischen Antworten. Je mehr Freiheitsgrade Forscher in einer Studie haben, desto wahrscheinlicher ist es, dass die Studie falsche Antworten liefert. Die Forscher bewegen sich wie in einem Labyrinth, in dem jede Entscheidung, rechts oder links zu gehen, potenziell grossen Einfluss auf die Resultate hat. Von allen Resultaten, die durch die unzähligen andersartigen Entscheidungen möglich gewesen wären, können die Forscher nur wenige aufzeigen, wobei viele der nicht gezeigten Resultate ein anderes Bild abgeben würden.
Tabelle 4.1 zeigt 18 Arten von Freiheitsgraden, wie sie typischerweise in der Datenanalyse einer empirischen Studie anzutreffen sind. Bei nur 3 Freiheitsgraden je Eintrag ergeben sich 3^18=387’420’489 verschiedene Pfade, die Forscher gehen können. Im Aufbereiten der Daten gibt es üblicherweise mindestens noch einmal so viele Freiheitsgrade, welche jedoch weniger sichtbar sind und auch weniger standardisierten Regeln folgen. Die Frage stellt sich, welchen Pfad aus diesen unglaubliche vielen Pfaden man wählen soll. Einige Optionen kann man immer ausschliessen, da sie nachweisbar falsch sind. Die Mehrheit der Pfade ist jedoch nicht eindeutig richtig oder falsch, obwohl nur gewisse Pfade zum richtigen Resultat führen können. Die Forschenden haben schlicht zu wenig Informationen, um die eigentlich richtigen Entscheide zu treffen und müssen daher oft arbiträr wählen, was zu falschen Resultaten führen kann. In der wissenschaftlichen Praxis ist es zudem so, dass man (unbewusst) diejenigen Pfade wählt, die statistisch signifikante Ergebnisse liefern.
P-hacking verschlimmert die Situation
Die frequentistische Statistik verbietet es, Resultate nach statistischer Signifikanz auszuwählen. Sie verlangt, dass jede Hypothese nur einmal getestet wird; entweder die Hypothese übersteht den empirischen Test oder nicht. Sollten die Daten die Hypothese verwerfen, müssen die Forscher zu einer anderen Erklärung übergehen. Jeder angewandte Forscher weiss jedoch, dass dieser Ansatz eines einzigen empirischen Tests in der Praxis schwierig ist, da die Ergebnisse beim ersten Versuch oft nicht statistisch signifikant sind. In einer idealen Welt sollte dies keine Rolle spielen. P-Werte sind nur einer von vielen Faktoren, die die Nützlichkeit von empirischer Evidenz bestimmen, wie z.B. bisherige Evidenz, Plausibilität der Mechanismen, Studiendesign, Datenqualität, Kosten und Nutzen in der realen Welt, oder Neuheit der Ergebnisse. Trotzdem ist es sehr schwierig, nicht statistisch signifikante Resultate zu publizieren. Tiefe P-Werte sind zwar nicht hinreichend, aber notwendig für die Publikation von Resultaten. Niemand ist bereit, die höhere Unsicherheit auf sich zu nehmen.
Im Feld der Metascience nennt man die Suche nach statistischer Signifikanz «p-hacking». Intensives p-hacking ermöglicht es eine Reihe von robusten, statistisch signifikanten Resultaten zu erhalten, die leider oft nicht viel mehr als statistisches Rauschen sind. Das Problem ist, dass eine Suche nach statistisch signifikanten Resultaten die erhaltenen p-Werte verzerrt; die Rate der falsch Positiven erhöht sich mit jedem neuen Versuch. 100 voneinander unabhängige Versuche, ein statistisches Signifikanzniveau von 5% zu erreichen, führen nicht zu 5% falsch Positiven sondern zu der absurd hohen Zahl von 99.4% falsch Positiven. Eigentlich müssten die Forscher bei jedem neuen Versuch die Signifikanzniveaus nach unten anpassen, beispielsweise über die Bonferroni-Korrektur f=a/c, wobei «a» das angestrebte Signifikanzniveau, «c» die Anzahl versuche und «f» das tatsächliche Signifikanzniveau ist. In der Statistik spricht man dabei vom «multiple comparisons problem» (Abdi 2007). Sollte also ein Resultat durch p-hacking entstanden sein, ist das Signifikanzniveau zu hoch. Der eigentliche Wert, welcher die 5% Grenze der falsch Positiven beschreibt, würde deutlich tiefer liegen.
Die American Statistical Association hat aufgrund der weiten Verbreitung von p-hacking den Appell verlauten lassen, dass man vermehrt den Kontext einer Studie und nicht den p-Wert als massgebend betrachten soll (Wasserstein et al. 2019). P-Werte sind von einem Kriterium, das den Wert eines Resultats bestimmen soll, selbst zu einem Ziel geworden. Allgemein sollte im Publikationsprozess gelten, dass eine Studie mit statistisch insignifikanten Resultaten dann publiziert wird, wenn diese gleiche Studie publiziert worden wäre, hätte sie statistisch signifikante Resultate gezeigt.
Die wichtigsten Lösungen für das Problem der falschen Antworten
Ein erster wichtiger Schritt zur Bekämpfung des Problems der falschen Antworten ist die sogenannte «open sicence“. Daten und Codes einer Studie müssen für andere Forscher zugänglich sein. So wird die Studie offen gegenüber relevanter Kritik von Dritten, da die möglichen Schwachpunkte im dichten Dschungel der Freiheitsgrade offen sichtbar sind. Das Problem der „open science“ ist jedoch, dass die meisten Studien nur die finalen Spezifikationen zeigen und nicht, wie viele Versuche sie gebraucht haben, um dorthin zu gelangen. Das bedeutet, dass p-hacking weiterhin möglich bleibt.
Um p-hacking effektiv zu bekämpfen, ist eine klare Trennung zwischen explorativer Analyse und konfirmatorischer Analyse notwendig. Explorative Analysen, worunter auch p-hacking fällt, müssen offen als solche gekennzeichnet werden. Mit einer explorativen Analyse kann man durchaus Indikationen über eine Hypothese generieren, um aber eine Hypothese zu testen, wird eine konfirmatorische Analyse notwendig. Das bedeutet ein direkter Test auf frischen Daten, ohne kontinuierliche Änderungen der angewandten Spezifikation. Diese Trennung kann mit Hilfe eines „pre-analysis plans“ erreicht werden (z.B. Nosek et al. 2018). In einem pre-analysis plan beschreibt man das Studiendesign und die Datenanalyse, bevor man die Daten eingesehen hat. Explorative Datenanalyse wird ersichtlich durch Abweichungen der Studie vom pre-analysis plan. Der pre-analysis plan bleibt glaubwürdig, indem man ihn mit einem Zeitstempel versieht, beispielsweise durch das Hochladen auf www.socialscienceregistry.org[ a ], dem bekannten RCT Register der AEA.
Pre-analysis plans können jedoch das Problem der vielen alternativen Pfade, verursacht durch die unzähligen Freiheitsgrade, nicht lösen. In einem pre-analysis plan wählt man eine Reihe von Pfaden aus, wobei nicht gesagt ist, dass dies die die einzigen plausiblen Pfade sind. Um dieses Problem anzugehen, kann man auf Methoden zurückgreifen, die es ermöglichen, sehr viele Pfade simultan aufzuzeigen, wie z.B. „specification curve“ (Simonsohn et al. 2020) oder „multiverse analysis“ (Steegen et al. 2016). Beides sind Methoden, welche es erlauben, tausende von möglichen Spezifikationen in aggregierter Form zu zeigen. Sie erlauben es, die Wahl aller verschiedenen Freiheitsgrade miteinander zu vergleichen und können so diese Freiheitsgrade identifizieren, welche einen grossen Einfluss haben. Wenn eine klare Mehrheit der Pfade in eine Richtung zeigt, ergibt sich mehr Vertrauen in das Resultat. Idealerweise würde man einen pre-analysis plan mit einer multiverse analysis verbinden. Der pre-analysis plan garantiert, dass man nicht ex-post Pfade auslässt, während die multiverse analyse es erlaubt, eine grosse Bandbreite an Pfaden miteinzubeziehen.
Der finale Schlüssel zur Bekämpfung der falschen Antworten ist die Replikation: Dritte müssen die Resultate einer Studie überprüfen. Wir sollten mehr und genauere Arbeit in die Replikation unserer besten Studien stecken, um sie wiederholt auf ihre Stärken und Schwächen zu überprüfen. Die Replikationen müssen von unterschiedlichen Forscherteams ausgeführt werden, so dass sich am Schluss ein Bild ergibt, welches die Studie entweder stützt oder verwirft. Wiederholte Replikation bestimmt die Generalisierbarkeit einer Studie. Wichtig ist es dabei, die für die Studie theoretisch und kontextuell wichtigen Freiheitsgrade zu überprüfen. Die für das Entstehen des Effektes zentralen Freiheitsgrade müssen generell halten. Was wir brauchen sind daher nicht verschiedene, sondern bessere Antworten auf unsere Fragestellungen. Studien, die durch Replikationen bestätigt werden, würden zusätzlich an Glaubwürdigkeit gewinnen. Hingegen würden Studien, die nie repliziert worden sind, eher kritisch beäugt werden. Der Vorteil von Experimenten ist dabei, dass sie beliebig oft wiederholt werden können. Der Goldstandard sind daher nicht nur RCTs, sondern einfache RCTs mit hoher statistischer Teststärke. Die Einfachheit reduziert das Problem der vielen alternativen Pfade, während die hohe statistische Teststärke das Suchen nach Signifikanz überflüssig macht. Einfache RCTs ermöglichen es auch, dass man sie in verschiedenen Replikationsschritten genügend oft wiederholen kann. Mit der Zeit würden wir so über immer mehr richtige empirisch Antworten verfügen, was in der Folge den Zuwachs an Wissen in der Ökonomie befeuern würde.
Literatur
Abdi, H. (2007). Bonferroni and Šidák corrections for multiple comparisons. In N. Salkind (Ed.), Encyclopedia of Measurement and Statistics (103– 107). Sage.
Angrist, J. D., & Pischke, J. S. (2010). The credibility revolution in empirical economics: How better research design is taking the con out of econometrics. Journal of Economic Perspectives, 24(2), 3– 30.
Black, B. S., Desai, H., Litvak, K., Yoo, W., & Yu, J. J. (2020). Specification choice in randomized and natural experiments: Lessons from the regulation SHO experiment. Northwestern Law & Econ Research Paper Forthcoming.
Brodeur, A., Lé, M., Sangnier, M., & Zylberberg, Y. (2016). Star wars: The empirics strike back. American Economic Journal: Applied Economics, 8(1), 1– 32.
Camerer, C. F., Dreber, A., Forsell, E., Ho, T. H., Huber, J., Johannesson, M., … & Heikensten, E. (2016). Evaluating replicability of laboratory experiments in economics. Science, 351(6280), 1433– 1436.
Harvey, C. R., Liu, Y., & Zhu, H. (2016). … and the cross- section of expected returns. The Review of Financial Studies, 29(1), 5– 68.
Ioannidis, J. P. (2005). Why most published research findings are false. PLOS Medicine, 2(8), e124.
Ioannidis, J. P., Stanley, T. D., & Doucouliagos, H. (2017). The power of bias in economics research. Economic Journal, 127(605), 236– 265.
Nosek, B. A., Ebersole, C. R., DeHaven, A. C., & Mellor, D. T. (2018). The preregistration revolution. Proceedings of the National Academy of Sciences, 115(11), 2600– 2606.
Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False- positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22(11), 1359– 1366.
Simonsohn, U., Simmons, J. P., & Nelson, L. D. (2020). Specification curve analysis. Nature Human Behaviour, 4(11), 1208– 1214.
Steegen, S., Tuerlinckx, F., Gelman, A., & Vanpaemel, W. (2016). Increasing transparency through a multiverse analysis. Perspectives on Psychological Science, 11(5), 702– 712.
Wasserstein, R. L., Schirm, A. L., & Lazar, N. A. (2019). Moving to a world beyond “p< 0.05”. The American Statistician, 73(sup1), 1– 19.
©KOF ETH Zürich, 4. Aug. 2022
