Jacob Cohen

The Earth is round (p < .05)

 Link to the original text:

The Earth is round (p < .05)

Jacob Cohen
Jacob Cohen

La Tierra es redonda (p < .05)*

Tras 4 décadas de duras críticas, el ritual de la prueba de significación de la hipótesis nula (decisiones dicotómicas mecánicas en torno a un criterio sagrado del .05) aún persiste. Este artículo repasa los problemas que acarrea esta práctica, como la malinterpretación casi universal de p como la probabilidad de que Ho sea falsa, la malinterpretación de que su complemento sea la probabilidad de una reproducción exitosa y la presunción equivocada de que si se rechaza Ho se afirma, por lo tanto, la teoría que llevó a hacer la prueba. Se sugiere el análisis exploratorio de datos y el uso de métodos gráficos, una mejora constante y una mayor estandarización en las mediciones, poner énfasis en la estimación del tamaño del efecto por medio de intervalos de confianza y el uso informado de los métodos estadísticos disponibles. En última instancia y tal como lo han hecho las demás ciencias más antiguas, los psicólogos deben basarse en la reproducibilidad para generalizar.

No considero que los comentarios de este artículo sean originales. Una de las pocas cosas que nosotros, como psicólogos, aprendimos en más de un siglo de estudio científico es que, a la edad de 70 años, no ha de esperarse la originalidad. David Bakan dijo ya en 1966 que su afirmación de que la prueba de significación está asociada a “a un enorme daño” es “poco original”, que es “lo que ‘todos saben’” y que “decirlo ‘en voz alta’ es […] asumir el rol del niño que señaló que, en realidad, el emperador solo vestía ropa interior” (p. 423). Si ya no era original en 1966, difícilmente lo sea ahora. Sin embargo, este emperador desnudo y descarado ha estado dando vueltas durante largo tiempo.

Como muchos hombres de mi edad, me la paso quejándome. Mi perorata de hoy es sobre las pruebas de significación estadística, de las que Bill Rozeboom (1960) escribió hace 33 años: “Las tradiciones estadísticas de un pasado más primitivo siguen predominando en el escenario actual” (p. 417).

Hoy, siguen siguiendo. Nosotros, como profesores, consultores, autores y demás ejecutores de métodos cuantitativos, somos responsables por ritualizar la prueba de significación de la hipótesis nula (PSHN; resistí la tentación de denominarla contraste inferencial de hipótesis) al punto del sinsentido y más allá. Sostengo aquí que la PSHN no solo no logró apoyar el avance de la psicología como ciencia, sino que ha sido un gran escollo.

Consideremos lo siguiente: un colega acude a mí con un problema estadístico. Cree que una enfermedad que en general es rara no se halla en absoluto en una población dada, por ende, Ho: P = 0. Toma una muestra más o menos aleatoria de 30 casos de esta población y halla que uno de ellos padece la enfermedad, por ende, Ps = 1/30 = .033. No está seguro de cómo probar Ho, si con chi-cuadrado con corrección de Yates (1951) o con la prueba exacta de Fisher, y se pregunta si tiene el poder suficiente. ¿Lo creerían? ¿Y creerían que si intentara publicar este resultado sin una prueba de significación uno o más revisores podrían objetarlo? Es posible.

Casi un cuarto de siglo atrás, dos sociólogos, D. E. Morrison y R. E. Henkel (1970), editaron un libro con el título The Significance Test Controversy. Entre los colaboradores se contaban Bill Rozeboom (1960), Paul Meehl (1967), David Bakan (1966) y David Lykken (1968). Sin excepción, condenaron la PSHN. Por ejemplo, Meehl describió la PSHN como “una herramienta intelectual potente pero estéril, que deja a su paso jovial un extenso tendal de doncellas vejadas, pero ningún vástago científico viable” (p. 265). Sin embargo, no fueron en absoluto los primeros en hacerlo. Joseph Berkson atacó la PSHN en 1938, incluso antes de que echara sus raíces profundas en la psicología. El libro crítico de Lancelot Hogben apareció en 1957. Cuando lo leí entonces, me sentí horrorizado por su grosera apostasía. En ese momento, yo estaba bien formado en el dogma fisheriano vigente y no había oído todavía de Neyman-Pearson (intenten hallar una referencia a ellos en los textos de estadística de esa época: McNemar, Edwards, Guilford, Walker). De hecho, ya había tenido cierto éxito embriagante como proveedor de PSHN prolijas y elegantes a mis colegas clínicos en el Departamento de Veteranos.

¿Cuál es el problema con la PSHN? Pues bien, entre muchas otras cosas, no nos dice lo que queremos saber, y tanto, tanto queremos saber lo que queremos saber que, por desesperación, ¡creemos de todas formas que sí lo hace! Lo que queremos saber es “Dados ciertos datos, ¿cuál es la probabilidad de que Ho sea verdadera?”. Pero como muchos de nosotros sabemos, lo que nos dice es “Dado que Ho es verdadera, ¿cuál es la probabilidad de que ocurran estos datos (u otros más extremos)?”. Esto no es lo mismo, como destacaron muchas veces a lo largo de los años los colaboradores del libro de Morrison-Henkel (1970), entre otros, y, más reciente y enfáticamente, Meehl (1978, 1986, 1990a, 1990b), Gigerenzer (1993), Falk y Greenbaum (por publicar) y un servidor (Cohen, 1990).

Ronald Fisher
Ronald Fisher

La ilusión permanente

Uno de los problemas surge de una aplicación errónea del razonamiento silogístico deductivo. Falk y Greenbaum (por publicar) lo denominaron la “ilusión de la prueba probabilística por contradicción” o la “ilusión de alcanzar la improbabilidad”. Gigerenzer (1993) lo denominó la “ilusión permanente” y el “pensamiento ilusorio del Ello bayesiano”, parte de la “lógica híbrida” de la inferencia estadística contemporánea: una mezcla de Fisher y Neyman-Pearson, con una interpretación bayesiana inválida. Es la creencia difundida de que el nivel de significancia con el que se rechaza Ho, digamos .05, es la probabilidad de que sea correcta o, por lo menos, de baja probabilidad.

El siguiente es casi exactamente el razonamiento del rechazo de la hipótesis nula:

Si la hipótesis nula es correcta, entonces este dato (D) no puede ocurrir.

Sin embargo, ha ocurrido.

Por ende, la hipótesis nula es falsa.

Si este fuera el razonamiento de la prueba de Ho, entonces sería formalmente correcto. Sería lo que Aristóteles denominó el modus tollens, negar el antecedente al negar el consecuente. Pero este no es el razonamiento de la PSHN. En lugar de ello, hace probabilístico a este razonamiento, de la siguiente manera:

Si la hipótesis nula es correcta, entonces estos datos son muy improbables.

Estos datos han ocurrido.

Por ende, la hipótesis nula es muy improbable.

Al hacerla probabilística, se vuelve inválida. ¿Por qué? Consideremos esto; el siguiente silogismo es sensato y también es un modus tollens formalmente correcto:

Si una persona es un marciano, entonces no es un miembro del Congreso.

Esta persona es un miembro del Congreso.

Por ende, no es un marciano.

Suena razonable, ¿verdad? El próximo silogismo no es tan sensato porque la premisa mayor es incorrecta, pero el razonamiento es como el anterior y sigue siendo un modus tollens formalmente correcto:

Si una persona es estadounidense, entonces no es un miembro del Congreso. (¡INCORRECTO!)

Esta persona es un miembro del Congreso.

Por ende, no es estadounidense.

Si la premisa mayor se hace sensata al hacerla probabilística, no absoluta, el silogismo se vuelve formalmente incorrecto y lleva a una conclusión que no es sensata:

Si una persona es estadounidense, entonces es probable que no sea un miembro del Congreso. (VERDADERO, ¿NO ES ASÍ?)

Esta persona es un miembro del Congreso.

Por ende, es probable que no sea estadounidense. (Pollard & Richardson. 1987)

Esto es formalmente lo mismo que:

Si Ho es verdadero, entonces es probable que este resultado (significancia estadística) no ocurra.

Este resultado ha ocurrido.

Entonces, es probable que Ho no sea verdadera y, por ende, formalmente inválida.

Esta formulación aparece, al menos implícita, en artículo tras artículo de revistas psicológicas, y de manera explícita en algunos libros sobre estadística: “la ilusión de alcanzar la improbabilidad”.

 

Por qué P(D ¦ HO) ≠ P(H0 ¦ D)

Cuando se pone a prueba H0, lo que se halla es la probabilidad de que los datos (D) pudieran haber ocurrido si H0 fuera verdadera, P(D ¦ H0). Si la probabilidad es pequeña, entonces se puede concluir que si Ho es verdadera, D es improbable. Pues bien, lo que en verdad está en juego, lo que en verdad siempre está en juego, es la probabilidad de que Ho sea verdadera, dados los datos, P(H0  ¦  D), la probabilidad inversa. Cuando se rechaza Ho, se pretende concluir que Ho es improbable, digamos, p < .01. ¡La mismísima razón por la que se hace la prueba estadística es poder rechazar H0, a causa de su improbabilidad! Pero esa es la probabilidad a posteriori, solo disponible a través del teorema de Bayes, para lo que se precisa conocer P(H0), la probabilidad de la hipótesis nula antes del experimento, la probabilidad “a priori”.

Lo que ocurre es que, por lo general, se desconoce la probabilidad de Ho. Para tratar este problema, los estadísticos bayesianos postulan una probabilidad o distribución de probabilidades a priori. Pero un ejemplo de diagnosis psiquiátrica en la que se conoce P(H0) puede resultar iluminador:

la incidencia de la esquizofrenia en adultos es de alrededor del 2 %. Se estima que una prueba de cribado propuesta tiene al menos un 95 % de precisión al dar un diagnóstico positivo (sensibilidad) y un 97 % de precisión al establecer la normalidad (especificidad). En enunciado formal, P(normal ¦ Ho) ≈ .97, P(esquizofrenia ¦ H1) > .95. Entonces,

H0 = El caso es normal,

H1 = El caso es esquizofrénico y

D = El resultado de la prueba (los datos) da positivo en esquizofrenia.

Con una prueba positiva en esquizofrenia, dada la precisión asumida de más de .95 de la prueba, P(D ¦ H0) (la probabilidad de obtener una prueba positiva en un caso normal) es menos de .05, es decir, es significativa con p < .05. Se rechazaría la hipótesis de que el caso es normal y se concluiría que el caso padece esquizofrenia, como ocurre por error, pero dentro del error de tipo alfa .05. Pero ese no es el punto.

La probabilidad de que el caso sea normal, P(Ho), dada una prueba positiva (D), es decir, P(H0 ¦ D), no es lo que se acaba de descubrir, por mucho que así parezca y por mucho que se desee. No es verdadero que la probabilidad de que el caso sea normal sea menor que .05, ni siquiera es improbable que sea un caso normal. ¡Por una maniobra bayesiana, esta probabilidad inversa, la probabilidad de que el caso sea normal, dada una prueba de esquizofrenia positiva, es de alrededor de .60! La aritmética es la siguiente:

P(H0¦D)

La situación se vuelve más clara al expresarla aproximadamente con una tabla de 2 X 2 para 1000 casos. El caso en realidad es

Resultado Normal Esquiz. Total
Prueba negativa (normal) 949 1 950
Prueba positiva (esquiz.) 30 20 50
Total 979 21 1000

Como muestra la tabla, la probabilidad condicional de un caso normal para los resultados que arrojan esquizofrenia no es pequeña: de los 50 casos que se determinan esquizofrénicos, 30 son falsos positivos y en realidad son normales, ¡el 60 % de ellos!

Este resultado extremo ocurre a causa de la baja frecuencia base de la esquizofrenia, pero demuestra cuán equivocado se puede estar al considerar que el valor p de una prueba de significación típica es relevante para la verdad de la hipótesis nula dado un conjunto de datos.

Jerzy Neyman
Jerzy Neyman

No debe inferirse de este ejemplo que toda prueba de hipótesis nula requiere de un a priori bayesiano. Existe una forma de prueba para Ho que se ha utilizado en la astronomía y la física durante siglos, lo que Meehl (1967) denominó la forma “fuerte”, tal como promovía Karl Popper (1959). Popper propuso probar una teoría científica a través de intentos de falsarla. En términos de pruebas para hipótesis nula, se toma una predicción principal de la teoría, digamos, un valor numérico para cierta variable esencial, se establece como la Ho y se desafía la teoría al intentar rechazarla. Este es sin dudas un procedimiento válido, potencialmente más útil incluso cuando se utiliza en forma de intervalo de confianza. Lo que yo y los de mi especie denunciamos es la forma “débil”, según la que las teorías se “confirman” al rechazar la hipótesis nula.

El error de la probabilidad inversa al interpretar Ho no es exclusivo del populacho, sino que figura muchas veces en libros de estadística (aunque por lo general junto con la interpretación correcta, y al parecer los autores las consideran intercambiables). Entre los autores distinguidos que cometen este error se hallan Guilford, Nunnally, Anastasi, Ferguson y Lindquist. Algunos delatan muchos ejemplos de este error; por ejemplo, Robyn Dawes (1988, pp. 70-75); Falk y Greenbaum (por publicar); Gigerenzer (1993, pp. 316-329), quien también delató a R. A. Fisher (él rechazaba enfáticamente la teoría bayesiana de la probabilidad inversa, pero dio interpretaciones bayesianas inválidas de la PSHN) (p. 318); y Oakes (1986, pp. 17-20), quien también me delató a mí por este error (p. 20).

La ilusión de alcanzar la improbabilidad o el error del pensamiento ilusorio del Ello bayesiano al utilizar la PSHN es muy fácil de cometer. Lo cometieron 68 de 70 psicólogos académicos estudiados por Oakes (1986, pp. 79-82). A propósito, Oakes dio una explicación de la falta de análisis del poder a causa de este error casi universal de la probabilidad inversa:

Después de todo, ¿para qué preocuparse por la probabilidad de obtener datos que lleven al rechazo de la hipótesis nula si es falsa, cuando tu análisis muestra la probabilidad real de que la hipótesis nula sea falsa? (p. 83)

Un problema que surge de inmediato a partir del error del pensamiento ilusorio del Ello bayesiano es la creencia de que, tras desestimar con éxito Ho, es muy probable que las reproducciones de la investigación también desestimen Ho. En su artículo clásico “The Belief in the Law of Small Numbers”, Tversky y Kahneman (1971) demostraron que, debido a la intuición general de que los datos de una población recogidos de manera aleatoria son muy representativos, la mayor parte del público en un encuentro de la Asociación Estadounidense de Psicología y en una conferencia de psicología matemática creían que un estudio con un resultado significativo se reproduciría también con un resultado significativo en una muestra pequeña (p. 105). 42 de los 70 psicólogos académicos de Oakes (1986), creían que un t de 2.7, con df= 18 y p = .01 significaba que si el experimento se repetía muchas veces, se obtendría un resultado significativo en el 99 % de los casos. Rosenthal (1993) dijo con respecto a esta falacia de la reproducibilidad que “Nada hay más lejos de la verdad” (p. 542f) y remarcó que, dado el nivel de poder típico de .50 para tamaños del efecto medios que utilizan la mayoría de los científicos de la conducta (Cohen, 1962), la probabilidad es que en tres reproducciones solo una de ocho arrojarán resultados significativos en las tres reproducciones, mientras que en cinco reproducciones, la posibilidad de que tres de ellas sean significativas solo es 50:50.

Un error de lógica elemental que suelen cometer quienes adhieren a la PSHN y que marcan sus críticos es la conclusión irreflexiva, en general implícita, de que, si se rechaza Ho, entonces se establece la teoría: Si A, entonces B; B, entonces A. Pero incluso la forma válida del silogismo (si A, entonces B; no B, entonces no A) se puede malinterpretar. Meehl (1990a, 1990b) apuntó que, además de la teoría que llevó a la prueba, suelen existir varias teorías auxiliares o presunciones y cláusulas ceteris paribus, y lo que se contrapone a Ho es el producto de todo ello. Así, cuando se rechaza Ho, puede deberse a la falsedad de cualquiera de las teorías auxiliares sobre el instrumental o la naturaleza de la psiquis o de las cláusulas ceteris paribus, y no de la teoría fundamental que dio lugar a la investigación.

Entonces, aun cuando se utiliza e interpreta “de manera adecuada”, con un criterio de significación (casi siempre p < .05) fijado a priori (o que se conoce con mayor frecuencia), Ho tiene pocas virtudes a la hora de probar teorías psicológicas en su forma usual de “Ho rechazada, teoría confirmada”. La decisión ritual y dicotómica rechazar-aceptar, sin importar cuán objetiva y administrativamente conveniente sea, no es la forma en que se hace ninguna ciencia. Como escribió Bill Rozeboom en 1960, “el objetivo primario de un experimento científico no es precipitar decisiones, sino hacer un ajuste apropiado en el grado en el que […] se cree la hipótesis […] puesta a prueba” (p. 420).

William W. Rozeboom
William W. Rozeboom

La hipótesis cero

Hasta ahora, consideré las Ho en su sentido más general: como proposiciones sobre el estado de cosas en una población, en especial, como cierto valor especificado de un parámetro poblacional. Por tanto, “la diferencia media es 4” puede ser una Ho, como podría ser “la proporción de hombres en esta población es .75” y “la correlación en esta población es .20”. Pero en su uso casi universal, lo nulo en Ho se interpreta como cero. Para Fisher, la hipótesis nula era la hipótesis que debía anularse. Como si esta interpretación (o malinterpretación) de la PSHN en este sentido general no fuera en sí algo malo, el asunto ya se vuelve ridículo cuando Ho equivale a que el tamaño del efecto (TE) sea 0, que la diferencia media de la población sea 0, que la correlación sea 0, que la proporción de hombres sea .50, que la confiabilidad de los evaluadores sea 0 (una Ho que casi siempre se puede rechazar, incluso con una muestra pequeña: ¡Dios nos ayude!). La mayor parte de las críticas a la PSHN en la literatura se ha dirigido a este caso especial, donde su uso puede ser válido solo para experimentos verdaderos que conlleven aleatorización (por ejemplo, pruebas clínicas controladas) o cuando cualquier desvío del puro azar sea significativo (como en los experimentos de laboratorio sobre la clarividencia), pero incluso en estos casos, los intervalos de confianza aportan más información. De aquí en más me referiré a la Ho de que el TE = 0 como la “hipótesis cero”.

Mi trabajo sobre el análisis del poder me llevó a darme cuenta de que la hipótesis cero siempre es falsa. Si me permiten citarme a mí mismo de manera descarada:

Solo puede ser verdadera en las entrañas del procesador de una computadora que ejecuta un estudio Monte Carlo (y aún en ese caso, un electrón perdido podría hacerlo falso). Si es falso, incluso en un grado ínfimo, entonces una muestra lo suficientemente grande podrá producir un resultado significativo y llevará a su desestimación. En ese caso, si la hipótesis nula siempre es falsa, ¿qué importancia tiene rechazarla? (p. 1308)

Eso lo escribí en 1990. Más recientemente, descubrí que, en 1938, Berkson escribió:

 Los estadísticos estarían de acuerdo en que una muestra grande siempre es mejor que una muestra pequeña. Por lo tanto, si sabemos de antemano el P que resultará de una aplicación de la prueba chi-cuadrado en una muestra grande, parecería ser inútil aplicarla en una muestra pequeña. Pero como ya se conoce el resultado de la primera prueba, no es en verdad una prueba. (p. 526f)

Tukey (1991) escribió que “es tonto preguntar ‘¿Son los efectos de A y B diferentes?’ Siempre son diferentes: al menos en algún lugar decimal” (p. 100).

Thompson lo remarca de forma penetrante (1992):

La prueba de significación estadística puede conllevar una lógica tautológica en la que los investigadores cansados, tras haber recabado datos de cientos de sujetos, llevan a cabo una prueba estadística para evaluar si fueron muchos sujetos, algo que los investigadores ya saben, porque recabaron los datos y saben que están cansados. Esta tautología generó un daño considerable en lo que atañe a la acumulación de conocimiento (p. 436).

En un estudio no publicado, Meehl y Lykken hicieron una tabla de contingencia con 15 elementos para una muestra de 57.000 estudiantes secundarios de Minnesota, incluyendo ocupación del padre, nivel de educación del padre, nivel de educación de la madre, cantidad de hermanos, sexo, orden de nacimiento, planes de estudio, actitudes familiares hacia la universidad, su opinión sobre la escuela, elección de universidad, planes de trabajo a 10 años, orientación religiosa, actividades de tiempo libre y organizaciones de escuela secundaria. Todos los 105 chi-cuadrados que produjeron estos 15 elementos a través de las tablas fueron estadísticamente significativos, el 96 % de ellos con p < .000001 (Meehl, 1990b).

Alguien podría decir, “Con 57,000 casos, relaciones tan pequeñas como un Φ de Cramer de .02-.03 serán significativas con p < .000001, entonces, ¿cuál es el problema?” Bien, el problema es que muchas de las relaciones fueron bastante mayores que .03. Introduzcamos el “factor porquería” de Meehl, más gentilmente denominado “ruido de correlación ambiental” por Lykken. En la psicología blanda, “Todo se relaciona con todo”. Meehl reconoció (1990b) que ni él ni nadie tiene conocimiento preciso de la magnitud del factor porquería en un campo de investigación específico, “pero la idea de que la correlación entre pares arbitrarios de variables de rasgos será, si bien no en verdad cero, de una magnitud tan minúscula como para carecer de importancia, sin dudas es errónea” (p. 212, cursiva en el original).

Meehl (1986) consideró un típico artículo de revisión sobre la evidencia para cierta teoría, basado en la prueba de hipótesis cero, que declara una puntuación de 16:4 a favor de la teoría. Tras tener en cuenta la incidencia del factor porquería, el sesgo contra informar y publicar resultados “negativos” (el problema del “fichero” de Rosenthal, 1979) y presuponer un poder de .75, estimó que la razón de verosimilitud de la teoría contra el factor porquería era 1:1. Entonces, al asumir que la probabilidad a priori de las teorías en la psicología blanda es ≤.10, concluyó que la probabilidad a posteriori bayesiana también es ≤.10 (p. 327f). Así, una puntuación de 16:4 a favor de una teoría se vuelve una razón de probabilidades más realista de 9:1 en su contra.

Paul E. Meehl
Paul E. Meehl

El metaanálisis, con su énfasis en los tamaños del efecto, es un punto positivo en el panorama contemporáneo. Uno de sus mayores contribuyentes y adherentes, Frank Schmidt (1992), ofreció una perspectiva interesante sobre las consecuencias de la actual investigación basada en la PSHN en las ciencias de la conducta. Les recordó a los investigadores que, dado el hecho de que la hipótesis cero siempre es falsa, la tasa de errores de tipo I es 0 %, no 5 %, y que solo se pueden cometer errores de tipo II, que suelen rondar el 50 % (Cohen, 1962; Sedlmeier & Gigerenzer, 1989). Demostró que, en general, el tamaño del efecto de la muestra necesario para que sea significativo es notablemente más grande que el tamaño de la muestra de la población real, y que el promedio de los tamaños de los efectos estadísticamente significativos son mucho mayores que el tamaño del efecto real. El resultado es que aquellos que se concentran en los tamaños de los efectos cometen un sesgo positivo considerable en su estimación del tamaño. Además, resulta irónico que los “sofisticados” que usan procedimientos para ajustar su error alfa para diversas pruebas (a través de Bonferroni, Newman-Keuls, etc.) hacen un ajuste para un error alfa inexistente, con lo que reducen su poder y, si tienen la suerte de obtener un resultado significativo, ¡solo logran una sobreestimación grosera del tamaño del efecto de la población!

Como los valores p de las PSHN son moneda corriente en gran parte de la psicología, han logrado inhibir su desarrollo como ciencia. ¡A ver si se puede construir una ciencia cuantitativa con valores p! Todos los psicólogos saben que estadísticamente significativo no equivale a significativo en el lenguaje cotidiano, pero si estudiamos la literatura, es común encontrar hallazgos que se informan en la sección Resultados entre asteriscos y que, en la sección Debate, se convierten de manera implícita en algo muy significativo, ¡de absoluta relevancia, importante, grande!

Incluso una interpretación correcta de valores p no logra demasiado, ni lo ha hecho durante largo tiempo. Tukey (1991) advirtió que, si los investigadores no logran rechazar una hipótesis cero sobre la diferencia entre A y B, lo único que pueden decir es que la dirección de la diferencia es “incierta”. Si los investigadores rechazan la hipótesis cero, entonces pueden decir que están bastante seguros de la dirección, por ejemplo, “A es mayor que B”. Pero si nosotros, como psicólogos, solo aprendemos de una investigación que A es mayor que B (p < .01), no hemos aprendido demasiado. Y eso es en general lo único que aprendemos. En nuestras publicaciones rara vez se ven los intervalos de confianza. En otro artículo (Tukey, 1969), reprendió a psicólogos y otros científicos de la conducta y biólogos con la advertencia “La cantidad, así como la dirección, es vital” y dijo lo siguiente:

Los físicos aprendieron mucho de la acumulación de cantidades, no solo de direcciones. Si, por ejemplo, la elasticidad se hubiera limitado a “Cuando jalas algo, ¡se estira!”, la ley de Hooke, el límite elástico, la plasticidad y muchos otros conceptos importantes no hubieran surgido (p. 86)… Medir las cosas correctas según una escala comunicable nos permite acumular información sobre cantidades. Dicha información puede ser útil, ya sea que la escala elegida sea de intervalo o no. Antes de la segunda ley de la termodinámica (y hubo muchas décadas de progreso en la física y la química antes de que apareciera), la escala de la temperatura no era, en ningún sentido no trivial, una escala de intervalo. Sin embargo, estas décadas de progreso hubieran sido imposibles si los físicos y los químicos se hubieran negado a registrar temperaturas o a hacer cálculos con ellas. (p. 80)

En el mismo sentido, Tukey (1969) se quejaba de los coeficientes de correlación y citaba a su maestro, Charles Winsor, quien afirmaba que son un síntoma peligroso. A diferencia de los coeficientes de regresión, las correlaciones están sujetas a variar con la selección cuando los investigadores cambian las poblaciones. Atribuía la preferencia de los investigadores por las correlaciones a su reticencia a pensar en las unidades de medida.

Dadas dos variables perfectamente irrelevantes, nos viene a la mente el sinsentido del coeficiente de regresión dado, ya que uno se pregunta cómo interpretar su valor… Mostrar tan poco interés por nuestras variables al punto de que no nos importen sus unidades no es algo muy deseable (p. 89).

El gran problema de las correlaciones aplicadas a los datos de la investigación es que no pueden aportarnos información útil sobre la intensidad causal porque cambian con el grado de variabilidad de las variables que relacionan. La causalidad funciona en instancias individuales, no en poblaciones cuyos miembros varían. El efecto de A sobre B para mí difícilmente dependa de si pertenezco a un grupo con mucha variación en A o a otro que no varía en absoluto. No es accidental que los modelos causales funcionen con coeficientes de regresión y no de correlación. En el mismo sentido, debo aclarar que las medidas estandarizadas de tamaños del efecto, como d y f, desarrolladas en el análisis del poder (Cohen, 1988), al igual que las correlaciones, dependen de la variabilidad poblacional de la variable dependiente y solo se utilizan de manera apropiada cuando se tiene en cuenta ese hecho.

Para hacer un trabajo constructivo con intervalos de confianza y coeficientes de regresión “en bruto”, los psicólogos deben comenzar por respetar las unidades con las que trabajan o desarrollar unidades de medida que puedan respetar lo suficiente, para que los investigadores en un campo o subcampo determinado puedan estar de acuerdo con su uso. Así, hay esperanzas de que el conocimiento de los investigadores sea acumulativo, algo que no abunda en la psicología blanda. Un comienzo en esta dirección proviene del metaanálisis, que, más allá de lo que pueda llegar a lograr, al menos centró la atención en los tamaños del efecto. Pero pensemos cuánto más fructífero sería el metaanálisis típico si la investigación tratada utilizara las mismas medidas para los modelos estudiados. Los investigadores podrían ir más allá al utilizar una masa de estudios para demostrar de forma convincente que “si jalas esto, se estira”.

Recuerden mi ejemplo de la correlación altamente significativa entre la altura y la inteligencia en 14.000 escolares, que se traducía en un coeficiente de regresión que establecía que para elevar el IQ de un niño de 100 a 130 sería necesario darle las suficientes hormonas de crecimiento para elevar 4 metros su estatura (Cohen, 1990).

John W. Tukey
John W. Tukey

¿Qué hay que hacer?

En primer lugar, no busquemos una alternativa mágica a la PSHN, otro ritual mecánico objetivo que la reemplace. No existe.

Segundo, incluso si nosotros, como psicólogos, pretendemos generalizar a partir de nuestros datos, debemos buscar comprenderlos y mejorarlos. John Tukey anunció un avance importante en el abordaje de los datos, que preconizaba un “trabajo de detective” más que una “santificación”, en su artículo “The Future of Data Analysis” (1962) y lo detalló en su libro fundamental, Exploratory Data Analysis (EDA; 1977). EDA busca no caer en generalizar a toda la población, sino que, a través de técnicas simples, flexibles, informales y en gran parte gráficas, trata de comprender el conjunto de datos disponible. Desde entonces, Tufte (1983, 1990), Cleveland (1993; Cleveland & McGill, 1988) y otros han hecho contribuciones importantes al análisis gráfico de datos. Un capítulo excelente de Wainer y Thissen (1981), recientemente actualizado (Wainer y Thissen, 1993), aporta muchas referencias útiles, y los paquetes de programas estadísticos aportan el software necesario (para un ejemplo, ver SYGRAPH de Lee Wilkinson [1990], que está en plena actualización).

Hace cuarenta y dos años, Frank Yates, un colega y amigo íntimo de R. A. Fisher, escribió sobre su obra “Statistical Methods for Research Workers” (1925/1951):

Ha ocasionado que los investigadores científicos presten una atención indebida a los resultados de las pruebas de significación que realizan sobre sus datos. . . y muy poca atención a las estimaciones de la magnitud de los efectos que estiman (p. 32).

Por lo tanto, mi tercera recomendación es que, como investigadores, informemos de manera habitual los tamaños del efecto en forma de límites de confianza. “Todos saben” que los intervalos de confianza contienen toda la información que se puede hallar en las pruebas de significación y mucho más. No solo revelan el estado de la hipótesis cero trivial, sino también el estado de las hipótesis nulas distintas a cero, y así ayudan a recordar a los investigadores la posible incidencia del factor porquería. Sin embargo, rara vez se encuentran en la literatura. ¡Sospecho que la razón principal por la que no se informan es que son vergonzosamente altos! Pero el mero tamaño debería motivarnos a mejorar el proceso de medir al intentar reducir la parte inválida y no confiable de la varianza en nuestras mediciones (como el mismo Student recomendó hace casi un siglo). También, su amplitud nos aporta el análogo de un análisis del poder en la prueba de significación: los tamaños de muestra más grandes reducen el tamaño de los intervalos de confianza a medida que aumentan el poder estadístico de la PSHN. Un programa nuevo cubre los intervalos de confianza para las diferencias medias, la correlación, las tablas de contingencia (incluyendo las razones de probabilidades y los riesgos relativos) y el análisis de supervivencia (Borenstein, Cohen & Rothstein, por publicar). También genera las “curvas de confianza” de Birnbaum (1961), a partir de las que se pueden observar todos los intervalos de confianza entre el 50 % y el 100 %, y así obviar la necesidad de elegir un nivel de confianza específico para la presentación.

Como investigadores, tenemos una gama considerable de técnicas estadísticas que nos pueden ayudar a hallar el camino hacia teorías con cierta profundidad, pero deben utilizarse con sensatez y con un juicio sumamente informado. Incluso las pruebas de hipótesis nula con análisis de poder pueden ser útiles si abandonamos la desestimación de hipótesis cero exactas y utilizamos en su lugar hipótesis nulas de rango “lo suficientemente bueno” (por ejemplo, “el tamaño del efecto no supera las 8 unidades de datos brutos o d = 5”), como describieron en detalle Serlin y Lapsley (1993). A medida que nuestras medidas y teorías mejoren, podremos comenzar a alcanzar el principio popperiano de representar nuestras teorías como hipótesis nulas y someterlas a verificación, como sostuvo Meehl (1967) hace muchos años. Con teorías psicológicas más evolucionadas, también podremos hallar un uso para las razones de verosimilitud y los métodos bayesianos (Goodman, 1993; Greenwald, 1975). Los científicos de la conducta cuantitativos no tenemos por qué perder nuestra utilidad.

La inducción es un viejo problema en la filosofía de la ciencia. Meehl (1990a) atribuyó al distinguido filósofo Morris Raphael Cohen el dicho “Todos los textos de lógica se dividen en dos partes. En la primera, que trata la lógica deductiva, se explican las falacias; en la segunda, que trata la lógica inductiva, se cometen” (p. 110). Apelamos a la lógica inductiva para pasar de los resultados particulares en nuestro poder a una generalización de utilidad teórica. Como destaqué, contamos con una serie de técnicas estadísticas que, usadas con inteligencia, pueden facilitar nuestros esfuerzos. Pero dados los problemas de la inducción estadística, a fin de cuentas, debemos depender, como lo han hecho las ciencias más antiguas, de la reproducibilidad.

Jacob Cohen

* Bruce Overmier fue el editor de este artículo.

El artículo fue originalmente una conferencia dictada durante el Saul B. Sells Memorial Lifetime Achievement Award [Premio conmemorativo Saul B. Sells a la trayectoria], Sociedad de Psicología Experimental Multivariante, San Pedro, California, el 29 de octubre de 1993.

Aproveché los comentarios a un boceto preliminar que hicieron Patricia Cohen y otros colegas: Robert P. Abelson, David Bakan, Michael Borenstein, Robyn M. Dawes, Ruma Falk, Gerd Gigerenzer, Charles Greenbaum, Raymond A. Katzell, Donald F. Klein, Robert S. Lee, Paul E. Meehl, Stanley A. Mulaik, Robert Rosenthal, William W. Rozeboom, Elia Sinaiko, Judith D. Singer y Bruce Thompson. También agradezco la ayuda que recibí de los revisores David Lykken, Matt McGue y Paul Slovic.

Toda correspondencia concerniente a este artículo debe dirigirse a Jacob Cohen, Departamento de psicología, Universidad de Nueva York, 6 Washington Place, piso 5, Nueva York, NY 10003.

REFERENCIAS

Bakan, D. (1966). The test of significance in psychological research. Psychological Bulletin, 66. 1-29.

Berkson, J. (1938). Some difficulties of interpretation encountered in the application of the chi-square test. Journal of the American Statistical Association, 33, 526-542.

Birnbaum, A. (1961). Confidence curves: An omnibus technique for estimation and testing statistical hypotheses. Journal of the American Statistical Association, 56, 246-249.

Borenstein, M., Cohen, J. & Rothstein, H. (por publicar). Confidence intervals, effect size, and power [Computer program], Hillsdale, NJ: Erlbaum.

Cleveland, W. S. (1993). Visualizing data. Summit, NJ: Hobart.

Cleveland, W. S. & McGill, M. E. (Eds.). (1988). Dynamic graphics for statistics. Belmont, CA: Wadsworth.

Cohen, J. (1962). The statistical power of abnormal-social psychological research: A review. Journal of Abnormal and Social Psychology, 69, 145-153.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2da ed.). Hillsdale. NJ: Erlbaum.

Cohen, J. (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312.

Dawes, R. M. (1988). Rational choice in an uncertain world. San Diego, CA: Harcourt Brace Jovanovich.

Falk, R. & Greenbaum, C. W. (por publicar). Significance tests die hard: The amazing persistence of a probabilistic misconception. Theory and Psychology.

Fisher, R. A. (1951). Statistical methods for research workers. Edimburgo, Escocia: Oliver & Boyd. (Obra original publicada en 1925)

Gigerenzer, G. (1993). The superego, the ego, and the id in statistical reasoning. In G. Keren & C. Lewis (Ed.), A handbook for data analysis in the behavioral sciences: Methodological issues (pp. 31 1-339). Hillsdale, NJ: Erlbaum.

Goodman, S. N. (1993). P values, hypothesis tests, and likelihood implications for epidemiology: Implications of a neglected historical debate. American Journal of Epidemiology, 137. 485-496.

Greenwald, A. G. (1975). Consequences of prejudice against the null hypothesis. Psychological Bulletin, 82, 1-20.

Hogben, L. (1957). Statistical theory. Londres: Allen & Unwin.

Lykken, D. E. (1968). Statistical significance in psychological research. Psychological Bulletin, 70. 151-159.

Meehl, P. E. (1967). Theory testing in psychology and physics: A methodological paradox. Philosophy of Science, 34, 103-115.

Meehl. P. E. (1978). Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft psychology. Journal of Consulting and Clinical Psychology, 46, 806-834.

Meehl, P. E. (1986). What social scientists don’t understand. In D. W. Fiske & R. A. Shweder (Eds.), Metatheory in social science: Pluralisms and subjectivities (pp. 315-338). Chicago: University of Chicago Press.

Meehl, P. (1990a). Appraising and amending theories: The strategy of Lakatosian defense and two principles that warrant it. Psychological Inquiry, 1, 108-141.

Meehl, P. E. (1990b). Why summaries of research on psychological theories are often uninterpretable. Psychological Reports, 66(Monograph Suppl. 1-V66), 195-244.

Morrison. D. E. & Henkel, R. E. (Eds.). (1970). The significance test controversy. Chicago: Aldine.

Oakes, M. (1986). Statistical inference: A commentary for the social and behavioral sciences. Nueva York: Wiley.

Pollard, P. & Richardson, J. T. E. (1987). On the probability of making Type I errors. Psychological Bulletin, 102. 159-163.

Popper, K. (1959). The logic of scientific discovery. Londres: Hutchinson.

Rosenthal, R. (1979). The “file drawer problem” and tolerance for null results. Psychological Bulletin, 86, 638-641.

Rosenthal, R. (1993). Cumulating evidence. In G. Keren & C. Lewis (Ed.), A handbook for data analysis in the behavioral sciences: Methodological issues {py>. 519-559). Hillsdale, NJ: Erlbaum.

Rozeboom, W. W. (1960). The fallacy of the null hypothesis significance test. Psychological Bulletin, 57, 416-428.

Schmidt, F. L. (1992). What do data really mean? Research findings, meta-analysis, and cumulative knowledge in psychology. American Psychologist, 47. 1173-1181.

Sedlmeier, P. & Gigerenzer, G. (1989). Do studies of statistical power have an effect on the power of studies? Psychological Bulletin, 105, 309-316.

Serlin, R. A. & Lapsley, D. K. (1993). Rational appraisal of psychological research and the good-enough principle. En G. Keren & C. Lewis (Eds.), A handbook for data analysis in the behavioral sciences: Methodological issues (pp. 199-228). Hillsdale, NJ: Erlbaum.

Thompson, B. (1992). Two and one-half decades of leadership in measurement and evaluation. Journal of Counseling and Development, 70, 434-438.

Tufte, E. R. (1983). The visual display of quantitative information. Cheshire, CT: Graphics Press.

Tufte, E. R. (1990). Envisioning information. Cheshire, CT: Graphics Press.

Tukey, J. W. (1962). The future of data analysis. Annals of Mathematical Statistics, 33, 1-67.

Tukey, J. W. (1969). Analyzing data: Sanctification or detective work? American Psychologist, 24, 83-91.

Tukey, J. W. (1977). Exploratory data analysis. Reading, MA: Addison- Wesley.

Tukey, J. W. (1991). The philosophy of multiple comparisons. Statistical Science. 6, 100-116.

Tversky, A. & Kahneman, D. (1971). Belief in the law of small numbers. Psychological Bulletin, 76, 105-110.

Wainer, H. & Thissen, D. (1981). Graphical data analysis. En M. R. Rosenzweig & L. W. Porter (Eds.), Annual review of psychology (pp. 191-241). Palo Alto, CA: Annual Reviews.

Wainer, H. & Thissen, D. (1993). Graphical data analysis. En G. Keren & C. Lewis (Eds.), A handbook for data analysis in the behavioral sciences: Statistical issues (pp. 391-457). Hillsdale, NJ: Erlbaum.

Wilkinson. L. (1990). SYGRAPH: The system for graphics. Evanston, IL: SYSTAT.

Yates, F. (1951). The influence of statistical methods for research workers on the development of the science of statistics. Journal of the American Statistical Association, 46. 19-34.

Don't miss out!
Blog subscription

Get a notification on your e-mail with each new post

Invalid email address
You may cancel the subscription at any time