Significación estadística y credibilidad en marketing

La significación estadística indica la probabilidad de que una campaña de marketing haya sido directamente responsable del comportamiento de sus destinatarios.

Tiempo de lectura 13 minutos

LinkedInXFacebook

Informe exclusivo de Forrester sobre la IA en el marketing

¿Qué es la significación estadística?

Al analizar los resultados de las campañas de marketing, la significación estadística es una indicación probabilística de si los resultados observados de la campaña habrían ocurrido probablemente incluso en ausencia de la campaña.

Dicho de otra manera, la significación estadística en el análisis de campañas es el parámetro que indica si el comportamiento de los destinatarios de la campaña fue el resultado directo de una campaña específica, o si se podrían haber observado resultados similares incluso si la campaña nunca se hubiera llevado a cabo.

Cuando se determina que el aumento calculado de una campaña es estadísticamente significativo, existe una fuerte evidencia de que la campaña fue responsable del aumento del gasto (o de cualquier otra métrica de aumento analizada). Sin embargo, en el caso de que se considere que el resultado del aumento no es estadísticamente significativo, el profesional del marketing no debe basarse en ese resultado para tomar decisiones. En su lugar, el profesional del marketing debe realizar experimentos adicionales (por ejemplo, realizando cambios en la campaña o ajustando los grupos de destinatarios) con el objetivo de lograr resultados de aumento satisfactorios y estadísticamente significativos.

Cálculo del uplift utilizando grupos de prueba y de control

La forma más fiable de medir la eficacia de una campaña es dividir el público objetivo de la campaña en dos grupos separados y comparar el comportamiento resultante de cada uno: un grupo de prueba (los clientes que realmente reciben la campaña) y un grupo de control (clientes similares a los del grupo de prueba, pero que no recibieron ninguna campaña durante el periodo de medición de la campaña).

El objetivo es comprender el impacto que ha tenido la campaña en una métrica de aumento concreta (como el aumento del gasto de los clientes), analizando las diferencias de comportamiento entre el grupo de prueba y el grupo de control.

Sin embargo, el cálculo del aumento resultante puede ser o no un indicador fiable del impacto de la campaña en sí. Para determinar la probabilidad de que el uplift calculado fuera, de hecho, un resultado directo de la campaña, es necesario calcular la significación estadística del resultado.

Cálculo de la significación estadística para las campañas de marketing dirigidas a los clientes

Existen diversas técnicas para medir la eficacia de las campañas en términos de uplift y significación estadística. A continuación se describe una de ellas:

  • Prueba de proporción: Esta prueba compara las tasas de respuesta medias de los grupos de prueba y de control, es decir, el porcentaje de clientes de cada grupo que realizaron alguna acción rastreada durante el periodo de medición de la campaña.
  • Prueba T: Esta prueba determina si los resultados medios observados por cliente son estadísticamente diferentes entre los grupos de prueba y de control (por ejemplo, ¿los clientes del grupo de prueba mostraron un gasto medio más alto en comparación con los clientes del grupo de control?).

Para cada una de las dos pruebas se debe calcular un valor p, y ambos valores p se deben utilizar para derivar la significación estadística de las pruebas (se utiliza un valor p = 0,05 para indicar la significación). Cuando una campaña se considera estadísticamente significativa, esto implica que los resultados de la campaña probablemente no se debieron al azar. La significación estadística indica que los resultados del análisis pueden interpretarse como un estimador fiable del efecto «real» que la campaña tuvo en su público objetivo.

Para cada una de las pruebas estadísticas de proporción y T, hay tres factores que determinan si los resultados son estadísticamente significativos (es decir, si tienen un valor p = 0,05):

  • Tamaño de la muestra (número total de clientes que participan en el análisis). Cuando un conjunto de datos contiene más puntos de datos, el análisis del conjunto de datos puede considerarse más fiable.
  • Diferencia entre las medias de los grupos de prueba y control (tasa de respuesta media para la prueba de proporción y valor métrico medio para la prueba T). Cuanto mayores sean las diferencias, más fiable será el análisis de los resultados.
  • Desviación estándar (la desviación estándar de la diferencia en las tasas de respuesta para la prueba de proporción y la desviación estándar de la diferencia en la métrica media para la prueba T). La desviación estándar es una forma de medir el nivel de «ruido» presente en los datos (técnicamente es una medida de la dispersión de los datos alrededor de la media, por lo que un grupo de clientes que tengan exactamente el mismo valor de mejora tendrá una desviación estándar de cero). Cuando los datos son «ruidosos» (con una desviación estándar alta), solo se consideraría significativa una diferencia notablemente grande entre los grupos de prueba y control (una analogía: en un entorno muy ruidoso, solo se oirá un grito fuerte, mientras que un susurro suave pasará desapercibido). Aunque es tan importante como los dos primeros factores, muchos analistas tienden a pasar por alto la desviación estándar y se preguntan por qué una diferencia aparentemente grande entre dos medias no se considera estadísticamente significativa.

En resumen: cuanto mayor sea el tamaño de la muestra y mayores sean las diferencias en los resultados medios entre los grupos de prueba y control, mayores serán las posibilidades de que los resultados se consideren estadísticamente significativos. Sin embargo, a medida que aumenta la desviación estándar, las posibilidades disminuyen. Recuerde: una gran diferencia entre el grupo de prueba y el de control con una desviación estándar igualmente grande no significa mucho. Una campaña que logre una gran diferencia entre el grupo de prueba y el de control junto con una desviación estándar relativamente baja probablemente será significativa.

Preguntas frecuentes sobre la medición de la eficacia de las campañas de marketing

Los profesionales del marketing a menudo buscan comprender cómo aprovechar al máximo estos resultados al medir la eficacia del marketing. A continuación, se ofrecen respuestas a algunas preguntas que puede tener sobre el tema de la significación estadística. Estas respuestas le ayudarán a aclarar la aplicación práctica de los conceptos de marketing estadístico mencionados anteriormente.

P: ¿La falta de significación estadística en los resultados de nuestra campaña se debe al pequeño tamaño de nuestros grupos objetivo? ¿Quizás deberíamos considerar solo los resultados del análisis de una serie de campañas recurrentes? ¿O deberíamos aumentar el número de clientes en cada campaña individual para intentar que sean estadísticamente significativas?

No hay una respuesta clara a esta pregunta, principalmente debido a que hay varias razones posibles por las que un resultado no es significativo. La razón más probable por la que los resultados de la campaña no son estadísticamente significativos es porque ¡la campaña en sí simplemente no es eficaz! Si una campaña no motiva con éxito a los clientes, es obvio que aumentar el número de destinatarios no aumentará la probabilidad de obtener resultados estadísticamente significativos.

La significación estadística se ve afectada por tres factores principales: el número total de clientes a los que se dirige (que no coincide necesariamente con la cuestión irrelevante de cuánto tiempo lleva en marcha una campaña recurrente), la diferencia en los patrones de respuesta entre los grupos de prueba y de control, y la desviación estándar (el «ruido» del conjunto de datos de los resultados). No existe un umbral concreto para cada factor por encima del cual una campaña se considere significativa.

Los resultados de grupos muy pequeños deben analizarse de forma agregada mediante la opción de recurrencia para obtener una mayor potencia estadística. Sin embargo, hay que tener en cuenta que acumular más y más observaciones con la esperanza de obtener un resultado estadísticamente significativo puede acabar siendo ineficaz si la campaña en sí misma es ineficaz. Por lo tanto, debe centrarse en intentar crear mejores campañas, no en inflar el tamaño de los grupos con la esperanza de alcanzar la significación estadística.

También vale la pena mencionar que la otra cara de este fenómeno se da en campañas con muestras de gran tamaño, como las que cuentan con más de un millón de clientes. Estas campañas tienden a ser estadísticamente significativas, incluso con diferencias muy poco impresionantes entre el control y la prueba. En estas situaciones, con muestras tan grandes, es posible que los resultados no sean subjetivamente interesantes, aunque es más probable que sean estadísticamente significativos que en campañas más pequeñas.

P: ¿Son los tres factores (tamaño del grupo, diferencia en la respuesta y desviación estándar) igualmente importantes?

Es difícil clasificar estos factores en términos de importancia relativa, ya que depende de las condiciones específicas de la campaña. Por ejemplo, en el caso de un grupo objetivo enorme, digamos un millón de clientes, una persona adicional tiene una influencia marginal, mientras que para un grupo pequeño una persona más puede ser muy importante.

P: En cuanto al tamaño del grupo: he observado que, hasta ahora, la única vez que alguna de las campañas es estadísticamente significativa para una campaña individual es cuando el número de clientes objetivo es de al menos 50. ¿Puede confirmar que esto es así?

No existe un umbral específico para el número de destinatarios necesarios para obtener resultados estadísticamente significativos, ya que la significación estadística también depende de la desviación estándar y del comportamiento de los clientes.

Por ejemplo: supongamos que una campaña no tiene éxito, de modo que refleja una diferencia «real» en la tasa de respuesta entre el grupo de control y el grupo de prueba de, como máximo, un 0,1 %. En este caso, probablemente se necesitarán muchos más de 50 clientes para obtener resultados estadísticamente significativos, ya que el tamaño del grupo debe compensar el bajo rendimiento de la campaña.

Sin embargo, si la campaña funciona extremadamente bien y presenta una diferencia «real» entre la prueba y el control de nada menos que un 25 %, entonces probablemente bastarán 50 clientes para obtener resultados estadísticamente significativos.

P: Me interesa dirigir mis campañas a grupos de clientes más pequeños y granulares, pero ¿no afectará el tamaño reducido de los grupos a mi capacidad para obtener resultados estadísticamente significativos?

¡Es menos importante buscar la significación estadística que esforzarse por crear campañas eficaces y específicas! En cualquier caso, siempre puede analizar una serie combinada de campañas pequeñas y recurrentes para obtener resultados con una muestra de mayor tamaño. Por ejemplo, si envía una campaña concreta a 50 nuevos clientes cada día, debe analizar la serie como si se tratara de una única campaña. Así, por ejemplo, durante un periodo de dos semanas, esta «campaña virtual» acumularía más de 600 clientes, lo que probablemente sería suficiente para generar resultados fiables.

Sin embargo, incluso haciendo esto, es posible que siga sin haber suficientes clientes en el grupo de control para obtener resultados significativos. La solución a esto es seleccionar una proporción mayor de destinatarios como grupo de control para algunas campañas (incluso hasta el 50 % en casos extremos) para garantizar al menos un número mínimo de clientes del grupo de control.

La cuestión aquí no es que la significación estadística no sea importante (es extremadamente importante), sino que, en general, debe intentar alcanzar la significación estadística mediante campañas específicas y eficaces, y no modificando el número de destinatarios de la campaña. La significación estadística no es un objetivo en sí mismo, sino algo que indica si los resultados del análisis de la campaña son lo suficientemente fiables como para confiar en ellos (piense en ello más como el mensajero que como el mensaje en sí).

Un buen caso en el que es preferible una campaña no tan granular (con un grupo de destinatarios grande) a una campaña pequeña y granular es cuando no se está seguro de cómo dirigirse a ese segmento de clientes en particular de forma granular. Si no está seguro de cómo abordar un segmento de clientes y cómo dividirlo en grupos más detallados, entonces comenzar con un grupo relativamente grande y heterogéneo es una opción sólida. Una base de destinatarios más amplia puede permitir un aprendizaje más rápido y, lo que es más importante, es mejor comenzar con algo que quedarse estancado y no hacer nada. Sin embargo, esta estrategia siempre debe considerarse como un primer paso, teniendo en cuenta que, tras un periodo de aprendizaje, debe subdividir el grupo en subgrupos granulares de una manera que tenga sentido desde el punto de vista empresarial.

P: ¿Puede explicar con más detalle el «desvío estándar»?

El desvío estándar se calcula a partir de los datos (al igual que la media o el máximo) y es una medida de la tendencia de los puntos de datos observados a no agruparse de forma ordenada, sino a dispersarse entre sí sin un punto de referencia común (los datos atípicos, por ejemplo, aumentan el desvío estándar). La desviación estándar puede considerarse como un indicador del «ruido» de los datos.

En comparación con otras métricas de «ruido», tiene la ventaja de ser más interpretable: sirve de amortiguador entre lo que puede considerarse pura casualidad y lo que podría tener resultados efectivos. Una diferencia entre el control y la prueba que no supere el valor de la desviación estándar es realmente algo que podríamos haber esperado que ocurriera de todos modos, por pura casualidad, como si nunca se hubiera llevado a cabo ninguna campaña. Sin embargo, una campaña estadísticamente significativa será aquella cuyos resultados superen la desviación estándar en una cantidad no trivial (normalmente al menos 1,7 veces la desviación estándar), es decir, cuyos resultados destaquen por encima del factor de aleatoriedad natural lo suficiente como para indicar una relación causa-efecto real.

Veamos un ejemplo: supongamos que el grupo de prueba de una campaña gastó una media de 120 dólares durante el periodo de medición de la campaña, y el grupo de control gastó una media de 100 dólares, lo que supone una diferencia de 20 dólares. Si la desviación estándar calculada fuera de 50 dólares, el resultado seguiría estando dentro del ámbito de la aleatoriedad natural de los datos (porque 20 dólares < 50 dólares), por lo que la prueba no sería estadísticamente significativa. Sin embargo, si la desviación estándar fuera solo de 5 $, nuestro resultado habría superado con creces la variabilidad natural de los datos (20 $ es cuatro veces más que 5 $). Esto implicaría que la campaña generó resultados mucho mejores de lo que habríamos esperado por pura casualidad. Por lo tanto, el resultado es significativo.

Solicite una demostración web para descubrir cómo puede utilizar el Centro de marketing relacional de Optimove para medir la eficacia de su campaña de marketing y aumentar el retorno de la inversión en marketing.

Informe exclusivo de Forrester sobre la IA en el marketing

En este informe exclusivo de Forrester, descubra cómo los profesionales del marketing global utilizan la inteligencia artificial y el marketing sin posiciones para optimizar los flujos de trabajo y aumentar la relevancia.

Aprende más, sé más con Optimove.
Echa un vistazo a nuestros recursos.
Descubrir
Únete al movimiento del Positionless Marketing
Únete a los profesionales del marketing que están dejando atrás las limitaciones de los roles fijos para aumentar la eficacia de sus campañas en un 88 %.