Un modelo de aprendizaje automático desarrollado por investigadores del MIT supera significativamente a los analistas humanos de Wall Street en la predicción de ventas comerciales trimestrales.Con datos limitados, este sistema automatizado predice las ventas trimestrales de una empresa.
Rob Matheson | Oficina de noticias del MIT
Créditos: Foto: Jake Belcher
Conocer las verdaderas ventas de una empresa puede ayudar a determinar su valor. Los inversores, por ejemplo, a menudo emplean analistas financieros para predecir las próximas ganancias de una empresa utilizando diversos datos públicos, herramientas computacionales y su propia intuición. Ahora, los investigadores del MIT han desarrollado un modelo automatizado que supera significativamente a los humanos en la predicción de ventas comerciales utilizando datos muy limitados y «ruidosos».
En las finanzas, existe un interés creciente en utilizar datos de consumidores imprecisos pero generados con frecuencia, llamados «datos alternativos», para ayudar a predecir las ganancias de una empresa con fines comerciales e inversiones. Los datos alternativos pueden incluir compras con tarjeta de crédito, datos de ubicación de teléfonos inteligentes o incluso imágenes de satélite que muestren cuántos automóviles están estacionados en el lote de un minorista. La combinación de datos alternativos con datos financieros más tradicionales pero poco frecuentes, como las ganancias trimestrales, los comunicados de prensa y los precios de las acciones, puede mostrar una imagen más clara de la salud financiera de una empresa, incluso a diario o semanalmente.
Pero, hasta ahora, ha sido muy difícil obtener estimaciones precisas y frecuentes utilizando datos alternativos. En un artículo publicado esta semana en la Conferencia Proceedings of ACM Sigmetrics, los investigadores describen un modelo para pronosticar las finanzas que utiliza solo transacciones semanales anónimas de tarjetas de crédito e informes de ganancias de tres meses.
Encargado de predecir las ganancias trimestrales de más de 30 empresas, el modelo superó las estimaciones combinadas de los analistas expertos de Wall Street en el 57 por ciento de las predicciones. En particular, los analistas tuvieron acceso a cualquier dato público o privado disponible y a otros modelos de aprendizaje automático, mientras que el modelo de los investigadores utilizó un conjunto de datos muy pequeño de los dos tipos de datos.
“Los datos alternativos son estas extrañas señales proxy para ayudar a rastrear las finanzas subyacentes de una empresa”, dice el primer autor Michael Fleder, un postdoctorado en el Laboratorio de Sistemas de Información y Decisiones (LIDS). “Preguntamos: ‘¿Puede combinar estas señales ruidosas con números trimestrales para estimar la verdadera situación financiera de una empresa en altas frecuencias?’ Resulta que la respuesta es sí «.
El modelo podría dar una ventaja a los inversores, comerciantes o empresas que buscan comparar con frecuencia sus ventas con la competencia. Más allá de las finanzas, el modelo podría ayudar a los científicos sociales y políticos, por ejemplo, a estudiar datos agregados y anónimos sobre el comportamiento público. “Será útil para cualquiera que quiera averiguar qué está haciendo la gente”, dice Fleder.
Junto a Fleder en el artículo está el profesor de EECS, Devavrat Shah, quien es el director del Centro de Estadística y Ciencia de Datos del MIT, miembro del Laboratorio de Sistemas de Información y Decisiones, investigador principal del Instituto de Fundamentos de la Ciencia de Datos del MIT, y adjunto profesor del Instituto Tata de Investigaciones Fundamentales.
Abordar el problema de los «datos pequeños»
Para bien o para mal, muchos datos de consumidores están a la venta. Los minoristas, por ejemplo, pueden comprar transacciones con tarjetas de crédito o datos de ubicación para ver cuántas personas están comprando en un competidor. Los anunciantes pueden usar los datos para ver cómo sus anuncios están afectando las ventas. Pero obtener esas respuestas todavía depende principalmente de los humanos. Ningún modelo de aprendizaje automático ha sido capaz de procesar adecuadamente los números.
Contrariamente a la intuición, el problema es en realidad la falta de datos. Cada entrada financiera, como un informe trimestral o el total semanal de la tarjeta de crédito, es solo un número. Los informes trimestrales durante dos años suman solo ocho puntos de datos. Los datos de tarjetas de crédito de, digamos, todas las semanas durante el mismo período son solo aproximadamente otros 100 puntos de datos “ruidosos”, lo que significa que contienen información potencialmente ininterpretable.
“Tenemos un problema de ‘datos pequeños’”, dice Fleder. «Solo obtienes una pequeña porción de lo que la gente gasta y tienes que extrapolar e inferir lo que realmente está sucediendo a partir de esa fracción de datos».
Para su trabajo, los investigadores obtuvieron transacciones de tarjetas de crédito de los consumidores, generalmente a intervalos semanales y quincenales, e informes trimestrales de 34 minoristas de 2015 a 2018 de un fondo de cobertura. En todas las empresas, recopilaron 306 trimestres de datos en total.
Calcular las ventas diarias es un concepto bastante simple. El modelo asume que las ventas diarias de una empresa siguen siendo similares, solo disminuyen o aumentan ligeramente de un día para otro. Matemáticamente, eso significa que los valores de ventas para días consecutivos se multiplican por un valor constante más un valor de ruido estadístico, que captura parte de la aleatoriedad inherente en las ventas de una empresa. Las ventas de mañana, por ejemplo, equivalen a las ventas de hoy multiplicadas por, digamos, 0,998 o 1,01, más el número estimado de ruido.
Si se proporcionan parámetros de modelo precisos para la constante diaria y el nivel de ruido, un algoritmo de inferencia estándar puede calcular esa ecuación para generar un pronóstico preciso de las ventas diarias. Pero el truco está en calcular esos parámetros.
Desenredar los números
Ahí es donde los informes trimestrales y las técnicas de probabilidad son útiles. En un mundo simple, un informe trimestral podría dividirse por, digamos, 90 días para calcular las ventas diarias (lo que implica que las ventas son aproximadamente constantes día a día). En realidad, las ventas varían de un día a otro. Además, incluir datos alternativos para ayudar a comprender cómo varían las ventas durante un trimestre complica las cosas: además de ser ruidosos, los datos de las tarjetas de crédito compradas siempre consisten en una fracción indeterminada de las ventas totales. Todo eso hace que sea muy difícil saber exactamente cómo se tienen en cuenta los totales de la tarjeta de crédito en la estimación general de ventas.
«Eso requiere un poco de desenmarañar los números», dice Fleder. “Si observamos el 1 por ciento de las ventas semanales de una empresa a través de transacciones con tarjeta de crédito, ¿cómo sabemos que es el 1 por ciento? Y, si los datos de la tarjeta de crédito son ruidosos, ¿cómo saber qué tan ruidosos son? No tenemos acceso a la verdad básica para los totales de ventas diarios o semanales. Pero los agregados trimestrales nos ayudan a razonar sobre esos totales «.
Para hacerlo, los investigadores utilizan una variación del algoritmo de inferencia estándar, llamado filtrado de Kalman o propagación de creencias, que se ha utilizado en diversas tecnologías, desde transbordadores espaciales hasta GPS para teléfonos inteligentes. El filtrado de Kalman utiliza mediciones de datos observadas a lo largo del tiempo, que contienen inexactitudes de ruido, para generar una distribución de probabilidad para variables desconocidas durante un período de tiempo designado. En el trabajo de los investigadores, eso significa estimar las posibles ventas de un solo día.
Para entrenar el modelo, la técnica primero desglosa las ventas trimestrales en una cantidad determinada de días medidos, digamos 90, lo que permite que las ventas varíen día a día. Luego, compara los datos ruidosos observados de la tarjeta de crédito con las ventas diarias desconocidas. Usando los números trimestrales y alguna extrapolación, estima la fracción de las ventas totales que probablemente representan los datos de la tarjeta de crédito. Luego, calcula la fracción diaria de las ventas observadas, el nivel de ruido y una estimación de error de qué tan bien hizo sus predicciones.
El algoritmo de inferencia conecta todos esos valores en la fórmula para predecir los totales de ventas diarios. Luego, puede sumar esos totales para obtener números semanales, mensuales o trimestrales. En las 34 empresas, el modelo superó un punto de referencia de consenso, que combina estimaciones de analistas de Wall Street, en el 57,2 por ciento de las 306 predicciones trimestrales.
A continuación, los investigadores están diseñando el modelo para analizar una combinación de transacciones con tarjetas de crédito y otros datos alternativos, como la información de ubicación. “Esto no es todo lo que podemos hacer. Este es solo un punto de partida natural ”, dice Fleder.