»Toda la belleza con datos«
BI-Spektrum habló con Jörg Vogler, TOLERANT Software Socio, sobre cómo se pueden recopilar y mantener los datos de forma cualitativa para que se puedan utilizar bien para la analítica y la inteligencia artificial, así como sobre lo que algunas empresas estadounidenses tienen por delante de las locales.
La entrevista fue realizada por Christoph Witte, redactor jefe de BI-Spektrum.
BI-Spektrum: Las empresas están más ávidas de datos que nunca. La inteligencia y la analítica empresarial necesitan datos utilizables y las aplicaciones de inteligencia artificial también exigen cada vez más datos. ¿Pueden las empresas satisfacer realmente esta ansia de datos?
Vogler: Pueden satisfacerla si adoptan un enfoque disciplinado en la recogida de datos. Lo que es realmente importante es que las empresas presten atención a la calidad y a la exhaustividad ya en el momento de recoger los datos. Si se cumplen estos criterios y siempre que la recogida de datos esté legalmente permitida, esta ansia de datos puede satisfacerse sin duda. Esto significa que ya en los primeros contactos con los clientes se observan las correspondientes obligaciones de información hacia ellos, de modo que también se pueden utilizar los datos que se deseen. Es la segunda gran obra que vemos. Con demasiada frecuencia, las empresas asumen tácitamente que sus datos se registran correctamente, que los campos de datos se rellenan correctamente. A menudo se dan cuenta demasiado tarde -por ejemplo, cuando los datos se ponen a disposición de una aplicación de análisis o se va a alimentar una IA con ellos- de que los campos no se rellenan correctamente, los datos tienen lagunas o incoherencias.
BI-Spektrum: ¿Por qué es tan importante la calidad de la captura?
Vogler: Las empresas suelen captar datos para poder dirigirse correctamente a los clientes, no sólo para evaluarlos después. Si los datos no se capturan correctamente, no puedo dirigirme al cliente de forma adecuada y no sé a qué grupo objetivo pertenece. Además, la calidad es importante cuando se combina la información sobre los clientes procedente de diferentes fuentes. Para eso también necesito características fiables. Estos existen desde hace años y se apoyan en la gestión de registros de datos maestros, por ejemplo. Pero seguimos viendo considerables discrepancias entre el ideal y la realidad.
BI-Spektrum: La cuestión de la calidad de los datos ha sido un problema desde que existen las TI. ¿Por qué no podemos controlar este asunto?
Vogler: Por un lado, hay enfoques muy buenos que se conocen desde hace tiempo, como el administrador de datos. Pero los procesos de gestión de la calidad de los datos siguen, por desgracia, en un segundo plano en muchas empresas. Se ve como una tarea, sobre todo porque el trabajo es cada vez más condensado. Un empleado de ventas que realmente atiende a los clientes hace la recopilación de datos de manera que sea lo justo y no le cueste demasiado tiempo. Sin embargo, también tenemos clientes que viven de y con los datos, las agencias de crédito por ejemplo. Tienen sus datos bajo control. Disponen de los puntos de medición adecuados para comprobar la calidad de los datos entrantes, tienen rutinas regulares para corregir los puntos débiles e invierten mucho en la supervisión y el diagnóstico. Sin embargo, últimamente hemos observado que la cuestión de la calidad de los datos está cobrando mayor importancia debido a la protección de los mismos. Esto puede parecer sorprendente, pero tiene que ver con el deber de las empresas de cuidar los datos. Sólo si los datos se registran correctamente y he obtenido los permisos correspondientes, se pueden utilizar adecuadamente. En general, sin embargo, hay que señalar que la calidad de los datos todavía no está suficientemente apoyada por parte del sistema y que los procesos correspondientes todavía no se viven de forma coherente.
BI-Spektrum: Pero en vista de la falta de calidad de los datos, debe sentir pena por las personas que se supone que deben garantizar las decisiones basadas en los datos y, en general, una mayor orientación a los datos en las empresas.
Vogler: Como profesionales de la calidad de datos, naturalmente intentamos apoyar a las empresas. Al hacerlo, también tenemos que actuar como catalizadores de la comunicación interdepartamental, especialmente entre el departamento de TI, que se supone que proporciona los sistemas correspondientes, y los departamentos especializados que quieren trabajar con los datos. Luego están las directrices de protección de datos y cumplimiento que definen lo que se puede hacer con los datos.
BI-Spektrum: ¿No se está extralimitando si, como proveedor de herramientas de calidad de datos, también quiere ocuparse de la comunicación? En realidad, ese es un tema completamente diferente.
Vogler: Por supuesto, no nos ocupamos de los procesos de comunicación en sí. Pero sí ayudamos a crear conciencia de lo que es posible y lo que no es posible, por ejemplo, cuando se pone en marcha una iniciativa de IA en una empresa y se pide al departamento de TI que construya un modelo de IA. Entonces lo hacen, pero muy rápidamente se dan cuenta de que los datos son como son. Podemos ayudar a garantizar la transparencia, hacer que la gente sea consciente de por qué faltan datos y comprobar la calidad de los datos existentes, explicar cómo se pueden mejorar los datos existentes y cómo llegar a los datos que aún faltan. Al hacerlo, aportamos un poco más de sentido de la realidad a las empresas. A menudo, sobre todo en la alta dirección, no hay conciencia de la importancia de la calidad de los datos.
BI-Spektrum: ¿Así que las empresas podrían beneficiarse mucho más de la IA si los datos fueran más limpios?
Vogler: Sí, sobre todo si tienen sus procesos de entrada de datos bajo control. Sin duda, hay ejemplos de empresas de TI en Estados Unidos en las que esto es así. Por supuesto, se puede hacer mucho para mejorar la calidad de los datos a posteriori, pero para aprovechar realmente el potencial, como se hace en algunos casos en Estados Unidos, hay que mejorar la calidad de la entrada. La estructura históricamente desarrollada de los sistemas informáticos de las empresas, con diferentes modelos de datos y sus bellezas y debilidades, tampoco facilita necesariamente la tarea.
BI-Spektrum: ¿Por qué los americanos son mucho mejores en esto?
Vogler: Especialmente los grandes modelos como Google o Amazon tienen la clara ventaja de que tienen todos los datos de los clientes en un solo lugar en un entorno relativamente homogéneo. Por un lado, no tienen los problemas de los sistemas heredados y cuentan con una arquitectura de servicios muy clara, con puntos de transferencia definidos con precisión en los que pueden echar mano de los datos. También comprendieron mucho antes el papel central que desempeñan los datos y el valor que tienen. Este entendimiento, también en lo que respecta al valor de los «datos de capturas accidentales», fue desarrollado muy pronto por las grandes empresas estadounidenses.
BI-Spektrum: ¿Datos de capturas accidentales?
Vogler: Se refiere a los datos de uso que se generan cuando se utilizan los sistemas y dispositivos. Cuando lees un libro electrónico, por ejemplo, se anotan las páginas que ya has leído, dónde te has detenido por última vez y a qué velocidad has leído. Por un lado, de esta información pueden extraerse conclusiones sobre el comportamiento de los lectores, pero también pueden derivarse optimizaciones para el propio libro electrónico y consejos para otros lectores. Los estadounidenses se dieron cuenta muy pronto de lo valiosos que pueden ser estos datos. Los datos sobre el tamaño y los precios del mercado, los productos demandados y el comportamiento de compra que obtiene Amazon por el simple hecho de abrir su plataforma a otros minoristas son tremendamente valiosos.
BI-Spektrum: ¿No es una de las razones de la alta calidad de los datos en Amazon que no son los empleados los que tienen que hacer esta onerosa tarea de introducción de datos, sino los propios clientes?
Vogler: En parte, pero también tienen rutinas de comprobación muy ordenadas en el fondo y saben exactamente lo que pueden esperar de sus clientes. Además, no sólo comprueban los datos de forma automática, sino que los conjuntos de datos sospechosos también son comprobados por humanos, y en esta combinación de automatización y comprobación humana reside un gran punto fuerte de estas empresas. Lo mismo ocurre con las herramientas que ofrecemos. Encuentran muchas cosas, pero sólo se perfeccionan en combinación con la revisión humana.
BI-Spektrum: Ha mencionado que puede reparar los datos registrados de forma incorrecta o incompleta. ¿Qué se puede hacer?
Vogler: Por supuesto, tenemos posibilidades en cuanto a la asignación de campos de datos, la armonización de datos maestros como números de teléfono, correos electrónicos, etc. Por supuesto, puede asegurarse que los datos son correctos. Por supuesto, puede estandarizar la entrada de datos, puede comprobar semánticamente si, por ejemplo, los nombres se introducen en los campos correctos, los géneros se especifican correctamente o similares. Muchas cosas se pueden suavizar automáticamente. Podemos comprobar los traslados o corregir muchas cosas en el entorno corporativo, porque tenemos muchas referencias externas. Además, ofrecemos reconocimiento y corrección de duplicados. La dificultad aquí no está tanto en el reconocimiento, sino en la fusión con los correspondientes historiales de pedidos. Así podemos comprobar los campos de datos, podemos completar los datos y podemos comprobar que son oportunos. Además, podemos validar conjuntos de datos para nuestros clientes.
BI-Spektrum: Dé tres consejos más para las empresas que quieren tener datos limpios.
Vogler: Es básicamente como un médico: primero hay que hacer un diagnóstico, tengo que sugerir medidas de tratamiento y tengo que ser capaz de decir cómo evitar las «enfermedades de datos» en el futuro, es decir, hacer sugerencias para la prevención. Además, tengo que anclar un principio importante en la empresa: todas las cosas bonitas con datos sólo funcionan si se cuidan adecuadamente.
La entrevista apareció en la revista BI-Spektrum, número 3/2019, p. 30-32.