En esta publicación, exploramos cómo la calidad de los datos necesita cambiar en el futuro, especialmente a medida que avanzamos hacia la comprensión de nuestros datos a través de ontologías en lugar de relaciones fijas.
👷🏻♀️Limitado por el pensamiento actual
Uno de los más grandes filósofos Thomas Samuel Kuhn (m. 1996) es posiblemente el científico más influyente del siglo XX. Su libro de 1962, “La estructura de las revoluciones científicas”, es uno de los libros académicos más citados de todos los tiempos y a menudo se le atribuye la popularización de los “cambios de paradigma”.
Kuhn cuestionó la opinión popular de que la ciencia siempre está impulsada empíricamente, es decir, que los científicos simplemente siguen la evidencia objetiva de una manera puramente racional. En cambio, Kuhn argumentó que el trabajo científico en realidad está impulsado por paradigmas; es decir, suposiciones no validadas que no están probadas empíricamente, pero que proporcionan una base para el trabajo científico («corazonadas» básicamente).
👷🏻Repensar la calidad de los datos
Cambios de paradigma como este nos hacen repensar el planteamiento del problema básico en el que estamos trabajando (es decir, ¿qué buscamos comprender?) esto es algo muy importante en el contexto de la organizción, y por otro lado, creo que la calidad de datos debe hacer exactamente esto dado su papel en el futuro (y lo que permite). cambiar radicalmente.
Así que comencemos con lo más importante el «por qué».
🏌🏼 ¿Por qué existe la calidad de los datos?
Históricamente, utilizamos enormes mainframes y mega servidores para gestionar datos en gran medida referenciales (por ejemplo, nombres y direcciones para servicios postales) y, por lo tanto, la calidad de los datos se desarrolló como un medio para corregir errores comunes (por ejemplo, tipográficos) y garantizar que los cambios en los datos pudieran rastrearse y validarse.
A medida que las empresas se digitalizaron, los datos transaccionales debían analizarse de formas complejas para respaldar operaciones complejas, por lo que la calidad de los datos tuvo que evolucionar para permitir la reducción de variaciones, la tabulación cruzada y la detección de valores atípicos. Lo hizo porque el enunciado del problema cambió de «¿es eso correcto en los hechos?» a «¿eso se ve raro?». En otras palabras, la calidad de los datos pasó a tener menos que ver con validaciones binarias y más con el análisis de variaciones estadísticas a lo largo del tiempo, a menudo en contra de normas y definiciones subjetivas (ver «Datos sin defectos», Hansen 1991).
Y en mi opinión, el planteamiento del problema de la calidad de los datos está evolucionando una vez más.
Calidad de datos para el mañana
A medida que construimos sistemas de IA a partir de datos en tiempo real y «combinamos» cada vez más nuestras existencias cibernéticas y físicas, creo que nuestros enfoques sobre la calidad de los datos deberán evolucionar:
Desde la validación basada en reglas frente a las expectativas hasta enfoques altamente contextuales y basados estadísticamente en la calidad de los datos. Estos enfoques deben resaltar no cuándo las cosas están «rotas» en un sentido absoluto, sino más bien cuándo nuestros modelos de IA pueden necesitar reentrenamiento para puntos de datos previamente imprevistos en el contexto de resultados específicos.
De un enfoque en los datos internos a un enfoque en la mejora de las fuentes de datos externas. Estos enfoques deberán considerar cómo podemos validar y mejorar las fuentes de datos sobre las cuales no ejercemos autoridad ni control de definición, como detectar cuándo algo podría estar mal en un conjunto de datos a través de modelos de IA que garantizan que otros modelos de IA funcionen.
Desde un enfoque en observación, informes y remediación en intervalos establecidos hasta enfoques más continuos que reflejan la capacidad de los datos para cambiar en tiempo real. Estos enfoques deberán ser menos funcionales y más ágiles por naturaleza; es decir, menos sobre garantizar que los administradores de datos «arreglen» cosas y más sobre garantizar una transparencia constante entre desarrolladores, usuarios, propietarios y PYME de gestión de datos sobre el estado de los datos.
Si bien puede ser fácil descartar lo anterior como simplemente “calidad de los datos en un nuevo contexto”, creo que en realidad representan un cambio en la forma en que pensamos sobre la calidad de los datos y lo que realmente se intenta lograr. Ya no validamos nuestras fuentes de datos, sino que nos aseguramos de que las soluciones críticas y específicas de un dominio funcionen en tiempo real en fuentes de datos que no controlamos.
Y no estoy seguro de que nuestros enfoques actuales estén preparados para este nuevo mundo.
Ejemplo: ontologías de datos
Recientemente, me encontré con un excelente artículo de Tim Berners-Lee (ese es el tipo que inventó la Web) sobre ontologías de datos. Recomiendo leerlo antes de continuar aquí.
En este fantástico artículo, habla sobre cómo las ontologías desarrollan nuestra capacidad para comprender y utilizar datos mucho más allá de lo que nos ofrecen las taxonomías (nuestro enfoque existente para el modelado de datos). En resumen, mientras que las taxonomías dicen «qué son los datos», las ontologías nos dicen «qué pueden hacer los datos».
Por ejemplo, un libro físico tiene las siguientes características:
Está… hecho de papel
¿Está… disponible para comprar?
Es… un objeto físico
Es… obra de un autor
Mientras que un mismo objeto tiene las siguientes características de «hace»:
¿Explica la 1.ª Revolución Industrial, pero no la 2.ª, 3.ª, etc.?
¿Demuestra la autoridad del autor en el campo particular?
Se… pudre si se deja expuesto a la luz solar directa o en condiciones de humedad.
¿Transmite… el derecho de reventa, pero no los derechos de autor del contenido?
Lo que esto significa para la calidad de datos es que la «corrección» en un paradigma de «hacer» es mucho más contextual y evolutiva que en un paradigma de «es» basado en reglas. Por lo tanto, tenemos que repensar cómo se logra la calidad de los datos. Veamos algunos ejemplos de lo que esto significa:
Si el Cliente «es» un individuo que nos ha comprado recientemente se puede determinar objetivamente (es decir, basado en reglas), pero si un Cliente «representa» un riesgo para nuestro negocio puede ser subjetivo a circunstancias específicas (es decir, basado en el contexto).
Si una Región «está» en Asia es objetivamente verdadero o falso (es decir, basado en reglas), pero si una Región está sujeta a un mayor riesgo operativo o político es subjetivo a circunstancias específicas «sobre el terreno» o «en las noticias» (es decir, basado en el contexto)
Hay muchos más ejemplos de este tipo, pero en cada caso el patrón permanece: una determinación de «es» es objetiva, inmune a las circunstancias y se deriva del objeto mismo. Una determinación de «qué hacer» está enteramente sujeta a circunstancias, intenciones e implicaciones.
Por lo tanto, las buenas ontologías de datos nos permiten aprovechar la información «es» de una manera altamente contextualizada para hacer juicios «hace» subjetivos, limitados en el tiempo (es decir, en el momento de la acción/necesidad) y orientados a los resultados. Otra forma de pensar en esto es la diferencia entre un juicio abstracto y un juicio específico de un caso de uso sobre una fuente de datos.
Recuerda:
🚀 Datos de Alta Calidad = Decisiones Acertadas: Datos precisos y confiables son la clave para tomar decisiones informadas y estratégicas. 🧠🎯
🛠️ Garantizar la Calidad es Responsabilidad de Todos: Desde la entrada de datos hasta su procesamiento, todos desempeñamos un papel en mantener la calidad de los datos. 👩💼👨💼
💥 Impacto en Negocios: Datos de calidad impulsan el crecimiento empresarial, mejoran la eficiencia operativa y aumentan la satisfacción del cliente. 💼📈👥
⚠️ Los Riesgos de Datos Deficientes: Datos incorrectos pueden llevar a decisiones costosas y dañar la reputación de la empresa. ⚠️💸😬
🎸Conclusión
Con suerte, lo expuesto anteriormente ha proporcionado argumentos sólidos para replantear tanto la calidad de los datos como los paradigmas que guían nuestros esfuerzos. Este desafío será cada vez más relevante a medida que nuestras necesidades de datos se vuelvan más contextuales y continuas. Además, debemos ser conscientes de cómo las implicaciones, es decir, los riesgos, del uso de datos se vuelven más específicos en cada caso de uso. Dada la importancia crítica que las ontologías tendrán en el futuro de los datos, este debate es más pertinente que nunca.» 🔍📊✨
Si te gustan mis contenidos invitame un café ☕️…
https://www.buymeacoffee.com/carloscanon
#IntegraciónDeDatos #Interoperatividad #Tecnología #InteligenciaEmpresarial #TransformaciónDigital #GobiernoDeDatos #datos #gobierno #dama #mintic #interoperabilidad #anonimizacion #buenaspracticas #mard #datalandia 🌐📊🔒