Gestión de datos

Por qué los científicos de datos se están enamorando de la tecnología Blockchain

Muchos darán fe de que la ciencia de datos y la cadena de bloques tienen el potencial de revolucionar el sector financiero, los negocios, la atención médica y la industria. Por un lado, blockchain está transformando los sistemas de bases de datos tradicionalmente centralizados en sistemas descentralizados con mayor transparencia, seguridad mejorada, trazabilidad mejorada y costos reducidos (Leer también: Explicación de la cadena de bloques). Por otro lado, la ciencia de datos se está convirtiendo constantemente en vital en los procesos de toma de decisiones de los sectores antes mencionados.

Si bien las distintas ventajas de estas tecnologías están bien documentadas, lo que no está bien explorado es cómo pueden complementarse entre sí. En este artículo, describo algunos desafíos que los científicos de datos suelen enfrentar y el potencial de blockchain para aliviar estos desafíos.

Desafíos de datos para científicos de datos

Dado que los datos se han convertido en uno de los recursos más valiosos para las empresas y el gobierno, la demanda de científicos de datos para transformar los datos sin procesar en este valioso activo en una forma utilizable crece constantemente. (Lea también: Rol laboral: Científico de datos)

Un científico de datos recopila, analiza e interpreta datos para descubrir información que ayude a las organizaciones en su proceso de toma de decisiones. Mientras persiguen sus objetivos, los científicos de datos enfrentan varios desafíos (Lea también: Desafíos y oportunidades en la ciencia de datos) que dificultan su progreso. Además de otros desafíos como la experiencia entre dominios, para los fines de este artículo, destacaría los desafíos relacionados con los datos y los clasificaría en cinco categorías:

  • Autenticidad de los datos: Los científicos de datos recopilan datos de múltiples fuentes que son vulnerables a la manipulación y el robo. La creciente importancia de los datos ha llevado a un peligroso aumento de las filtraciones de datos. Por ejemplo, en los EE. UU., la cantidad de registros de datos violados aumentó de alrededor de 67 millones a 164,7 millones entre 2005 y 2023 (Lea también: ¿Qué es la integridad de datos? Definición y Mejores Prácticas).

    Muchas empresas, incluidas Yahoo, CAM4, Zoom, Twitter, Facebook y LinkedIn, han sido víctimas de filtraciones de datos. Dado que las organizaciones confían cada vez más en los científicos de datos para la toma de decisiones vitales, los científicos de datos deben tener datos autenticados. Lo más preferible es que los científicos de datos quieran que los datos tengan una autenticidad incorporada, lo que es particularmente esencial para los sectores financieros y las organizaciones de alojamiento de datos. (Lea también: Las mayores filtraciones de datos)

  • Privacidad de datos: La privacidad de los datos es el mayor obstáculo cuando se trata de la disponibilidad de los datos, especialmente para los científicos de datos que trabajan con los datos de los usuarios. Con más y más países que adoptan legislación de privacidad de datos, como el Reglamento General de Protección de Datos (GDPR) y la Ley de Privacidad del Consumidor de California (CCPA), obtener acceso a los datos se está volviendo difícil para los científicos de datos. Aunque han surgido algunas tecnologías de privacidad de datos para apoyar a los científicos de datos en sus esfuerzos, las más prometedoras, como el aprendizaje automático federado, requieren que los datos estén protegidos de forma distribuida. (Lea también: Datos de EE.UU. Proteccion y Privacidad en 2023 – Una descripción general)

  • Calidad de los datos: Los científicos de datos suelen dedicar la mayor parte de su tiempo a «limpiar datos» porque no quieren verse atrapados en el lío de datos sucios; no importa qué tan bien los analicen, los datos sucios no pueden darles lo que quieren. Los datos sucios tienen muchas facetas, como datos duplicados o incorrectos, y generalmente surgen de sistemas con mecanismos de validez e integridad de datos deficientes. Las barras de integridad de datos mejoradas de los sistemas de bases de datos ciertamente ayudarían a los científicos de datos a realizar un análisis genuino de datos precisos. (Lea también: Los desafíos de la calidad de los datos)

  • Acceso a los datos: El proceso de acceso a datos no regulado a menudo persigue a los científicos de datos que intentan acceder sin problemas a los datos requeridos. Esta ineficiencia en el acceso a los datos hace que el ciclo de vida de acceso y análisis sea engorroso.

  • Análisis en tiempo real : En muchos sentidos, los científicos de datos pueden obtener más valor de los datos analizándolos en tiempo real. Sin embargo, los sistemas de gestión de datos tradicionales no admiten el análisis de datos en tiempo real, lo que impide que los científicos de datos obtengan las ventajas del análisis en tiempo real.

Blockchain: solución a los desafíos de datos

Una cadena de bloques es esencialmente un sistema de base de datos distribuida que mantiene datos en una red de igual a igual (P2P) en una lista creciente de unidades ordenadas llamadas bloques. Cada bloque tiene una marca de tiempo y un enlace al bloque anterior, y almacena datos de forma inmutable y encriptada. Desde su aparición como sistema de efectivo electrónico seguro para la criptomoneda digital conocida como bitcoin, las aplicaciones de blockchain están creciendo rápidamente en muchos sectores. A continuación, describo las características clave de blockchain como una solución a los desafíos mencionados anteriormente de los científicos de datos. (Lea también: Cómo Blockchain interrumpirá la ciencia de datos, Implicaciones de Blockchain en Data Science y Blockchain y Big Data: un gran matrimonio)

  • Autenticidad incorporada: Al ser un sistema distribuido, blockchain mantiene múltiples instancias de los datos, en lugar de una sola copia. Esto permite que blockchain evite la manipulación y revisión de datos, ya que la autenticidad de los datos se puede verificar fácilmente. La cadena de bloques conserva una «huella digital» única para cada uno de sus bloques. La huella digital se calcula utilizando un algoritmo hash basado en el contenido del bloque. Este proceso garantiza la autenticidad de los datos en dos niveles: primero, los datos se pueden verificar fácilmente y, segundo, la estructura de la cadena de bloques depende de la validez de las huellas digitales, ya que se utilizan para vincular los bloques.11.

  • Protección de la privacidad de datos: Blockchain protege la privacidad de los datos con sus protocolos especiales al mismo tiempo que permite que los científicos de datos utilicen los datos. Hay varias formas en que blockchain puede ayudar a los científicos de datos a acceder a datos protegidos por privacidad para sus esfuerzos particulares. Dos de estas formas son: (Lea también: Blockchain como marco de seguridad descentralizado)

    • Cifrado homomórfico, que es una nueva forma de encriptación que permite realizar cálculos en datos encriptados, por lo que no es necesario compartir los datos originales. Esta forma de cifrado ahora se incorpora a técnicas criptográficas como Zero Knowledge Proofs (ZKP) y zk-SNARK. (Lea también: Criptografía: Comprender su importancia no tan secreta)

    • Aprendizaje automático federado, que es una técnica de análisis de datos colaborativos para analizar datos de forma distributiva en varios dispositivos sin tener que mantenerlos en una ubicación central. La técnica utiliza modelos de datos locales (es decir, características de los datos) de cada unidad distribuida, en lugar de datos reales, para proteger la privacidad de los datos. La unión del aprendizaje automático federado y la cadena de bloques para el análisis de datos preservados de la privacidad se ha utilizado para analizar datos de dispositivos IoT en tareas como el análisis del comportamiento energético de electrodomésticos (Lea también: Aprendizaje federado en el dispositivo blockchain).

  • Garantía de calidad de datos: La naturaleza inmutable de blockchain certifica la consistencia de los datos porque una vez que los datos se han registrado en blockchain, no se pueden editar ni eliminar. El mecanismo de autenticidad criptográfica de blockchain también mantiene la coherencia de sus datos. Para garantizar la precisión de los datos, blockchain tiene un procedimiento de consenso descentralizado para verificar los datos en su punto de entrada.

  • Acceso fluido a los datos: Blockchain puede agilizar los procesos de acceso a los datos para los científicos de datos, ya que pueden formar parte de la cadena de bloques en un cierto nivel bajo ciertas condiciones para acceder a los datos requeridos. Esto hace que su proceso de trabajo sea eficiente y reduce el ciclo de tiempo de acceso y análisis de datos.

  • Análisis en tiempo real: La capacidad de blockchain para mantener el registro de cada transacción de datos lo convierte en un recurso valioso para analizar datos en tiempo real. Las promesas de estos recursos emergentes ya se han demostrado en el caso de las criptomonedas. (Lea también: Liberland: El país en la cadena de bloques: una mirada interna.

Pensamientos finales

Es cierto que los datos de la cadena de bloques se verifican y protegen mediante criptografía. Esto restringe todos los cambios y hacks no autorizados en el sistema. Elimina a los intermediarios del sistema para que nadie pueda realizar cambios no autorizados.

Sin embargo, como señala Epiq Global, esto no significa que blockchain sea infalible. Si las empresas utilizan plataformas sin permiso (como es el caso de Bitcoin), cualquier punto final que también tenga vulnerabilidades tiene el potencial de ser atacado por actores de amenazas maliciosos. Esto plantea la cuestión de si los científicos de datos que utilizan este tipo de cadenas de bloques públicas pueden garantizar la confidencialidad y si se puede confiar o no en la integridad de los datos que se ingieren. Además, ¿se puede confiar en los resultados calculados?

Al igual que con el gobierno de GDPR y CCPA, el riesgo y el cumplimiento siguen siendo un obstáculo importante y una preocupación para las empresas.

Blockchain bien puede ser la panacea que los científicos de datos han estado esperando, pero solo el tiempo lo dirá.

LEER
Cómo el aprendizaje federado puede abordar la privacidad de datos en IA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba