Revista El Color del Dinero

Bienvenidos a Spain News Today.

El nuevo proyecto de generación de datos sintéticos de código abierto de Capital One

El nuevo proyecto de generación de datos sintéticos de código abierto de Capital One

En el acelerado mundo del aprendizaje automático, la innovación requiere aprovechar los datos. Sin embargo, la realidad para muchas empresas es que el acceso a los datos y a los controles ambientales que son vitales para la seguridad también pueden añadir ineficiencia al desarrollo del modelo y al ciclo de vida de las pruebas.

Para superar este desafío -y ayudar a otros a hacerlo también- Capital One es de código abierto Un nuevo proyecto llamado Datos Sintéticos. «Con esta herramienta, el intercambio de datos se puede realizar de forma segura y rápida, lo que permite probar hipótesis e iterar ideas más rápidamente», dijo Taylor Turner, ingeniero líder de aprendizaje automático y codesarrollador de Synthetic Data.

Los datos sintéticos crean datos artificiales que pueden usarse en lugar de datos «reales». A menudo contienen los mismos gráficos y propiedades estadísticas que los datos originales, pero no incluyen información de identificación personal. Son muy útiles en situaciones que requieren conjuntos de datos complejos y no lineales, como suele ser el caso en los modelos de aprendizaje profundo.

Contenido relacionado:
Aprendizaje federado de código abierto de Capital One con agregación de modelos federados
Cómo Capital One usa Python para ejecutar aplicaciones sin servidor

Para utilizar datos sintéticos, el creador del modelo proporciona las propiedades estadísticas del conjunto de datos necesarios para el experimento. Por ejemplo, la distribución marginal entre insumos, la correlación entre insumos y la expresión analítica que relaciona insumos con productos.

«Y luego puedes experimentar a tu gusto», dijo Brian Barr, ingeniero senior de aprendizaje automático e investigador de Capital One. «Es lo más simple posible, pero técnicamente flexible según sea necesario para realizar este tipo de aprendizaje automático».

READ  WhatsApp está trabajando en la capacidad de responder mensajes con más emoji

Según Barr, hubo algunos esfuerzos iniciales en la década de 1980 en torno a datos sintéticos que llevaron a capacidades en la popular biblioteca de aprendizaje automático Python. aprendizaje-scikit. Sin embargo, a medida que evoluciona el aprendizaje automático, estas capacidades “no son tan flexibles y perfectas para el aprendizaje profundo ya que existen relaciones no lineales entre entradas y salidas”, dijo Barr.

Nace el Proyecto Datos Sintéticos en Capital One Programa de investigación de aprendizaje automático Se centra en explorar y aprovechar métodos, aplicaciones y tecnologías avanzadas de aprendizaje automático para hacer que la banca sea más sencilla y segura. Los datos sintéticos se crearon basándose en Trabajo de investigación de Capital One“Hacia la interpretabilidad de la verdad basada en datos tabulares”, coescrito por Barr.

Proyecto también Funciona bien con el perfil de datos, La biblioteca de aprendizaje automático de código abierto de Capital One para monitorear big data y descubrir información confidencial que necesita una protección adecuada. Un perfilador de datos puede recopilar estadísticas que representan un conjunto de datos y luego se pueden generar datos sintéticos basados ​​en esas estadísticas empíricas.

«Compartir nuestra investigación y crear herramientas para la comunidad de código abierto es una parte importante de nuestra misión en Capital One», dijo Turner. «Esperamos continuar explorando las sinergias entre la elaboración de perfiles de datos y los datos sintéticos y compartir las lecciones aprendidas».


Visita perfil de datos Y Datos sintéticos Repositorios en GitHub y visite el stand de Capital One (#1150) en Re AWS: inventado (27/11 al 1/12) para ver una demostración del perfil de datos.