En el acelerado mundo del aprendizaje automático, la innovación requiere aprovechar los datos. Sin embargo, la realidad para muchas empresas es que el acceso a los datos y a los controles ambientales que son vitales para la seguridad también pueden añadir ineficiencia al desarrollo del modelo y al ciclo de vida de las pruebas.
Para superar este desafío -y ayudar a otros a hacerlo también- Capital One es de código abierto Un nuevo proyecto llamado Datos Sintéticos. «Con esta herramienta, el intercambio de datos se puede realizar de forma segura y rápida, lo que permite probar hipótesis e iterar ideas más rápidamente», dijo Taylor Turner, ingeniero líder de aprendizaje automático y codesarrollador de Synthetic Data.
Los datos sintéticos crean datos artificiales que pueden usarse en lugar de datos «reales». A menudo contienen los mismos gráficos y propiedades estadísticas que los datos originales, pero no incluyen información de identificación personal. Son muy útiles en situaciones que requieren conjuntos de datos complejos y no lineales, como suele ser el caso en los modelos de aprendizaje profundo.
Contenido relacionado:
Aprendizaje federado de código abierto de Capital One con agregación de modelos federados
Cómo Capital One usa Python para ejecutar aplicaciones sin servidor
Para utilizar datos sintéticos, el creador del modelo proporciona las propiedades estadísticas del conjunto de datos necesarios para el experimento. Por ejemplo, la distribución marginal entre insumos, la correlación entre insumos y la expresión analítica que relaciona insumos con productos.
«Y luego puedes experimentar a tu gusto», dijo Brian Barr, ingeniero senior de aprendizaje automático e investigador de Capital One. «Es lo más simple posible, pero técnicamente flexible según sea necesario para realizar este tipo de aprendizaje automático».
Según Barr, hubo algunos esfuerzos iniciales en la década de 1980 en torno a datos sintéticos que llevaron a capacidades en la popular biblioteca de aprendizaje automático Python. aprendizaje-scikit. Sin embargo, a medida que evoluciona el aprendizaje automático, estas capacidades “no son tan flexibles y perfectas para el aprendizaje profundo ya que existen relaciones no lineales entre entradas y salidas”, dijo Barr.
Nace el Proyecto Datos Sintéticos en Capital One Programa de investigación de aprendizaje automático Se centra en explorar y aprovechar métodos, aplicaciones y tecnologías avanzadas de aprendizaje automático para hacer que la banca sea más sencilla y segura. Los datos sintéticos se crearon basándose en Trabajo de investigación de Capital One“Hacia la interpretabilidad de la verdad basada en datos tabulares”, coescrito por Barr.
Proyecto también Funciona bien con el perfil de datos, La biblioteca de aprendizaje automático de código abierto de Capital One para monitorear big data y descubrir información confidencial que necesita una protección adecuada. Un perfilador de datos puede recopilar estadísticas que representan un conjunto de datos y luego se pueden generar datos sintéticos basados en esas estadísticas empíricas.
«Compartir nuestra investigación y crear herramientas para la comunidad de código abierto es una parte importante de nuestra misión en Capital One», dijo Turner. «Esperamos continuar explorando las sinergias entre la elaboración de perfiles de datos y los datos sintéticos y compartir las lecciones aprendidas».
Visita perfil de datos Y Datos sintéticos Repositorios en GitHub y visite el stand de Capital One (#1150) en Re AWS: inventado (27/11 al 1/12) para ver una demostración del perfil de datos.
«Food ninja. Freelance pop culture fanatic. Wannabe zombie maven. Twitter aficionado.»
More Stories
La red social Butterflies AI añade una función que te convierte en un personaje de inteligencia artificial
Edición del vigésimo aniversario de Hautlence HLXX: redefiniendo el tiempo con minutos que retroceden y horas saltantes
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora