en Ultima publicación En su blog oficial de ingeniería, Uber reveló su estrategia para migrar su conjunto de capacitación en análisis de datos por lotes y aprendizaje automático (ML) a… Plataforma en la nube de Google (PCG). Uber opera una de las empresas más grandes. hadoop instalaciones en todo el mundo, gestionando más de exabytes de datos en decenas de miles de servidores en ambas regiones. El ecosistema de datos de código abierto, especialmente Hadoop, ha sido la piedra angular de la plataforma de datos.
El plan estratégico de migración consta de dos pasos: migración inicial y aprovechamiento de los servicios nativos de la nube. La estrategia inicial de Uber implica aprovechar el almacén de objetos de GCP para almacenar el lago de datos mientras migra el resto de su conjunto de datos a la infraestructura como servicio (IaaS) de GCP. Este enfoque permite una migración rápida con una interrupción mínima de la funcionalidad y los canales existentes, ya que pueden replicar versiones exactas de la pila de software, los motores y el modelo de seguridad locales en IaaS. Después de esta fase, el equipo de ingeniería de Uber planea adoptar gradualmente las ofertas de plataforma como servicio (PaaS) de GCP, por ejemplo Proceso de datos Y Gran consultaAprovechar plenamente los beneficios de flexibilidad y rendimiento de los servicios nativos de la nube.
Una vez que se complete la migración inicial, el equipo se concentrará en integrar servicios nativos de la nube para maximizar el rendimiento y la escalabilidad de la infraestructura de datos. Este enfoque gradual garantiza que los usuarios de Uber, desde los propietarios de paneles hasta los profesionales del aprendizaje automático, experimenten una transición fluida sin cambiar los flujos de trabajo o servicios existentes.
Para garantizar un proceso de migración fluido y eficiente, el equipo de Uber ha establecido varias pautas:
- Minimizar la interrupción del uso trasladando la mayoría del conjunto de datos recopilados a IaaS en la nube tal cual; Su objetivo es proteger a sus usuarios de cualquier cambio en sus productos o servicios. Utilizando abstracciones conocidas y estándares abiertos, se esfuerzan por hacer que el proceso de transición sea lo más transparente posible.
- Dependerán de un conector de almacenamiento en la nube que implemente la interfaz Hadoop FileSystem con Google Cloud Storage, garantizando la compatibilidad con HDFS. Al unificar los clientes Apache Hadoop HDFS, abstraeremos los detalles de la implementación HDFS local, lo que permitirá una integración perfecta con la capa de almacenamiento de GCP.
- El equipo de Uber ha desarrollado agentes de acceso a datos para Presto, Chispa – chispearY Colmena Que resume los grupos de cálculo físico básico. Estos agentes admitirán el enrutamiento selectivo del tráfico de prueba a clústeres basados en la nube durante la fase de prueba y enrutarán completamente las consultas y trabajos a la pila de la nube durante la migración completa.
- Aproveche la infraestructura de nube de Uber. El entorno de contenedores, la plataforma informática y las herramientas de implementación existentes de Uber están diseñados para estar separados entre la nube y las instalaciones. Estas plataformas permitirán que los microservicios del ecosistema de datos agregados se extiendan fácilmente en la nube (IaaS).
- El equipo trabajará para crear y mejorar los servicios de gestión de datos existentes para respaldar los servicios en la nube seleccionados y aprobados, y garantizar una sólida gobernanza de los datos. La empresa pretende mantener los mismos niveles permitidos de acceso y seguridad que en las instalaciones, al tiempo que admite una autenticación de usuario perfecta en el lago de datos del almacén de objetos y otros servicios en la nube.
El equipo de Uber se centra en asignar depósitos y planificar recursos de nube para la migración. Es fundamental asignar archivos y directorios HDFS a objetos de la nube en uno o más depósitos. Deben aplicar políticas de IAM en diferentes niveles de granularidad, teniendo en cuenta las limitaciones de los depósitos y objetos, como la velocidad de lectura/escritura y la limitación de IOPS. El equipo tiene como objetivo desarrollar un algoritmo de mapeo que satisfaga estas limitaciones y organice los recursos de datos de una manera jerárquica y centrada en la empresa, mejorando la gobernanza y la gestión de datos.
La integración de la seguridad es otro curso de acción; Es esencial adaptar los tokens basados en Kerberos y los tokens de delegación de Hadoop para PaaS en la nube, especialmente Google Cloud Storage (GCS). Este flujo de trabajo está destinado a admitir una autenticación y autorización fluida de usuarios, grupos y cuentas de servicio, manteniendo al mismo tiempo niveles de acceso consistentes a nivel local.
El equipo también se centra en la replicación de datos. HiveSync, un servicio de replicación de datos bidireccional basado en permisos, permite a Uber operar en modo activo. Amplía las capacidades de HiveSync para replicar datos del lago de datos local a un lago de datos basado en la nube y al Hive Metastore correspondiente. Esto implica una migración masiva inicial y actualizaciones incrementales continuas hasta que el paquete basado en la nube se convierta en la norma.
El último curso de acción es aprovisionar los nuevos clústeres YARN y Presto en GCP Iaas. Los agentes de acceso a datos de Uber enrutarán el tráfico de consultas y los trabajos a estos clústeres basados en la nube durante la migración, asegurando una transición perfecta.
El proceso de migración de big data de Uber a Google Cloud espera desafíos como diferencias de rendimiento en el almacenamiento y problemas inesperados debido a su sistema heredado. El equipo planea abordar estos problemas aprovechando herramientas de código abierto, utilizando la flexibilidad de la nube para administrar los costos, migrando usos no centrales a almacenamiento dedicado, probando integraciones de manera proactiva y abandonando prácticas heredadas.
«Food ninja. Freelance fanático de la cultura pop. Wannabe zombie maven. Aficionado a Twitter».
More Stories
La red social Butterflies AI añade una función que te convierte en un personaje de inteligencia artificial
Edición del vigésimo aniversario de Hautlence HLXX: redefiniendo el tiempo con minutos que retroceden y horas saltantes
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora