Presentación del tiempo de ejecución optimizado de Spark 3.1 para la integración de datos con AWS Glue 3.0

Presentación del tiempo de ejecución optimizado de Spark 3.1 para la integración de datos con AWS Glue 3.0

Hoy nos complace anunciar la versión 3.0 de AWS Glue, una nueva versión de AWS Glue Spark para trabajos por lotes y de streaming que acelera las cargas de trabajo de integración de datos en AWS. AWS Glue 3.0 incorpora un tiempo de ejecución de Spark con rendimiento optimizado que incluye optimizaciones de AWS Glue y Amazon EMR que se basa en Apache Spark 3.1.1 de código abierto. El tiempo de ejecución de AWS Glue 3.0 optimiza el acceso de lectura y escritura a Amazon Simple Storage Service (Amazon S3) con lectores vectorizados más rápidos y confirmadores de salida optimizados de Amazon S3. También optimiza el acceso al catálogo de datos de AWS Glue con el uso de predicados de partición. En el caso de conjuntos de datos muy particionados, Glue 3.0 mejora la velocidad de ejecución filtrando las particiones innecesarias con índices de particiones. El tiempo de ejecución de AWS Glue 3.0 también está completamente integrado con AWS Lake Formation, por lo que puede proteger el acceso a los datos de manera pormenorizada, con un control de acceso en el nivel de la base de datos, la tabla, la columna, la fila y la celda mediante nombres de recursos y control de acceso basado en etiquetas de AWS Lake Formation. Con AWS Glue 3.0, también incorporamos nuevas capacidades para mejorar la experiencia del usuario a la hora de monitorear, depurar y ajustar las aplicaciones de Spark. Spark 3.1.1 ofrece una experiencia de interfaz de usuario de Spark mejorada que incluye nuevas métricas de memoria del ejecutor de Spark y métricas de Structured Streaming de Spark que son útiles para los trabajos de streaming de AWS Glue. Del mismo modo que AWS Glue 2.0, AWS Glue 3.0 reduce la latencia de inicio y mejora los plazos totales de finalización de los trabajos.

About The Author

No Comments

Leave a Reply