Implement a Data Analytics Solution with Azure Databricks. |
|
| DP-3011B |
| |
| Fecha de publicación KeD: 28 Octubre 2025 |
| Duración: 1 Día. |
| Examen: Este curso no tiene examen asociado. |
|
| |
|
| |
En este curso se explora cómo usar Databricks y Apache Spark en Azure para llevar los proyectos de datos de la exploración a la producción. Aprenderá a ingerir, transformar y analizar conjuntos de datos a gran escala con Spark DataFrames, Spark SQL y PySpark, al tiempo que genera confianza en la administración del procesamiento de datos distribuidos. A lo largo del camino, se pondrá manos a la obra con el área de trabajo de Databricks, navegando por clústeres y creando y optimizando tablas Delta. También se sumergirá en las prácticas de ingeniería de datos, incluido el diseño de canalizaciones ETL, el manejo de la evolución del esquema y la aplicación de la calidad de los datos. Luego, el curso pasa a la orquestación, mostrándole cómo automatizar y administrar cargas de trabajo con trabajos y canalizaciones de Lakeflow. Para redondear las cosas, explorará las capacidades de gobernanza y seguridad, como la integración de Unity Catalog y Purview, lo que garantiza que pueda trabajar con datos en un entorno seguro, bien administrado y listo para la producción. |
| |
Perfil del público.
|
| Antes de tomar este curso, los alumnos ya deben sentirse cómodos con los fundamentos de Python y SQL. Esto incluye poder escribir scripts simples de Python y trabajar con estructuras de datos comunes, así como escribir consultas SQL para filtrar, unir y agregar datos. Un conocimiento básico de los formatos de archivo comunes, como CSV, JSON o Parquet, también ayudará a trabajar con conjuntos de datos. Además, es importante estar familiarizado con Azure Portal y los servicios principales, como Azure Storage, junto con un conocimiento general de los conceptos de datos, como el procesamiento por lotes frente al procesamiento por secuencias y los datos estructurados frente a los no estructurados. Aunque no es obligatorio, la exposición previa a marcos de macrodatos como Spark y la experiencia trabajando con cuadernos de Jupyter pueden hacer que la transición a Databricks sea más fluida. |
| |
Temario. |
Módulo 1: Exploración de Azure Databricks.
Azure Databricks es un servicio en la nube que proporciona una plataforma escalable para el análisis de datos mediante Apache Spark.
• Introducción a Azure Databricks.
• Identificación de cargas de trabajo de Azure Databricks.
• Comprender los conceptos clave.
• Gobernanza de datos mediante Unity Catalog y Microsoft Purview.
• Ejercicio: Exploración de Azure Databricks.
Módulo 2: Realización de análisis de datos con Azure Databricks.
Obtenga información sobre cómo realizar análisis de datos con Azure Databricks. Explore varios métodos de ingesta de datos y cómo integrar datos de orígenes como Azure Data Lake y Azure SQL Database. Este módulo le guía a través del uso de blocs de notas colaborativos para realizar análisis exploratorios de datos (EDA), de modo que pueda visualizar, manipular y examinar datos para descubrir patrones, anomalías y correlaciones.
• Ingesta de datos con Azure Databricks.
• Herramientas de exploración de datos en Azure Databricks.
• Análisis de datos mediante las API de DataFrame.
• Ejercicio: Exploración de datos con Azure Databricks.
Módulo 3: Uso de Apache Spark en Azure Databricks.
Azure Databricks se basa en Apache Spark y permite a los ingenieros y analistas de datos ejecutar trabajos de Spark para transformar, analizar y visualizar datos a escala.
• Conoce Spark.
• Creación de un clúster de Spark.
• Uso de Spark en cuadernos.
• Uso de Spark para trabajar con archivos de datos.
• Visualizar datos.
• Ejercicio: Uso de Spark en Azure Databricks.
Módulo 4: Administración de datos con Delta Lake.
Delta Lake es una solución de administración de datos en Azure Databricks que proporciona características que incluyen transacciones ACID, aplicación de esquemas y viajes en el tiempo, lo que garantiza la coherencia, la integridad y las funcionalidades de control de versiones de los datos.
• Comience con Delta Lake.
• Creación de tablas Delta.
• Implementación de la aplicación de esquemas.
• Control de versiones de datos y viajes en el tiempo en Delta Lake.
• Integridad de datos con Delta Lake.
• Ejercicio: Uso de Delta Lake en Azure Databricks.
Módulo 5: Creación de canalizaciones declarativas de Lakeflow.
La creación de canalizaciones declarativas de Lakeflow permite el procesamiento de datos en tiempo real, escalable y confiable mediante las características avanzadas de Delta Lake en Azure Databricks.
• Explore las canalizaciones declarativas de Lakeflow.
• Ingesta e integración de datos.
• Procesamiento en tiempo real.
• Ejercicio: Creación de una canalización declarativa de Lakeflow.
Módulo 6: Implementación de cargas de trabajo con Lakeflow Jobs.
La implementación de cargas de trabajo con Lakeflow Jobs implica orquestar y automatizar canalizaciones de procesamiento de datos complejas, flujos de trabajo de aprendizaje automático y tareas de análisis. En este módulo, aprenderá a implementar cargas de trabajo con trabajos de Databricks Lakeflow.
• ¿Qué son los trabajos de Lakeflow?
• Descripción de los componentes clave de los trabajos de Lakeflow.
• Explore los beneficios de los trabajos de Lakeflow.
• Implementación de cargas de trabajo mediante trabajos de Lakeflow.
• Ejercicio: Creación de un trabajo de Lakeflow.
|
|