Idioma

Implement a Data Analytics Solution with Azure Databricks.

DP-3011B
 
Fecha de publicación KeD: 28 Octubre 2025
Duración: 1 Día.
Examen: Este curso no tiene examen asociado.
 
Descarga el Temario en versión PDF
 
En este curso se explora cómo usar Databricks y Apache Spark en Azure para llevar los proyectos de datos de la exploración a la producción. Aprenderá a ingerir, transformar y analizar conjuntos de datos a gran escala con Spark DataFrames, Spark SQL y PySpark, al tiempo que genera confianza en la administración del procesamiento de datos distribuidos. A lo largo del camino, se pondrá manos a la obra con el área de trabajo de Databricks, navegando por clústeres y creando y optimizando tablas Delta. También se sumergirá en las prácticas de ingeniería de datos, incluido el diseño de canalizaciones ETL, el manejo de la evolución del esquema y la aplicación de la calidad de los datos. Luego, el curso pasa a la orquestación, mostrándole cómo automatizar y administrar cargas de trabajo con trabajos y canalizaciones de Lakeflow. Para redondear las cosas, explorará las capacidades de gobernanza y seguridad, como la integración de Unity Catalog y Purview, lo que garantiza que pueda trabajar con datos en un entorno seguro, bien administrado y listo para la producción.
 

Perfil del público.

Antes de tomar este curso, los alumnos ya deben sentirse cómodos con los fundamentos de Python y SQL. Esto incluye poder escribir scripts simples de Python y trabajar con estructuras de datos comunes, así como escribir consultas SQL para filtrar, unir y agregar datos. Un conocimiento básico de los formatos de archivo comunes, como CSV, JSON o Parquet, también ayudará a trabajar con conjuntos de datos. Además, es importante estar familiarizado con Azure Portal y los servicios principales, como Azure Storage, junto con un conocimiento general de los conceptos de datos, como el procesamiento por lotes frente al procesamiento por secuencias y los datos estructurados frente a los no estructurados. Aunque no es obligatorio, la exposición previa a marcos de macrodatos como Spark y la experiencia trabajando con cuadernos de Jupyter pueden hacer que la transición a Databricks sea más fluida.
 

Temario.

Módulo 1: Exploración de Azure Databricks.

Azure Databricks es un servicio en la nube que proporciona una plataforma escalable para el análisis de datos mediante Apache Spark.

Introducción a Azure Databricks.
Identificación de cargas de trabajo de Azure Databricks.
Comprender los conceptos clave.
Gobernanza de datos mediante Unity Catalog y Microsoft Purview.
Ejercicio: Exploración de Azure Databricks.


Módulo 2: Realización de análisis de datos con Azure Databricks.

Obtenga información sobre cómo realizar análisis de datos con Azure Databricks. Explore varios métodos de ingesta de datos y cómo integrar datos de orígenes como Azure Data Lake y Azure SQL Database. Este módulo le guía a través del uso de blocs de notas colaborativos para realizar análisis exploratorios de datos (EDA), de modo que pueda visualizar, manipular y examinar datos para descubrir patrones, anomalías y correlaciones.

Ingesta de datos con Azure Databricks.
Herramientas de exploración de datos en Azure Databricks.
Análisis de datos mediante las API de DataFrame.
Ejercicio: Exploración de datos con Azure Databricks.


Módulo 3: Uso de Apache Spark en Azure Databricks.

Azure Databricks se basa en Apache Spark y permite a los ingenieros y analistas de datos ejecutar trabajos de Spark para transformar, analizar y visualizar datos a escala.

Conoce Spark.
Creación de un clúster de Spark.
Uso de Spark en cuadernos.
Uso de Spark para trabajar con archivos de datos.
Visualizar datos.
Ejercicio: Uso de Spark en Azure Databricks.


Módulo 4: Administración de datos con Delta Lake.

Delta Lake es una solución de administración de datos en Azure Databricks que proporciona características que incluyen transacciones ACID, aplicación de esquemas y viajes en el tiempo, lo que garantiza la coherencia, la integridad y las funcionalidades de control de versiones de los datos.

Comience con Delta Lake.
Creación de tablas Delta.
Implementación de la aplicación de esquemas.
Control de versiones de datos y viajes en el tiempo en Delta Lake.
Integridad de datos con Delta Lake.
Ejercicio: Uso de Delta Lake en Azure Databricks.


Módulo 5: Creación de canalizaciones declarativas de Lakeflow.

La creación de canalizaciones declarativas de Lakeflow permite el procesamiento de datos en tiempo real, escalable y confiable mediante las características avanzadas de Delta Lake en Azure Databricks.

Explore las canalizaciones declarativas de Lakeflow.
Ingesta e integración de datos.
Procesamiento en tiempo real.
Ejercicio: Creación de una canalización declarativa de Lakeflow.


Módulo 6: Implementación de cargas de trabajo con Lakeflow Jobs.

La implementación de cargas de trabajo con Lakeflow Jobs implica orquestar y automatizar canalizaciones de procesamiento de datos complejas, flujos de trabajo de aprendizaje automático y tareas de análisis. En este módulo, aprenderá a implementar cargas de trabajo con trabajos de Databricks Lakeflow.

¿Qué son los trabajos de Lakeflow?
Descripción de los componentes clave de los trabajos de Lakeflow.
Explore los beneficios de los trabajos de Lakeflow.
Implementación de cargas de trabajo mediante trabajos de Lakeflow.
Ejercicio: Creación de un trabajo de Lakeflow.

 
Garantia Ofrecemos la garantía 100% de satisfacción
Si no te gusta el resultado de tu curso, puedes volver a tomarlo en cualquier otra fecha calendario.
 
Regresa a la página anterior
 
 
 
Cursos Nuevo
 
   
 
Cursos bajo Requerimiento Especial
Es aquel que se puede impartir siempre y cuando cumpla con un mínimo de participantes para su confirmación de fechas depende de la disponibilidad de KeD. Contacte a su Representante de Ventas
 
     
Cursos con cerftificación  
DP-100T01 Designing and Implementing a Data Science Solution on Azure
DP-300T00 Administering Microsoft Azure SQL Solutions
DP-420T00 Designing and Implementing Cloud-Native Applications Using Microsoft Azure Cosmos DB
DP-600T00 Microsoft Fabric Analytics Engineer
DP-700T00 Microsoft Fabric Data Engineer
DP-900T00 Microsoft Azure Data Fundamentals
Applied Skills Assessment
DP-3001 Migrate SQL Server workload to Azure SQL
DP-3020 Develop data-driven applications by using Azure SQL Database
DP-601T00 Implementing a Lakehouse with Microsoft Fabric
DP-603T00 Implementing Real Time Analytics with Microsoft Fabric
DP-604T00 Implement a data science and machine learning solution for AI with Microsoft Fabric
Otros
DP-080T00 Querying Data with Microsoft Transact-SQL
DP-203T00 Querying Data with Microsoft Transact-SQL
CL_55400 Microsoft Power BI Super User
SQL Server 2007
CL_55352 Introduction to SQL Databases
CL_55369 Provisioning Databases on SQL Server
Workshops
KD-05201 Dashboard in a Day
KD-05202 Advanced Visualization with Power BI
KD-05203 Advanced Data Modeling and Shaping with Power BI
KD-05204 DAX in a Day
KD-05205 Administrator in a Day
KD-05206 Paginated Reports in a Day
KD-05207 Developer in a Day
KD-05208 Modern Excel Analyst in a Day
KD-05209 Leap into Power BI
 
     
  Horarios Online  
  Horario Matutino:
Lunes a Viernes de 8:00 a 15:00 hrs.
 
     
  Horario Vespertino:
Lunes a Viernes de 15:00 a 21:00 hrs.
 
     
  Horario de Fin de Semana:
Sábado 8:00 a 15:00
 
 
 
Logo KeD