Lecture 11

Data engineering, continued

We're going to revisit a number of concepts from earlier.

What can go wrong in data loading/manipulation? What errors/bugs have you hit?

What would you want to happen?

Failure modes

Graceful degredation
Examples?

Process mapping

DAGs

Directed acyclic graphs

What does that mean?

Data processing

Pipelines
- Modeled as a DAG
Jobs
Batch vs. streaming
Online vs. offline
Online transaction processing (OLTP)
Online analytical processing (OLAP)

Pipelines

From Arshiya:

Why is DAG different from setting workflows in Github?

Useful for complex ETL
Dependencies
Assets
Data
Code (continuous integration/deployment)

GitHub Actions configuration

Examples
Trigger configuration

Persistence

Why store the data?

Data lake/warehouse

Example view

Airflow

From Angel:

[using DAGs] increases data pipeline transparency but simultaneously increases reliance on developer discipline. Code flexibility might just as easily turn into production instability.

There are many alternative data integration / workflow orchestration tools.

Project Part 6

Readings

They're heavy this week, don't wait!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

lecture_11.md

lecture_11.md

Lecture 11

Failure modes

Process mapping

DAGs

Data processing

Pipelines

GitHub Actions configuration

Persistence

Data lake/warehouse

Example view

Airflow

Project Part 6

Readings

Files

lecture_11.md

Latest commit

History

lecture_11.md

File metadata and controls

Lecture 11

Failure modes

Process mapping

DAGs

Data processing

Pipelines

GitHub Actions configuration

Persistence

Data lake/warehouse

Example view

Airflow

Project Part 6

Readings