BigData/Airflow 5

[Airflow] Airflow 보안

개요 접근 제어를 위한 RBAC 인터페이스 검사 및 구성 LDAP 서비스에 연결하여 중앙 사용자 집합에 대한 액세스 권한 부여 데이터베이스에서 기밀을 암호화하도록 Fernet Key 구성 중앙 보안관리 시스템에서 보안사항 가져오기 들어가기 전에... Airflow 웹 인터페이스 1) Airflow 1.x Flask-Admin을 기반으로 개발된 기본 인터페이스 FAB (Flask-AppBuilder)를 기반으로 개발된 RBAC 인터페이스 2) Airflow 2.x FAB (Flask-AppBuilder)를 기반으로 개발된 RBAC 인터페이스 1. Airflow 웹 인터페이스 보안 보이는 화면은 RBAC 인터페이스의 첫 화면 (암호 인증이 기본적으로 활성화) 1.1 RBAC 인터페이스에 사용자 추가 1.1...

BigData/Airflow 2022.10.27

[Airflow] Task 의존성 정의 방법

개요 작업 의존성을 Airflow에서 정의하는 방법과 이러한 기능을 사용하여 조건부 Task, 분기 및 조인을 비롯한 보다 복잡한 패턴을 구현하는 방법에 대해 알아보고, XCom을 이용한 Task 사이의 상태 공유 방법, Airflow 2의 새로운 API인 Taskflow API를 통해, 파이썬 작업과 XCom을 많이 사용하는 DAG를 단순화하는 방법에 대해서 알아보겠습니다. 기본 의존성 유형 1. 선형 의존성 유형 책에서 제공하는 로켓 사진 가져오기 DAG의 Task를 기반으로 선형 의존성 유형을 설명드리겠습니다. 1.1 로켓 사진 가져오기 Task Chain download_launches=BashOperator(...) get_pictures=PythonOperator(...) notify=Bash..

BigData/Airflow 2022.09.14

[Airflow] Airflow UI

개요 docker-compose를 통해 Airflow를 설치하고, Airflow Web UI를 띄우는 부분까지 성공하였습니다. 이번에는 Airflow Web UI를 둘러보며 무슨 기능이 존재하는지 확인해보도록 하겠습니다. * Airflow 설치를 진행하려면 다음 글을 참고하세요. https://twodeveloper.tistory.com/99 [Airflow] Airflow Install 개요 로컬 환경에서 Airflow를 설치해서 Airflow Web UI를 띄우는 과정까지 진행할 것입니다.Airflow는 파이썬 환경에서와 Docker Container에서 실행할 수 있는데 저는 Docker Container 환경에서 실행시키는 것. twodeveloper.tistory.com Airflow Web U..

BigData/Airflow 2022.09.08

[Airflow] Airflow Install

개요 로컬 환경에서 Airflow를 설치해서 Airflow Web UI를 띄우는 과정까지 진행할 것입니다.Airflow는 파이썬 환경에서와 Docker Container에서 실행할 수 있는데 저는 Docker Container 환경에서 실행시키는 것을 목적으로 진행할 것입니다. Docker Container로 진행하는 이유는 pyenv 등을 이용한 파이썬 환경 구성은 파이썬 실행 수준에서 실행 환경을 격리하지만, Docker Container는 OS 수준에서 격리된 환경을 제공하기 때문에 파이썬 패키지 뿐만이 아닌 DB Driver, GCC 컴파일러 등의 의존성을 포함하여 Docker Container를 생성할 수 있습니다. Airflow 설치 전 세팅 * VM : CentOS 7 (Core : 2 / ..

BigData/Airflow 2022.09.07

[Airflow] Apache Airflow 란?

개요 - Apache Airflow에 대한 개념 설명 및 어떠한 분야에서 사용되어야 적합한지에 대한 이론 설명 ■ Apache Airflow 란? - Data Pipeline을 처리하기 위해 배치 태스크에 중심을 둔 Framework 이다. - 유연한 Python Framework를 사용해 쉽게 Data Pipeline을 구축할 수 있게 해 준다. - Data Process 과정에서 중요한 역할 을 수행하며 분산 시스템에서 발생하는 작업을 조율한다. - 직접적으로 Data 처리 작업을 수행하지는 않지만, Data 처리를 위한 다양한 구성 요소들을 조정한다. 1. Data Pipeline - 데이터 파이프라인은 여러 Task 또는 동작을 구성하여 원하는 결과를 얻는다. - 각 Task는 정해진 순서대로 진..

BigData/Airflow 2022.09.05