일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 크롤링
- DBT
- numpartitions
- 쿠버네티스
- dbt_project
- kafka
- freshness
- query history
- 카프카
- 동적 차트
- ksql
- mysql
- CDC
- bar cahrt
- k9s
- 모바일
- UI for kafka
- Java
- airflow
- 파이썬
- polars
- Python
- docker
- 도커
- proerty
- KubernetesPodOperator
- 윈도우
- spark
- spring boot
- Materializations
- Today
- Total
목록오픈소스 (100)
데이터 엔지니어 이것저것

Mysql과 psotgresql을 kafka connector를 이용하여 싱크를 맞추는 작업 http://localhost:8083/connectors 에 post를 하면 된다. source { "name":"inventory-connector", "config":{ "connector.class":"io.debezium.connector.mysql.MySqlConnector", "tasks.max":"1", "database.hostname":"mysql", "database.port":"3306", "database.user":"root", "database.password":"debezium", "database.server.name":"test", "database.include.list":"in..

도커 데스크탑 뿐만 아니라 power shell에서 사용하기 위한 설치 설치를 위해 Scoop가 필요하다 명령어 > Set-ExecutionPolicy RemoteSigned -Scope CurrentUser # Optional: Needed to run a remote script the first time > irm get.scoop.sh | iex https://scoop.sh/ https://scoop.sh/ scoop.sh K9s 설치 scoop install k9s https://k9scli.io/topics/install/ Install Installation Overview K9s is available on Linux, macOS and Windows platforms. Binaries ..

airflow를 사용하다보면, 특정 task의 걸리는 시간이 많아 병렬처리를 위해 여러개의 TASK를 실행하는 경우가 많다. 하지만 그렇게 해도 너무 많은 시간이 걸려 동시에 동작하는 parallelism의 수가 기본값(32)을 넘는 경우 대기 상태에서 진행되지 않는다. 결국 원하는 시간에 원하는 결과물을 받지 못하는 결과를 만든다. 로컬에서 테스트 하기 위해 32개의 task를 실행하면 메모리가 부족하여 반대로 parallelism의 수를 2로 줄여서 테스트 진행 config: core: AIRFLOW__CORE__PARALLELISM: 2 CeleryExecutor 정상적으로 2개만 실행하는 모습 다시 10으로 증가시킨후 동작 TODO 쿠버네티스의 경우 정상적으로 동작을 안해서 확인중

airflow를 사용하면서, 이때까지 celery executor를 사용하였지만 이제는 kubernetesPodOperator를 사용해야할때가 왔다. 주요 원인 배치의 수가 늘어남 특정 배치의 경우 더 많은 병렬이 필요. 기존 10개의 Task로 처리했다면, 갑자기 20-30개 등으로 늘어나야함 이때까지는 airflow 성능을 업그레이드 하거나 하는 등의 비효율적인 방법으로 대응 특정 TASK마다 필요로 하는 lib 버전 또는 언어가 다름 특정 TASK를 위해 lib 업그레이드를 하면 다른 TASK에서 오류 발생 간단하게 이러한 문제로 인해 넘어가기 위한 공부 진행 airflow version은 2.5.0 from airflow.providers.cncf.kubernetes.operators.kubern..

KubernetesPodOperator 작업을 하기위해 로컬에서 테스트할수있는 방법들을 찾다가 도커 오퍼레이터를 찾았다. 로컬 환경에서 docker-compose 및 celery Executor 환경에서도 도커 이미지를 올리고 내리면서서 테스트 할수있을것같다. from datetime import datetime from airflow import DAG from airflow.providers.docker.operators.docker import DockerOperator default_args = { 'owner': 'airflow', 'start_date': datetime(2023, 1, 1), } dag = DAG( 'run_docker_image_example', default_args=de..

공식 문서 : https://docs.kafka-ui.provectus.io/configuration/quick-start Quick Start - UI for Apache Kafka When you're done with testing, you can refer to the next articles to persist your config & deploy the app wherever you need to. docs.kafka-ui.provectus.io 설치 과정 helm repo add kafka-ui https://provectus.github.io/kafka-ui-charts helm pull kafka-ui/kafka-ui values.yaml 추가 yamlApplicationConfig: k..
결론부터 말하면 탈락 준비 과정 : 유데미에서 카프카 강의 및 문제 문제들 https://www.udemy.com/course/confluent-certified-developer-for-apache-kafka/ https://www.udemy.com/course/confluent-certified-apache-kafka-developer-practice-exams/ 후기 시험을 제출하자 마자 Fail ㅎㅎ; 기본적으로 풀어본 문제들과 시험에 나온 문제가 잘 맞지 않아서 아쉬웠다. 기본적으로 푼 문제들은 kafka 설정에 관한 문제들이 많았는데, 최근 시험을 보니 스트리밍 관련 문제들이 다수 였다. 스트리밍 내용과 쿼리 등의 문제들이 과장하면 문제의 20%-30% 정도 된것같다 확실히 카프카가 스트리밍에..
helm chart : https://github.com/grafana/helm-charts GitHub - grafana/helm-charts Contribute to grafana/helm-charts development by creating an account on GitHub. github.com 기본 세팅을 하고 난뒤 로컬에서 접근하기 위해서는 포트포워드 작업을 해줘야하는데, 계속 명령어를 입력해줘야한다. 일반적인 포트포워드 방식으로는 안된다. 그이유는 기본적으로 k8s는 서비스 방식이 로드 밸런서가 아니기 때문 해서 dir를 확인해보면 ci dir안에 여러가지 values 파일이 존재하는데, 원하는 네이밍의 values 파일을 추가하면 된다. service: enabled: true type..