일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 동적 차트
- 도커
- spring boot
- bar cahrt
- docker
- KubernetesPodOperator
- 윈도우
- airflow
- 크롤링
- freshness
- polars
- 쿠버네티스
- 파이썬
- UI for kafka
- Materializations
- Python
- dbt_project
- CDC
- k9s
- mysql
- 카프카
- spark
- 모바일
- numpartitions
- query history
- proerty
- ksql
- DBT
- kafka
- Java
- Today
- Total
목록Python (7)
데이터 엔지니어 이것저것

PolarsPandas와 같은 기존의 데이터 처리 라이브러리가 가진 성능적 한계를 극복하기 위해 탄생Rust 기반으로, 멀티스레딩과 병렬 처리를 지원, 대규모 데이터셋을 보다 빠르고 효율적으로 처리할 수 있도록 설계 요약 : Spark를 사용하기엔 데이터가 작고, Pandas로 돌리기엔 데이터가 많을때 좋다 속도 배경기존 Pandas를 대체하기 위한 도구 탐색 평소에는 문제 없이 동작을 잘하지만, 대용량 업데이트 시, OOM이 발생.이를 해결하기 위해 Spark를 도입하기에는 비용문제와, 기본 로직을 많이 바꿔야하는 이슈 발생Spark를 사용해본적이 없어 도입 및 이슈 발생시 대처하는데 시간이 오래걸림. 특징Rust 기반으로, 외부 종속성이 없다I/O : 일반적인 데이터 저장 계층에 대한 최고 수준의 지..
파이썬 테스트 코드를 작성할때 setup에 필요한 데이터 셋들이 필요한 경우가 많다.특히 업무에 사용할때 필요한 데이터의 경우 간혹 csv, excel 등의 파일이 있는데, 이를 파일로 관리하거나 할경우관리하기도 어렵고 제일 문제는 csv 컨트롤시 여러 에러가 발생하기 때문이다 이를 방지하기 위해 고민을 하던 와중, airflow PR을 날리기 위해 테스트 코드를 작성하다가 airflow의 경우데이터를 sqlite에 세팅을 해두고 사용하는것을 보고 이를 따라하기로 했다. import sqlite3import unittestclass TestSQLite(unittest.TestCase): def setUp(self): # 메모리 내에 데이터베이스를 생성 self.conn = ..

사용에 앞서 필요한 lib pip install ksql from ksql import KSQLAPI from pprint import pprint client = KSQLAPI('http://127.0.0.1:8088', timeout=None) result = client.ksql('show topics;') pprint(result) 결과물 data = client.query("""SELECT * FROM `ksqlstudy`;""", use_http2=True) for i in data: print(i)

파이썬으로 심플하게 동적 차트를 그리기 위해 사용 pip install bar_chart_race 추가적으로 이렇게 하면 과거 버전이고, 가장 최신버전은 pip에서 안된다. pip uninstall bar_chart_race pip install git+https://github.com/dexplo/bar_chart_race 결과물을 영상으로 저장하기 위해서는 FFMPEG가 필요하다 프로그램 설치 : https://www.gyan.dev/ffmpeg/builds/ Builds - CODEX FFMPEG @ gyan.dev FFmpeg is a widely-used cross-platform multimedia framework which can process almost all common and man..

Ray란? 분산 애플리케이션을 구축하기 위한 단순하고 보편적인 API 파이썬에서 병렬처리를 할 경우 멀티프로세싱을 주로 사용한다. 하지만 해당 라이브러리를 사용하기 위해선 기존에 작성한 코드를 수정해야한다. Process 기반으로 분산처리, 병렬처리 진행 장점 기존 코드에서 약간의 수정만으로 병렬 처리 가능 마지막에 병렬로 구현 데코레이터로 감싸기 클래스도 데코레이터 가능 클러스터 환경에서도 구축 가능 Dashboard가 존재하여 성능, 로그 확인 가능 (8265 포트 사용) 멀티프로세싱보다 빠른 성능 머신러닝/딥러닝에 활용하기 최적 pip install ray --에러가 날 경우 아래 명령어 pip install "ray[default]" 현재 윈도우 환경은 개발 진행중으로 안됨

판다스 프로파일링이란? 데이터 분석을 하기 전 데이터프레임을 한줄의 명령으로 리포트를 생성할수 있는 라이브러리 가장 기초적인 분석데이터는 한번에 쉽게 확인할수 있다. !pip3 install -U pandas-profiling from pandas_profiling import ProfileReport pr=data_df.profile_report() pr.to_file('./pr_report.html')

https://programmers.co.kr/learn/courses/30/lessons/42862 코딩테스트 연습 - 체육복 점심시간에 도둑이 들어, 일부 학생이 체육복을 도난당했습니다. 다행히 여벌 체육복이 있는 학생이 이들에게 체육복을 빌려주려 합니다. 학생들의 번호는 체격 순으로 매겨져 있어, 바로 앞번� programmers.co.kr 전후 위치를 바꾼걸로 통, 불통이 되는데,,,, 정확한 원인은 아직 모르겠다 그리드 알고리즘,,, 추가적으로 공부해야할듯!