일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- bar cahrt
- 파이썬
- 도커
- 윈도우
- airflow
- 크롤링
- numpartitions
- dbt_project
- 모바일
- Python
- spark
- query history
- freshness
- Java
- k9s
- spring boot
- DBT
- 카프카
- 동적 차트
- polars
- CDC
- Materializations
- mysql
- kafka
- UI for kafka
- docker
- 쿠버네티스
- ksql
- proerty
- KubernetesPodOperator
- Today
- Total
목록기타 (46)
데이터 엔지니어 이것저것
기존 data-profiling 이 ydata-profiling 으로 변경되었다 설치 pip install ydata-profiling 문서 https://github.com/ydataai/ydata-profiling GitHub - ydataai/ydata-profiling: 1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFra 1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFrames. - GitHub - ydataai/ydata-profiling: 1 Line of co..
import matplotlib.pyplot as plt plt.rcParams['font.family'] = 'NanumGothic' 심플하게 해당 코드 추가하면 한글

파이썬으로 심플하게 동적 차트를 그리기 위해 사용 pip install bar_chart_race 추가적으로 이렇게 하면 과거 버전이고, 가장 최신버전은 pip에서 안된다. pip uninstall bar_chart_race pip install git+https://github.com/dexplo/bar_chart_race 결과물을 영상으로 저장하기 위해서는 FFMPEG가 필요하다 프로그램 설치 : https://www.gyan.dev/ffmpeg/builds/ Builds - CODEX FFMPEG @ gyan.dev FFmpeg is a widely-used cross-platform multimedia framework which can process almost all common and man..
논문 https://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf 아마존닷컴의 주요 과제중 하나는 대규모의 신뢰성을 확보하는것이다. 다이나모는 항상 켜져있는(always-on) 경험을 제공하기 위한 고가용성 키-값 저장소이다. 다이나모는 높은 신뢰성을 요구하는 동시에, 가용성, 일관성, 비용 효율성, 성능 간의 트레이드 오프를 엄격이 조정해야한다. 많은 서비스들은 기본키만으로도 충분히 서비스가 가능하다. 복잡한 쿼리나 RDBMS가 제공하는 관리 기능을 필요로 하지않으며 이는 높은 숙련도를 요구한다. 다이나모는 이러한 서비스의 요구 사항을 충족하기 위해 만들어진 단순한 기본 키 전용 인터페이스를 제공한다. 가용성과 확장성을 위해 데이터는 파티..
Detla Lake는 데이터 레이크에 안정성을 제공하는 오픈 소스 스토리지 계층. Delta Lake는 ACID 트랜잭션, 확장 가능한 메타데이터 처리를 구현하고 스트리밍 및 일괄 데이터 처리를 통합. Delta Lake는 Spark와 잘 통합되어있다. 문서 : https://www.databricks.com/blog/2021/06/22/get-your-free-copy-of-delta-lake-the-definitive-guide-early-release.html
데이터 파이프라인이란? - 다양한 소스에서 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정 수집 인터페이스 Postgresql, Mysql 같은 데이터 베이스 REST API Kafka 같은 스트림 처리 log, csv 같은 파일 및 기타 플랫 파일 시스템 또는 클라우드 스토리지 버킷(S3) 데이터 웨어하우스 또는 데이터 레이크 HDFS, Hbase 데이터 구조 REST API 의 JSON Mysql의 잘 구성된 데이터 Mysql 열 내의 JSON 반 정형화 된 로그 데이터 csv, fwf 및 기타 플랫 파일 JSON Kafka 스트림 출력 데이터 웨어하우스 사용자가 원하는 질문에 대답할 수 있는 데이터 분석 활동을 지원하기 위해 서로 다른 시스템의 데이터가 모델링되어 저장되는..

주제 선정 생활하는데 필요한 의식주 관련 커뮤니티에 있어 의 : 무신사(시발점은 패션 커뮤) 등 같종 패션 관련 쇼핑몰 (패션에 관심이 없어서 잘 모르겠다) 주 : 오늘의 집, 당근마켓 식 : ? 당장 검색만 해봐도 의, 주 와 다르게 식 관련 커뮤니티만 없다. 이를 토대로 음식을 주제로 한 커뮤니티가 있다면 좋을것같다는 생각을 하였다. 시스템 기능 음식점 리뷰 인증 시스템 1. 당근마켓처럼 위치 기반 인증 시스템을 도입할 경우 허위, 광고성을 사전에 차단 할 수 있다. 하지만 여행지나 멀리 가서 음식을 먹을 경우 음식점에서 당장 리뷰를 해야하나? 2. 결제 내역으로 인증받기 네이버 처럼 영수증을 인증한다던가 하는 방식 ( 구체적인 구현방법은 아직 모르겠다) 시간대별, 카테고리별 검색기능 1. 시간대 검..
https://github.com/khuedoan/homelab GitHub - khuedoan/homelab: My self-hosting infrastructure, fully automated from empty disk to operating services My self-hosting infrastructure, fully automated from empty disk to operating services - GitHub - khuedoan/homelab: My self-hosting infrastructure, fully automated from empty disk to operating services github.com https://homelab.khuedoan.com/ Introdu..