미리보기
기본 정보
안녕하세요. 저는 데이터 파이프라이닝 구축과 여러 사람과 소통하는 것을 좋아하는 개발자 이상혁입니다. BigQuery에 데이터를 적재하고, Superset 대시보드를 활용한 시각화까지 데이터 파이프라인의 전 과정을 구현할 수 있습니다. AWS 인프라 설계 및 구축, Apache Airflow를 이용한 ETL 및 ELT 프로세스의 자동화를 주도하며 데이터 처리의 효율성과 안정성 향상 업무를 진행했습니다. 또한 GitHub Action을 사용하여 CI 환경을 마련하고 데이터 무결성을 보장하는 테스트 코드를 작성했습니다. 팀 **커뮤니케이션**을 중요하게 생각합니다. 모든 팀 작업은 원활한 의사소통에서 시작된다고 믿기에 서로 간의 신뢰와 이해를 바탕으로 구성된 팀워크를 최우선 가치로 여깁니다. 특히, 어색한 상황과 낯선 환경에서 가벼운 말로 시작하여 분위기를 무겁지 않게 유지하려고 합니다.
기술 스택
프로젝트
데이터 엔지니어링 데브코스/팀(5)
위치와 리뷰를 기반으로 한 서울시 맛집 추천 서비스
사용 기술
- Python, SQL
- EC2, S3, RDS(MySQL, PostgreSQL), Redshift
- RabbitMQ
- Apache Airflow
개인 역할
- AWS 인프라 및 Apache Airflow 데이터 파이프라인 구축
- 스키마 변경 대응
- 프로젝트 마감 24시간 내 변경된 스키마 요구사항 변경 적용
- 데이터 파이프라인 안정성 강화
- Apache Airflow를 활용하여 데이터 파이프라인의 안정성 및 효율성 개선
- 스키마 변경 대응
- AWS 서비스(EC2, S3, RDS)를 활용한 클라우드 인프라 설계 및 구축
- 작업 시간 단축
- Celery Worker 추가로 데이터 업데이트 시간을 기존 10시간에서 2 ~ 3시간으로 70 ~ 80% 감소
- 작업 시간 단축
- Apache Airflow를 이용한 자동화된 데이터 ETL 프로세스 개발 및 관리
- Redshift 동시 접근 문제 해결
- AWS Redshift에서 발생한 AccessExclusiveLock 문제를 해결하여 데이터 파이프라인 운영의 안정성 확보
- Redshift 동시 접근 문제 해결
2024.02. ~ 2024.03.
(2개월)
데이터 엔지니어링 데브코스/팀(4)
재생 에너지 생산·사용 및 환경 오염 지표 대시보드
사용 기술
- Python, SQL
- Docker, Github Actions
- BigQuery
- Apache Airflow
개인 역할
- Git Action을 활용하여 CI 구축 및 Airflow Dags 무결성 테스트 코드 작성
- 로컬 환경과 Github Build 통합
- 로컬에서 테스트된 무결성 검사의 경로 문제를 해결하여 GitHub Build 과정에서의 에러를 제거 및 Airflow 환경에서 모듈 에러 방지
- 로컬 환경과 Github Build 통합
- 태양열 에너지 데이터를 수집하고 가공하는 파이프라인 구축
- ETL, ELT 프로세스 자동화
- Airflow를 사용하여 ETL 작업 완료 후 자동으로 ELT 과정을 실행하도록 구성
- ETL, ELT 프로세스 자동화
- BigQuery에 적재된 데이터를 Superset 대시보드로 표현
2024.01. ~ 2024.01.
(1개월)
포트폴리오
교육
경희대학교
대학교(학사) | 컴퓨터공학
2021.03. ~ 2023.08.
졸업
University of Canterbury
대학교(학사) | Computer Science
2013.03. ~ 2014.11.
중퇴
프로그래머스
사설 교육 | 데이터 엔지니어링
2023.10. ~ 2024.03.
졸업