본문 바로가기

Data Engineering

(4)
[데이터 시스템 구축기] 3. Airflow를 활용한 유튜브 댓글 수집 아키텍처 개선 0. 기존 댓글 수집 아키텍처 https://geup.tistory.com/29 Youtube 댓글 수집 Youtube Data API 사용방법 한국 지역 인기동영상 모든 댓글 및 답글 수집 코드 단점 예외처리가 어려움 API를 사용하기 때문에 여러 요인의 예외가 발상하지만 예외처리가 코드를 추가하면 코드가 geup.tistory.com 하지만 이 방식은 예외처리가 어렵고, 토큰을 하드코딩 해야 하며, 병렬처리가 어렵고, 수집을 위해 운영자가 직접 실행해야 하고, 댓글 혹은 답글이 수정되거나 추가되면 다시 수집해야 한다는 등 여러 단점이 있다. 1. Airflow, RabbitMQ를 활용한 댓글 수집 아키텍처 해소된 문제점 예외처리가 어렵다? Airflow를 사용하면 댓글 수집 파이프라인을 하나의 긴 스..
[데이터 시스템 구축기] 2. Data Warehouse 구축 Data Warehouse 구축 시 고려 사항 고성능 데이터 쓰기와 읽기가 빠르면 좋겠다. 데이터 분석에는 특정 기간에 수집된 데이터를 읽어서 사용하고 서빙에는 사용자가 입력한 날짜의 데이터를 읽어서 사용한다. 신뢰성 데이터 유실이 없으면 좋겠다. 유지보수성 발전성 데이터 용량 추가가 쉬웠으면 좋겠다. 기술스택 비교 사실 influxDB, Spanner 뿐만아니라 수백개의 DB가 있다. (DB순위) (DB종류) 어떤 DB를 쓸 것인지 판단하는 방법 내가 저장하고자 하는 데이터의 특징은 ~ 하고, ~한 특징을 가진 데이터를 효율적으로 처리할 수 있는 데이터 모델은 ...이 있으며 ...을 데이터 모델로 가지는 DB에는 @@@들이 있고 @@@들의 장단점을 모두 비교해 보았을 때 XXX가 가장 적합하여 XXX..
[데이터 시스템 구축기] 1. 시스템 설계 주요 작업 데이터 수집 후 DataWarehouse 에 저장 분석 결과 DataWarehouse 에 저장 웹 서빙 데이터 수집 작업은 Youtube Data API를 활용해 인기 동영상에 어제까지 달린 댓글을 수집하고 DataLake에 저장하는 작업이다. 자세한 API 활용 방법은 아래 PPT 파일에서 확인할 수 있다. 데이터 분석 작업은 수집된 데이터에 대해 다음과 같은 연산을 수행하고 그 결과를 Data Warehouse에 저장한다. soynlp 라이브러리의 cohension_forward score 기반 문장 -> 토큰(단어)화, 토큰 후처리, 각 토큰의 점수 계산, Word2Vec을 활용한 토큰 to 벡터, 벡터(토큰)간 유사도 계산, t-SNE를 활용한 벡터(토큰)를 2차원 공간으로 변환. 웹 ..
[데이터 시스템 구축기] 0. 데이터 시스템 구축기란? 몇 달전 개인 프로젝트로 유튜브 댓글 분석(Youtube Comment Analysis) 프로젝트를 수행했다. 데이터 시스템 구축기는 마틴 클레프만의 데이터 중심 애플리케이션 설계를 읽으면서 공부한 내용을 바탕으로 프로젝트 속 데이터 시스템을 발전시키고 그 과정을 정리할 예정이다.​ 유튜브 댓글 분석 프로젝트를 간단히 소개하면 한국 지역 유튜브 인기 동영상에 달린 댓글들을 단어 단위로 분리하고 나름의 점수계산 방식을 통해 각 단어의 순위를 매긴후 그 결과를 아래 사진과 같이 웹으로 출력하는 프로젝트이다.