본문 바로가기

전체 글

(26)
Hadoop 설치 https://www.youtube.com/watch?v=C8HPbs-z47g&t=2642s
[데이터 시스템 구축기] 1. 시스템 설계 주요 작업 데이터 수집 후 DataWarehouse 에 저장 분석 결과 DataWarehouse 에 저장 웹 서빙 데이터 수집 작업은 Youtube Data API를 활용해 인기 동영상에 어제까지 달린 댓글을 수집하고 DataLake에 저장하는 작업이다. 자세한 API 활용 방법은 아래 PPT 파일에서 확인할 수 있다. 데이터 분석 작업은 수집된 데이터에 대해 다음과 같은 연산을 수행하고 그 결과를 Data Warehouse에 저장한다. soynlp 라이브러리의 cohension_forward score 기반 문장 -> 토큰(단어)화, 토큰 후처리, 각 토큰의 점수 계산, Word2Vec을 활용한 토큰 to 벡터, 벡터(토큰)간 유사도 계산, t-SNE를 활용한 벡터(토큰)를 2차원 공간으로 변환. 웹 ..
[데이터 시스템 구축기] 0. 데이터 시스템 구축기란? 몇 달전 개인 프로젝트로 유튜브 댓글 분석(Youtube Comment Analysis) 프로젝트를 수행했다. 데이터 시스템 구축기는 마틴 클레프만의 데이터 중심 애플리케이션 설계를 읽으면서 공부한 내용을 바탕으로 프로젝트 속 데이터 시스템을 발전시키고 그 과정을 정리할 예정이다.​ 유튜브 댓글 분석 프로젝트를 간단히 소개하면 한국 지역 유튜브 인기 동영상에 달린 댓글들을 단어 단위로 분리하고 나름의 점수계산 방식을 통해 각 단어의 순위를 매긴후 그 결과를 아래 사진과 같이 웹으로 출력하는 프로젝트이다.