본문 바로가기

분류 전체보기

(26)
Docker 기초 Docker가 필요한 이유 Window에 Docker 설치하기 Docker 사용법
Kubernetes 기초 Container Orchestration 이란? Kubernetes 기본 개념 Kubernetes 설치 Kubernetes 사용하기
Hadoop 설치 https://www.youtube.com/watch?v=C8HPbs-z47g&t=2642s
[데이터 시스템 구축기] 1. 시스템 설계 주요 작업 데이터 수집 후 DataWarehouse 에 저장 분석 결과 DataWarehouse 에 저장 웹 서빙 데이터 수집 작업은 Youtube Data API를 활용해 인기 동영상에 어제까지 달린 댓글을 수집하고 DataLake에 저장하는 작업이다. 자세한 API 활용 방법은 아래 PPT 파일에서 확인할 수 있다. 데이터 분석 작업은 수집된 데이터에 대해 다음과 같은 연산을 수행하고 그 결과를 Data Warehouse에 저장한다. soynlp 라이브러리의 cohension_forward score 기반 문장 -> 토큰(단어)화, 토큰 후처리, 각 토큰의 점수 계산, Word2Vec을 활용한 토큰 to 벡터, 벡터(토큰)간 유사도 계산, t-SNE를 활용한 벡터(토큰)를 2차원 공간으로 변환. 웹 ..
[데이터 시스템 구축기] 0. 데이터 시스템 구축기란? 몇 달전 개인 프로젝트로 유튜브 댓글 분석(Youtube Comment Analysis) 프로젝트를 수행했다. 데이터 시스템 구축기는 마틴 클레프만의 데이터 중심 애플리케이션 설계를 읽으면서 공부한 내용을 바탕으로 프로젝트 속 데이터 시스템을 발전시키고 그 과정을 정리할 예정이다.​ 유튜브 댓글 분석 프로젝트를 간단히 소개하면 한국 지역 유튜브 인기 동영상에 달린 댓글들을 단어 단위로 분리하고 나름의 점수계산 방식을 통해 각 단어의 순위를 매긴후 그 결과를 아래 사진과 같이 웹으로 출력하는 프로젝트이다.
[if(kakao) 2021] 추천 시스템 airflow 2.0 도입기 Review 출처 : https://if.kakao.com/session/29 if(kakao)2021 함께 나아가는 더 나은 세상 if.kakao.com 추천시스템 내 workflow 개선을 위해 airflow를 도입했던 이유와, 쿠버네티스에서 airflow를 안정적으로 운영하기 위해 했던 고민들, 그리고 2.0으로의 버전업 경험과 추천시스템 내에서 이를 어떻게 활용하고 있는지 공유합니다. 리뷰 포인트 Airflow 1.10 도입 계기 기존 구조의 문제점과 Airflow 2.0으로 업그레이드를 고민한 이유 카카오 추천시스템 내 airflow 활용 (2021년 기준) Airflow 1.10 도입 계기 문제점 복잡해지는 추천 시스템 파이프라인 ML 모델 개발, 배포 난이도에 비해 ML 시스템을 유지하고 관리하는 비용이..
[if(kakao) 2021] 실시간 로그 처리를 위한 Flink on k8s 구축 사례 Review 출처 : https://if.kakao.com/session/25 if(kakao)2021 함께 나아가는 더 나은 세상 if.kakao.com Flink와 Kubernetes 기반 실시간 로그 처리 플랫폼의 구축 경험을 소개합니다. 먼저, Flink가 무엇인지 간단하게 소개 드리고, Kubernetes 환경에서 Flink를 배포하고 운영할 때 도움이 될만한 부분들을 공유드리고자 합니다. 이를 통해 Kubernetes에서 Flink를 시작하시는 분들에게 조금이나마 도움이 되었으면 좋겠습니다. 리뷰 포인트 Flink를 선택한 이유 Flink on Kubernetes 구축과정 Flink 운영 Flink를 선택한 이유 기존에는 Apache Storm을 기반으로 실시간 로그 처리를 수행했다. 카카오 서비스의 증가..
[if(kakao) 2020] 오픈 소스 기반 하이브 테이블 모니터링 시스템 만들기 Review 출처 : https://if.kakao.com/2020/session/121 if(kakao)2020 오늘도 카카오는 일상을 바꾸는 중 if.kakao.com 오픈 소스를 사용해서 하이브 테이블 모니터링 시스템을 만든 경험을 공유합니다. InfluxDB와 Grafana를 이용해 만들면서 겪은 시행착오와 하이브 테이블을 모니터링하는 여러 가지 방법을 소개합니다. 해당 시스템을 이용해서 테이블보다 더 작은 단위(파티션 등)로 데이터들을 모니터링하고 있으며, 테이블 생성 잡 모니터링으로는 파악하기 어려운 장애들을 감지합니다. 리뷰 포인트 델루나(Table Del Luna) - 하이브 테이블 모니터링 시스템 델루나(Table Del Luna) - 하이브 테이블 모니터링 시스템 델루나는 응용분석팀이 다루는 수많은..
[if(kakao) 2020] How to make log based Alert with Flink Review 출처 : https://if.kakao.com/2020/session/112 if(kakao)2020 오늘도 카카오는 일상을 바꾸는 중 if.kakao.com Apache Flink 플랫폼을 이용하여 Log를 기반으로 알람을 보내는 방법을 설명합니다. 추가로 플링크의 윈도우의 개념과 동작 방식, 플링크의 워터마크 흐름 및 개념을 설명합니다. 리뷰 포인트 Flink Window 소개 카카오의 Log 알람 Process Flink Window 소개 Apache Flink : Data Stream을 처리하는 프레임워크 구성 요소 Window Data Stream의 무한하고 연속적인 Element들에 대해 Window 단위로 시작과 끝을 정의함 Tumbling Window : Element a, b, c, d가..
[if(kakao)2020] Flink 기반 log streaming pipeline - log와 사용자를 잇는 무지개 다리 출처 : https://if.kakao.com/2020/session/116 if(kakao)2020 오늘도 카카오는 일상을 바꾸는 중 if.kakao.com Apache Flink를 이용하여 카카오의 로그 파이프라인을 개선한 경험을 소개합니다. 카카오의 전사 로그 파이프라인과 apache Flink에 대한 개념을 설명합니다. 리뷰 포인트 log pipline, streaming 소개 Apache Flink 기반 log streaming pipline 프로젝트 소개 log pipline, streaming 소개 용어 Pipline 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 구조 src와 dst가 있는 데이터의 흐름 데이터의 전송과 변환을 자동화 실시간성과 배치성을 모두 포함 Log Pipl..