논문 리뷰(Review Papers)

논문 리뷰: GraphX: Graph Processing in a Distributed Dataflow Framework

paper

11 분 소요

GraphX는 그래프 처리를 할때 기존 맵리듀스같은 분산 데이터 프레임의 한계를 능가하기 위해 개발되었습니다. 즉 GraphX는 그래프와 그래프 병렬 계산을 위한 스파크의 새로운 구성 요소이며, 이에 대한 논문을 정리해보았습니다.

논문 리뷰: Pregel: A System for Large-Scale Graph Processing

paper

3 분 소요

Pregel은 대규모 그래프의 분산 처리를 해결하기 위해, 확장 가능하고(scalable) 장애 허용(fault tolerance) 플랫폼입니다. 정확한 이해를 위해 논문을 구체적으로 정리해보았습니다.

논문 리뷰: Kafka: a Distributed Messaging System for Log Processing

paper

7 분 소요

카프카는 발행 구독 모델을 구현한 분산 메시징 시스템으로, 실시간 데이터 피드를 관리하기 위해 통일된 높은 처리량, 낮은 지연시간을 지닌 플랫폼을 제공하는 것을 목표로 합니다. 이에 기본이 되는 논문을 리뷰해보았습니다.

논문 리뷰: Resilient Distributed Datasets (RDD)

paper

11 분 소요

RDD는 스파크(spark)의 기본 데이터 구조입니다. 스파크를 이해하기 위해 RDD 원리를 이해하는 것이 필수이기 때문에 논문을 요약 및 정리해보았습니다.

논문 리뷰: MapReduce: Simplified Data Processing on Large Clusters

paper

8 분 소요

맵리듀스는 2004년 구글에서 발표한 빅데이터를 처리하고 생성하기 위한 프로그래밍 모델입니다. 키,값을 처리하여 중간 키,값 쌍 집합을 생성하는 map 함수와 동일한 키와 연관된 값을 merge하는 reduce 함수를 지정합니다.

논문 리뷰: The Google File System (GFS)

paper

14 분 소요

저자들은 2003년에 대규모 분산 데이터 집약적 애플리케이션을 위한 확장 가능한 분산 파일 시스템인 Goole File System을 설계하고 구현했습니다. 분산 파일 시스템의 가장 중요하면서 시초가 되는 논문이기에 리뷰해보았습니다.

논문 리뷰: Learning under Concept Drift: an Overview

paper

4 분 소요

컨셉 드리프트는 시간이 지남에 따라 예기치 않은 방식으로 변경되는 것을 의미합니다. 서베이 논문 형식으로 작성되었고, 이것을 리뷰해보았습니다.

논문 리뷰: A Data Quality-Driven View of MLOps

paper

4 분 소요

이 논문은 데이터 품질의 다양한 측면이 ML development 단계를 통해 어떻게 전파되는지를 고민했습니다. 이에 대한 요약 및 리뷰입니다.