논문 리뷰(Review Papers)

[논문 리뷰] Annotating Columns with Pre-trained Language Models

paper

4 분 소요

DODUO는 테이블의 전체를 입력으로 받아 테이블의 여러 컬럼 정보들을 이용하여 컬럼 유형과 컬럼 관계 예측을 출력하는 트랜스포머 기반 멀티태스크 학습 아키텍처입니다. 본 논문을 리뷰해보았습니다.

[논문 리뷰] GraphX: Graph Processing in a Distributed Dataflow Framework

paper

11 분 소요

GraphX는 그래프 처리를 할때 기존 맵리듀스같은 분산 데이터 프레임의 한계를 능가하기 위해 개발되었습니다. 즉 GraphX는 그래프와 그래프 병렬 계산을 위한 스파크의 새로운 구성 요소이며, 이에 대한 논문을 정리해보았습니다.

[논문 리뷰] Kafka: a Distributed Messaging System for Log Processing

paper

7 분 소요

카프카는 발행 구독 모델을 구현한 분산 메시징 시스템으로, 실시간 데이터 피드를 관리하기 위해 통일된 높은 처리량, 낮은 지연시간을 지닌 플랫폼을 제공하는 것을 목표로 합니다. 이에 기본이 되는 논문을 리뷰해보았습니다.

[논문 리뷰] MapReduce: Simplified Data Processing on Large Clusters

paperhadoop

8 분 소요

맵리듀스는 2004년 구글에서 발표한 빅데이터를 처리하고 생성하기 위한 프로그래밍 모델입니다. 키,값을 처리하여 중간 키,값 쌍 집합을 생성하는 map 함수와 동일한 키와 연관된 값을 merge하는 reduce 함수를 지정합니다.

[논문 리뷰] The Google File System(GFS) (2)

paperhadoop

6 분 소요

저자들은 2003년에 대규모 분산 데이터 집약적 애플리케이션을 위한 확장 가능한 분산 파일 시스템인 Goole File System을 설계하고 구현했습니다. 분산 파일 시스템의 가장 중요하면서 시초가 되는 논문이기에 리뷰해보았습니다. 두번째 글입니다.

[논문 리뷰] The Google File System(GFS) (1)

paperhadoop

8 분 소요

저자들은 2003년에 대규모 분산 데이터 집약적 애플리케이션을 위한 확장 가능한 분산 파일 시스템인 Goole File System을 설계하고 구현했습니다. 분산 파일 시스템의 가장 중요하면서 시초가 되는 논문이기에 리뷰해보았습니다.

[논문 리뷰] Deep Residual Learning for Image Recognition

paper

2 분 소요

그 유명한 ResNet은 152층까지 네트워크를 쌓아올리는 데 성공하며 ILSVRC 2015 classification competition에서 우승하게 됩니다. 그리고 처음으로 3.57%의 top5 에러율을 달성했습니다.

[논문 리뷰] Learning under Concept Drift: an Overview

papermlops

4 분 소요

컨셉 드리프트는 시간이 지남에 따라 예기치 않은 방식으로 변경되는 것을 의미합니다. 서베이 논문 형식으로 작성되었고, 이것을 리뷰해보았습니다.

[논문 리뷰] A Data Quality-Driven View of MLOps

papermlops

4 분 소요

이 논문은 데이터 품질의 다양한 측면이 ML development 단계를 통해 어떻게 전파되는지를 고민했습니다. 이에 대한 요약 및 리뷰입니다.