[논문 리뷰] Annotating Columns with Pre-trained Language Models
paper
DODUO는 테이블의 전체를 입력으로 받아 테이블의 여러 컬럼 정보들을 이용하여 컬럼 유형과 컬럼 관계 예측을 출력하는 트랜스포머 기반 멀티태스크 학습 아키텍처입니다. 본 논문을 리뷰해보았습니다.
paper
DODUO는 테이블의 전체를 입력으로 받아 테이블의 여러 컬럼 정보들을 이용하여 컬럼 유형과 컬럼 관계 예측을 출력하는 트랜스포머 기반 멀티태스크 학습 아키텍처입니다. 본 논문을 리뷰해보았습니다.
paper
퀘이사(quasar) 클러스터 관리자는 각 워크로드에 대한 성능 및 QoS 제약 조건을 충족하면서 리소스 활용을 극대화해줍니다. 퀘이사 논문을 개인 공부 및 리뷰를 위해 써보았습니다.
paper
PowerGraph는 Gather, Apply, Scatter 기능을 구현하여 그래프 처리를 하는 방법을 제안했습니다. large scale graph processing 분야에서 꼭 읽어봐야 할 논문 중 하나라고 생각됩니다.
paper
GraphLab은 각 정점이 인접한 정점과 에지의 데이터를 읽고 쓸 수 있는 순차적 공유 메모리 추상화입니다. large scale graph processing 분야에서 꼭 읽어봐야 할 논문 중 하나라고 생각됩니다.
paper
GraphX는 그래프 처리를 할때 기존 맵리듀스같은 분산 데이터 프레임의 한계를 능가하기 위해 개발되었습니다. 즉 GraphX는 그래프와 그래프 병렬 계산을 위한 스파크의 새로운 구성 요소이며, 이에 대한 논문을 정리해보았습니다.
paper
Pregel은 대규모 그래프의 분산 처리를 해결하기 위해, 확장 가능하고(scalable) 장애 허용(fault tolerance) 플랫폼입니다. 정확한 이해를 위해 논문을 구체적으로 정리해보았습니다.
paper
카프카는 발행 구독 모델을 구현한 분산 메시징 시스템으로, 실시간 데이터 피드를 관리하기 위해 통일된 높은 처리량, 낮은 지연시간을 지닌 플랫폼을 제공하는 것을 목표로 합니다. 이에 기본이 되는 논문을 리뷰해보았습니다.
paperspark
RDD는 스파크(spark)의 기본 데이터 구조입니다. 스파크를 이해하기 위해 RDD 원리를 이해하는 것이 필수이기 때문에 논문을 요약 및 정리해보았습니다. (2)
paperspark
RDD는 스파크(spark)의 기본 데이터 구조입니다. 스파크를 이해하기 위해 RDD 원리를 이해하는 것이 필수이기 때문에 논문을 요약 및 정리해보았습니다. (1)
paperhadoop
맵리듀스는 2004년 구글에서 발표한 빅데이터를 처리하고 생성하기 위한 프로그래밍 모델입니다. 키,값을 처리하여 중간 키,값 쌍 집합을 생성하는 map 함수와 동일한 키와 연관된 값을 merge하는 reduce 함수를 지정합니다.
paperhadoop
저자들은 2003년에 대규모 분산 데이터 집약적 애플리케이션을 위한 확장 가능한 분산 파일 시스템인 Goole File System을 설계하고 구현했습니다. 분산 파일 시스템의 가장 중요하면서 시초가 되는 논문이기에 리뷰해보았습니다. 두번째 글입니다.
paperhadoop
저자들은 2003년에 대규모 분산 데이터 집약적 애플리케이션을 위한 확장 가능한 분산 파일 시스템인 Goole File System을 설계하고 구현했습니다. 분산 파일 시스템의 가장 중요하면서 시초가 되는 논문이기에 리뷰해보았습니다.
papermlops
저자들은 label이 없는 test 데이터에 대한 배치 정규화 층의 특성을 이용하여 model drift estimation 방법을 제안합니다. 또한 input 데이터의 샘플링 오류를 해결하기 위해 각 표현 계층에 행렬 분해를 채택했습니다.
papermlops
Adaptive Windowing (ADWIN)은 윈도우 기반 드리프트 감지 기법입니다. 하지만, 이 기법은 메모리 사용량이 많이 요구되는 단점이 있습니다. 이 논문은 병렬화를 통해 극복하려고 했습니다.
papermlops
FHDDM은 sliding window와 hoeffding을 이용하여 계산량을 줄이고 concept drift를 더 잘 detect하는 기법입니다.
paper
배치 정규화는 SOTA 이미지 분류기에서 대다수 사용하고 있었습니다. NF-Resnet은 배치 정규화의 단점들을 명시하고 이를 대체해 당시 SOTA인 EfficientNet과 경쟁을 이뤘습니다.
paper
ResNeXt는 ResNet 성능을 한 단계 향상시켜 ILSVRC 2016 대회에서 2등을 차지한 모델입니다.
paper
SENet은 Squeeze와 Excitation이라는 연산작업으로 정보의 압축하고 재조정하여 ILSVRC 2017에서 우승합니다.
paper
NFNet은 imagenet 데이터셋에서 배치 정규화없이 ResNet을 학습시켰습니다. 그 결과, imagenet에서 SOTA를 갱신한 모델이 되었습니다.
paper
그 유명한 ResNet은 152층까지 네트워크를 쌓아올리는 데 성공하며 ILSVRC 2015 classification competition에서 우승하게 됩니다. 그리고 처음으로 3.57%의 top5 에러율을 달성했습니다.
papermlops
컨셉 드리프트는 시간이 지남에 따라 예기치 않은 방식으로 변경되는 것을 의미합니다. 서베이 논문 형식으로 작성되었고, 이것을 리뷰해보았습니다.
papermlops
이 논문은 데이터 품질의 다양한 측면이 ML development 단계를 통해 어떻게 전파되는지를 고민했습니다. 이에 대한 요약 및 리뷰입니다.