[Spark] CSV, JSON, Parquet, ORC 데이터소스 읽고 쓰는 방법
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 데이터소스에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 데이터소스에 대해 알아봅니다.
docker
윈도우 프롬프트, 리눅스 터미널 등에서 사용되는 도커 명령어, 옵션들을 정리해보았습니다. pull, run, start, stop, rm
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 조인에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 그룹화에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 집계 함수에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 다양한 데이터 타입을 다루는 내용입니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 다양한 데이터 타입을 다루는 내용입니다.
paper
카프카는 발행 구독 모델을 구현한 분산 메시징 시스템으로, 실시간 데이터 피드를 관리하기 위해 통일된 높은 처리량, 낮은 지연시간을 지닌 플랫폼을 제공하는 것을 목표로 합니다. 이에 기본이 되는 논문을 리뷰해보았습니다.