스파크 조인: 내부·외부·세미·안티·브로드캐스트 선택 가이드
spark
조인 표현식 작성, join type별 유지 로우 차이, 스몰 테이블 broadcast 힌트로 셔플 최소화하는 실무 패턴
spark
조인 표현식 작성, join type별 유지 로우 차이, 스몰 테이블 broadcast 힌트로 셔플 최소화하는 실무 패턴
spark
그룹 계층 요약은 rollup, 다차원 조합은 cube, 컬럼 값 재구성은 pivot—Spark 집계 연산 선택 기준과 성능 고려사항
spark
count·sum 등 단일 집계부터 groupBy·window·rollup·cube 선택 기준과 요약 레벨 설계 시 셔플/성능 고려 포인트
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 다양한 데이터 타입을 다루는 내용입니다.
spark
Column API와 lit/alias/regex 함수로 문자열 정제, isin/contains 필터링, pad/trim·정규식 추출 등 변환 조합 레시피
paper
카프카는 발행 구독 모델을 구현한 분산 메시징 시스템으로, 실시간 데이터 피드를 관리하기 위해 통일된 높은 처리량, 낮은 지연시간을 지닌 플랫폼을 제공하는 것을 목표로 합니다. 이에 기본이 되는 논문을 리뷰해보았습니다.
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 8. Deadlocks
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 정형 API인 DataFrame의 트랜스포메이션의 기본 연산을 자세히 알아봅니다.