스파크 PySpark 추천 시스템 구현 가이드
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 pyspark를 이용한 간단한 추천 시스템 만드는 것에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 pyspark를 이용한 간단한 추천 시스템 만드는 것에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 아파치 카프카를 이용한 정형 스트리밍 예제에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 스트림 처리 및 정형 스트리밍의 기초 개념 정리에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 클러스터에서 스파크 실행 방법에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 RDD 고급 연산에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 그래프, 서브그래프, 모티프에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 분산형 공유 변수에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 RDD 고급 연산에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 RDD에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 dataset에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 스파크 SQL(데이터베이스, 함수, 서브쿼리)에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 스파크 SQL(실행방법, 테이블, 뷰)에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 데이터소스에 대해 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. 데이터 소스에 대한 모드, 옵션들을 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 데이터소스에 대해 알아봅니다.
spark
조인 표현식 작성, join type별 유지 로우 차이, 스몰 테이블 broadcast 힌트로 셔플 최소화하는 실무 패턴
spark
그룹 계층 요약은 rollup, 다차원 조합은 cube, 컬럼 값 재구성은 pivot—Spark 집계 연산 선택 기준과 성능 고려사항
spark
count·sum 등 단일 집계부터 groupBy·window·rollup·cube 선택 기준과 요약 레벨 설계 시 셔플/성능 고려 포인트
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 다양한 데이터 타입을 다루는 내용입니다.
spark
Column API와 lit/alias/regex 함수로 문자열 정제, isin/contains 필터링, pad/trim·정규식 추출 등 변환 조합 레시피
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 정형 API인 DataFrame의 트랜스포메이션의 기본 연산을 자세히 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 정형 API인 DataFrame, SQL, Dataset의 기본 연산을 자세히 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 정형 API인 DataFrame, SQL, Dataset을 자세히 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 dataset, 정형 스트리밍, 머신러닝, RDD를 자세히 알아봅니다.
spark
Spark The Definitive Guide 책을 중심으로 스파크를 요약 및 정리해보았습니다. spark 예제를 통해 DataFrame, 스키마, sql, 계보를 자세히 알아봅니다.
spark
클러스터 드라이버·익스큐터 역할, RDD→DataFrame 추상화, lazy evaluation·좁은/넓은 종속성과 셔플까지 Spark 기본 실행 흐름
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 10. Virtual Memory (1)
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 9. Main Memory (1)
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 8. Deadlocks
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 7. Synchronization Examples
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 6. Synchronization Tools
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 5. CPU Scheduling (1)
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 4. Threads & Concurrency
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 3. Processes (1)
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 2. Operating System Structures
OS
본 글은 Operating System Concepts 10th (운영체제) 책을 보며 내용을 개인 공부에 목적으로 정리했습니다. 책 내용들을 최대한 이해하기 위해 거의 모든 내용을 담고 있습니다. 1. Introduction (1)
OS
본 글은 (KOCW) 운영체제, 이화여자대학교 반효경 교수님의 강의를 듣고 개인 공부에 목적으로 내용을 요약 및 정리했습니다. 또한 주니온 박사님의 운영체제 공룡책 강의를 듣고 내용을 보충했습니다.
OS
본 글은 (KOCW) 운영체제, 이화여자대학교 반효경 교수님의 강의를 듣고 개인 공부에 목적으로 내용을 요약 및 정리했습니다. 또한 주니온 박사님의 운영체제 공룡책 강의를 듣고 내용을 보충했습니다.
OS
본 글은 (KOCW) 운영체제, 이화여자대학교 반효경 교수님의 강의를 듣고 개인 공부에 목적으로 내용을 요약 및 정리했습니다. 또한 주니온 박사님의 운영체제 공룡책 강의를 듣고 내용을 보충했습니다.
OS
본 글은 (KOCW) 운영체제, 이화여자대학교 반효경 교수님의 강의를 듣고 개인 공부에 목적으로 내용을 요약 및 정리했습니다. 또한 주니온 박사님의 운영체제 공룡책 강의를 듣고 내용을 보충했습니다.
OS
본 글은 (KOCW) 운영체제, 이화여자대학교 반효경 교수님의 강의를 듣고 개인 공부에 목적으로 내용을 요약 및 정리했습니다. 또한 주니온 박사님의 운영체제 공룡책 강의를 듣고 내용을 보충했습니다.
OS
본 글은 (KOCW) 운영체제, 이화여자대학교 반효경 교수님의 강의를 듣고 개인 공부에 목적으로 내용을 요약 및 정리했습니다. 또한 주니온 박사님의 운영체제 공룡책 강의를 듣고 내용을 보충했습니다.
OS
본 글은 (KOCW) 운영체제, 이화여자대학교 반효경 교수님의 강의를 듣고 개인 공부에 목적으로 내용을 요약 및 정리했습니다. 또한 주니온 박사님의 운영체제 공룡책 강의를 듣고 내용을 보충했습니다.
OS
본 글은 (KOCW) 운영체제, 이화여자대학교 반효경 교수님의 강의를 듣고 개인 공부에 목적으로 내용을 요약 및 정리했습니다. 또한 주니온 박사님의 운영체제 공룡책 강의를 듣고 내용을 보충했습니다.
OS
본 글은 (KOCW) 운영체제, 이화여자대학교 반효경 교수님의 강의를 듣고 개인 공부에 목적으로 내용을 요약 및 정리했습니다. 또한 주니온 박사님의 운영체제 공룡책 강의를 듣고 내용을 보충했습니다.
OS
본 글은 (KOCW) 운영체제, 이화여자대학교 반효경 교수님의 강의를 듣고 개인 공부에 목적으로 내용을 요약 및 정리했습니다. 또한 주니온 박사님의 운영체제 공룡책 강의를 듣고 내용을 보충했습니다.
paper
DODUO는 테이블의 전체를 입력으로 받아 테이블의 여러 컬럼 정보들을 이용하여 컬럼 유형과 컬럼 관계 예측을 출력하는 트랜스포머 기반 멀티태스크 학습 아키텍처입니다. 본 논문을 리뷰해보았습니다.
paper
퀘이사(quasar) 클러스터 관리자는 각 워크로드에 대한 성능 및 QoS 제약 조건을 충족하면서 리소스 활용을 극대화해줍니다. 퀘이사 논문을 개인 공부 및 리뷰를 위해 써보았습니다.
paper
PowerGraph는 Gather, Apply, Scatter 기능을 구현하여 그래프 처리를 하는 방법을 제안했습니다. large scale graph processing 분야에서 꼭 읽어봐야 할 논문 중 하나라고 생각됩니다.
paper
GraphLab은 각 정점이 인접한 정점과 에지의 데이터를 읽고 쓸 수 있는 순차적 공유 메모리 추상화입니다. large scale graph processing 분야에서 꼭 읽어봐야 할 논문 중 하나라고 생각됩니다.
paper
GraphX는 그래프 처리를 할때 기존 맵리듀스같은 분산 데이터 프레임의 한계를 능가하기 위해 개발되었습니다. 즉 GraphX는 그래프와 그래프 병렬 계산을 위한 스파크의 새로운 구성 요소이며, 이에 대한 논문을 정리해보았습니다.
paper
Pregel은 대규모 그래프의 분산 처리를 해결하기 위해, 확장 가능하고(scalable) 장애 허용(fault tolerance) 플랫폼입니다. 정확한 이해를 위해 논문을 구체적으로 정리해보았습니다.
paper
카프카는 발행 구독 모델을 구현한 분산 메시징 시스템으로, 실시간 데이터 피드를 관리하기 위해 통일된 높은 처리량, 낮은 지연시간을 지닌 플랫폼을 제공하는 것을 목표로 합니다. 이에 기본이 되는 논문을 리뷰해보았습니다.
paper
RDD는 스파크(spark)의 기본 데이터 구조입니다. 스파크를 이해하기 위해 RDD 원리를 이해하는 것이 필수이기 때문에 논문을 요약 및 정리해보았습니다.
paper
맵리듀스는 2004년 구글에서 발표한 빅데이터를 처리하고 생성하기 위한 프로그래밍 모델입니다. 키,값을 처리하여 중간 키,값 쌍 집합을 생성하는 map 함수와 동일한 키와 연관된 값을 merge하는 reduce 함수를 지정합니다.
paper
저자들은 2003년에 대규모 분산 데이터 집약적 애플리케이션을 위한 확장 가능한 분산 파일 시스템인 Goole File System을 설계하고 구현했습니다. 분산 파일 시스템의 가장 중요하면서 시초가 되는 논문이기에 리뷰해보았습니다.
papermlops
저자들은 label이 없는 test 데이터에 대한 배치 정규화 층의 특성을 이용하여 model drift estimation 방법을 제안합니다. 또한 input 데이터의 샘플링 오류를 해결하기 위해 각 표현 계층에 행렬 분해를 채택했습니다.
paper
Adaptive Windowing (ADWIN)은 윈도우 기반 드리프트 감지 기법입니다. 하지만, 이 기법은 메모리 사용량이 많이 요구되는 단점이 있습니다. 이 논문은 병렬화를 통해 극복하려고 했습니다.
papermlops
FHDDM은 sliding window와 hoeffding을 이용하여 계산량을 줄이고 concept drift를 더 잘 detect하는 기법입니다.
paper
배치 정규화는 SOTA 이미지 분류기에서 대다수 사용하고 있었습니다. NF-Resnet은 배치 정규화의 단점들을 명시하고 이를 대체해 당시 SOTA인 EfficientNet과 경쟁을 이뤘습니다.
paper
ResNeXt는 ResNet 성능을 한 단계 향상시켜 ILSVRC 2016 대회에서 2등을 차지한 모델입니다.
paper
SENet은 Squeeze와 Excitation이라는 연산작업으로 정보의 압축하고 재조정하여 ILSVRC 2017에서 우승합니다.
paper
NFNet은 imagenet 데이터셋에서 배치 정규화없이 ResNet을 학습시켰습니다. 그 결과, imagenet에서 SOTA를 갱신한 모델이 되었습니다.
paper
그 유명한 ResNet은 152층까지 네트워크를 쌓아올리는 데 성공하며 ILSVRC 2015 classification competition에서 우승하게 됩니다. 그리고 처음으로 3.57%의 top5 에러율을 달성했습니다.
paper
컨셉 드리프트는 시간이 지남에 따라 예기치 않은 방식으로 변경되는 것을 의미합니다. 서베이 논문 형식으로 작성되었고, 이것을 리뷰해보았습니다.
paper
이 논문은 데이터 품질의 다양한 측면이 ML development 단계를 통해 어떻게 전파되는지를 고민했습니다. 이에 대한 요약 및 리뷰입니다.
tipshadoop
M1 macOS에서 JDK 확인→SSH 무암호 설정→Hadoop/HDFS 포맷→Spark 실행까지 단일 노드 개발 환경 구성 절차
tips
정밀 터치패드 지원 여부 확인 후 드라이버 설치, 제스처/감도 옵션 활성화, 크롬·창 전환·개발 작업 효율을 높이는 핵심 단축키 정리
tipsdocker
Ubuntu apt 저장소 구성→엔진 설치·도커 그룹 권한·hello-world 실행, Windows는 Docker Desktop·WSL2 통합까지 비교 정리
tips
우분투를 여러 번 포맷하면서 다시금 정리할 필요성을 느꼈습니다. 제가 쓰는 환경에 대해 처음부터 끝까지 모든 것을 다루겠습니다.
tips
Docker 기반 HDP 샌드박스 이미지 다운로드부터 메모리/포트 설정, Ambari로 HDFS·YARN·Hive 서비스 기동 확인 단계별 정리
tips
Windows10에서 WSL2 활성화→커널 업데이트→Ubuntu 설치 후 사용자·패키지·파일시스템·GPU 연동(옵션)까지 초기 설정 절차
tips
Ubuntu 20.04에서 NVIDIA 드라이버→CUDA 11.x→cuDNN→PyTorch까지 버전 호환 문제 없이 설치·검증하는 절차와 오류 예방 체크리스트
tips
Windows10에서 Anaconda→NVIDIA Driver→CUDA 11.x→cuDNN→가상환경 순으로 TensorFlow·PyTorch GPU 세팅하고 버전 호환 검증하는 과정
tips
느려진 VSCode를 기본 상태로 되돌리기 위해 사용자 폴더·Roaming 캐시·확장 흔적을 백업 후 제거하는 2단계 복원 가이드
tips
KoNLPy 형태소 분석기를 사용하기 위해 JDK·JPype 버전 맞춤, 환경변수(JAVA_HOME) 설정과 pip 설치 오류 해결 방법 정리
tips
Ubuntu/WSL·Windows에서 Git 설치 후 전역 user/email, SSH 키/credential 캐시까지 초기 설정을 완료하는 실무 시작 가이드
tips
테스트 자동화·디버깅·라이브 리로드·가독성·문법 검사 등 워크플로 속도를 올리는 VSCode 확장 12개 핵심 기능 요약
tips
Python·Jupyter·Git 워크플로를 가속하는 VSCode 확장 14개: 자동완성, 타입 검사, 버전관리, 협업·시각화 중심 추천
tips
모드 전환, 셀 추가/삭제, 다중 실행·커서·코드 일괄 편집 등 생산성을 높이는 필수·고급 단축키 정리
tips
Windows10에서 CUDA 11.0 설치 후 nvidia-smi·Python 확인·PyTorch/TensorFlow 테스트로 GPU 동작 점검하는 체크리스트
tips
Windows10에서 CUDA 호환표 확인 후 conda·pip 중 선택해 PyTorch 특정 버전을 설치하고 import torch로 GPU 인식 검증
tips
맑은고딕 폰트 등록과 matplotlib 한글/음수 기호 깨짐을 동시에 해결하는 플랫폼별 설정 스니펫
tips
TensorFlow GPU 실행을 위한 CUDA·cuDNN 버전 선정, 환경변수(PATH) 구성과 tf.config.list_physical_devices(‘GPU’)로 검증하는 절차
cs231n
본 글은 2022년 5월에 강의한 스탠포드 대학의 Attention and Transformers 2022년 강의를 듣고 정리한 내용입니다. attention, self-attention, transformer 등이 그 예입니다.
cs231n
본 글은 2022년 5월에 강의한 스탠포드 대학의 Attention and Transformers 2022년 강의를 듣고 정리한 내용입니다. seq2seq2, attention, image captioning, transformer 등이 그 예입니다.
cs231n
본 글은 2022년 4월에 강의한 스탠포드 대학의 Recurrent Neural Networks 2022년 강의를 듣고 정리한 내용입니다. Lecture 10 RNN, LSTM 등이 그 예입니다.
cs231n
본 글은 2022년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2022년 강의를 듣고 정리한 Object Detection에 대한 내용입니다.
cs231n
본 글은 2022년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2022년 강의를 듣고 정리한 semantic segmentation에 대한 내용입니다.
cs231n
본 글은 2022년 4월에 강의한 스탠포드 대학의 Recurrent Neural Networks 2022년 강의를 듣고 정리한 내용입니다. Lecture 10 RNN, LSTM 등이 그 예입니다.
cs231n
본 글은 2021년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2021년 강의를 듣고 정리한 내용입니다. Lecture8 신경망 학습 중 규제, 하이퍼파라미터에 대해 정리했습니다.
cs231n
본 글은 2021년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2021년 강의를 듣고 정리한 내용입니다. Lecture8 신경망 학습 중 옵티마이저, 학습률에 대해 정리했습니다.
cs231n
본 글은 2021년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2021년 강의를 듣고 정리한 내용입니다. Lecture7 신경망 학습 중 데이터 전처리부터 전이 학습까지에 대해 정리했습니다.
cs231n
본 글은 2021년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2021년 강의를 듣고 정리한 내용입니다. Lecture7 신경망 학습 중 활성화 함수에 대해 정리했습니다.
cs231n
본 글은 2021년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2021년 강의를 듣고 정리한 내용입니다. Lecture6 소프트웨어, 특히 pytorch에 대해 정리했습니다.
cs231n
본 글은 2021년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2021년 강의를 듣고 정리한 내용입니다. Lecture4 신경망과 역전파 알고리즘에 대해 정리했습니다.
cs231n
본 글은 2021년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2021년 강의를 듣고 정리한 내용입니다. Lecture3 손실함수에 대해 정리했습니다.
cs231n
본 글은 2021년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2021년 강의를 듣고 정리한 내용입니다. Lecture3 옵티마이저에 대해 정리했습니다.
cs231n
본 글은 2021년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2021년 강의를 듣고 정리한 내용입니다. Lecture5 합성곱 신경망에 대해 정리했습니다.
cs231n
본 글은 2021년 4월에 강의한 스탠포드 대학의 Convolutional Neural Networks for Visual Recognition 2021년 강의를 듣고 정리한 내용입니다. Lecture2 이미지 분류에 대해 정리했습니다.
R_ML
2021년 제 3회 빅데이터분석기사 실기를 위한 문제풀이 내용입니다. - 4단원. 빅데이터 결과해석
R_ML
2021년 제 3회 빅데이터분석기사 실기를 위한 문제풀이 내용입니다. - 3단원. 빅데이터 모델링
R_ML
2021년 제 3회 빅데이터분석기사 실기를 위한 문제풀이 내용입니다. - 2단원. 빅데이터 탐색
R_ML
2021년 제 3회 빅데이터분석기사 실기를 위한 문제풀이 내용입니다. - 1단원. 빅데이터 분석 기획
R_ML
2021년 제 3회 빅데이터분석기사 실기를 위한 문제풀이 내용입니다.
R_ML
2021년 제 3회 빅데이터분석기사 실기를 위한 문제풀이 내용입니다. - 1~21번
R_ML
2021년 제 3회 빅데이터분석기사 실기를 위한 기출문제풀이 내용입니다.
R_ML
본 글은 빅데이터분석기사 실기 작업형에 대비하여 요약 및 실습한 것을 작성한 글입니다. 기출문제의 데이터는 https://github.com/ingu627/BigDataAnalysis에 데이터 셋을 남겨놨습니다.
R_ML
본 글은 빅데이터분석기사 실기 작업형에 대비하여 요약 및 실습한 것을 작성한 글입니다. 기출문제의 데이터는 https://github.com/ingu627/BigDataAnalysis에 데이터 셋을 남겨놨습니다.
R_ML
본 글은 빅데이터분석기사 실기 작업형에 대비하여 요약 및 실습한 것을 작성한 글입니다. 기출문제의 데이터는 https://github.com/ingu627/BigDataAnalysis에 데이터 셋을 남겨놨습니다.
R_ML
본 글은 빅데이터분석기사 실기 작업형에 대비하여 요약 및 실습한 것을 작성한 글입니다. 기출문제의 데이터는 https://github.com/ingu627/BigDataAnalysis에 데이터 셋을 남겨놨습니다.
R_ML
본 글은 빅데이터분석기사 실기 작업형에 대비하여 요약 및 실습한 것을 작성한 글입니다. 기출문제의 데이터는 https://github.com/ingu627/BigDataAnalysis에 데이터 셋을 남겨놨습니다.
R_ML
본 글은 빅데이터분석기사 실기 작업형에 대비하여 요약 및 실습한 것을 작성한 글입니다. 기출문제의 데이터는 https://github.com/ingu627/BigDataAnalysis에 데이터 셋을 남겨놨습니다.
error
Graphviz ExecutableNotFound 발생 시 패키지 설치, PATH 등록, platform 별 확인 방법
error
TensorFlow2에서 tf.gradients 제거로 인한 오류 발생 시 GradientTape 기반 재작성 가이드
error
Linux에서 venv 생성 실패(권한/누락 패키지) 발생 시 의존 패키지 설치 및 권한 정비
error
CLI에서 zip/unzip 사용 중 권한·경로·인코딩 문제 발생 시 점검 및 해결 절차
error
R 패키지 설치 시 Permission denied 오류 원인(라이브러리 경로/권한)과 수정 전략
error
TensorFlow 학습 중 Your input ran out of data 경고 발생 조건과 데이터 제너레이터 수정법
error
tensorflow.keras 모듈 로드 실패 시 환경 충돌/버전 문제 진단 및 패키지 재설치 절차
error
Keras get_config 임포트 실패의 버전/네임스페이스 원인과 모듈 재정렬 및 업그레이드 방법
error
Tensor -> NumPy 변환 시 NotImplementedError 발생 원인(그래프 모드/디바이스)과 안전한 변환 방법
error
Conda NonMatchingChecksumError 발생 시 캐시 정리·미러 변경·채널 재구성 절차
error
Jupyter Notebook 실행 중 Kernel died와 SelectIOLoop AttributeError 발생 시 재설치 및 ipykernel 초기화 대응 요약
SQL
실무 적용 및 SQL 코테를 위한 자료입니다.
SQL
실무 적용 및 SQL 코테를 위한 자료입니다.
SQL
실무 적용 및 SQL 코테를 위한 자료입니다.
SQL
실무 적용 및 SQL 코테를 위한 자료입니다.
SQL
실무 적용 및 SQL 코테를 위한 자료입니다.
SQL
실무 적용 및 SQL 코테를 위한 자료입니다.
SQL
실무 적용 및 SQL 코테를 위한 자료입니다.
SQL
SQLD, 정보처리기사 실기 작업형 대비 또는 실무 적용을 위한 기본 내용입니다.
SQL
SQLD, 정보처리기사 실기 작업형 대비 또는 실무 적용을 위한 심화 내용입니다.
python
파이썬 코딩의 기술 개정 2판 책에 대한 내용입니다. 클래스, 인터페이스, 제너릭, 믹스인, collections
python
파이썬 코딩의 기술 개정 2판 책에 대한 내용입니다. 컴프리헨션, 대입식, 제너레이터, 이터레이션, yield, yield from, throw, itertools
python
파이썬 코딩의 기술 개정 2판 책에 대한 내용입니다. try, exception, 언패킹, 타입 애너테이션, 클로저, 위치 인자, args, kwargs, 데코레이터
python
파이썬 코딩의 기술 개정 2판 책에 대한 내용입니다. 시퀀스, 슬라이싱, 스트라이드, 언패킹, key, 딕셔너리, in, get, defaultdict, missing
python
파이썬 코딩의 기술 개정 2판 책에 대한 내용입니다. PEP 8 style, f-문자열, 도우미 함수, 대입, enumerate, zip, 반복문, 대입식…
python
Titanic 예제로 Series/DataFrame 구조, 인덱싱·정제·GroupBy·피벗·조인·집계 패턴과 자주 하는 실수 방지 TIP
python
분포/범주/관계/행렬 플롯 선택 기준과 팔레트·FacetGrid·스타일 설정으로 탐색형 데이터 시각화 흐름 구축
python
Figure/Axes 개념 이해 후 기본 플롯, 축/범례/폰트/레이아웃 조정 및 겹침·회전·한글 폰트 문제 해결 패턴
keras
텍스트 시퀀스 샘플링, 잠재 공간 압축(오토인코더), 합성 스타일 트랜스퍼 파이프라인 핵심 단계 요약
keras
Sequential 한계 극복하는 DAG 모델 구성, 조기 종료·체크포인트·TensorBoard로 실험 가시화/안정화
keras
텍스트 벡터화, 임베딩 학습, 순환 구조(LSTM) 장점과 시퀀스 분류/생성 기본 패턴 정리
keras
패딩·스트라이드·필터로 특징 계층화, overfitting 완화를 위한 증강(ImageDataGenerator) 전략 정리
keras
훈련/검증 분리 의미, 편향·분산 균형, 드롭아웃·가중치 규제·데이터 증강 적용 포인트
keras
입력 텐서 준비, 모델 정의(층 스택), 손실·옵티마이저 선택, 훈련·검증 루프와 과적합 신호 확인 절차
keras
텐서 차원/형상, 연산 그래프와 자동미분 흐름, 가중치 업데이트 수학을 직관 위주로 해부
keras
AI→ML→DL 계층 관계, 대표 활용 분야, 데이터·표현 학습 핵심 개념을 구조도로 정리해 방향 감 잡기
llm
N×M 통합 지옥을 끝내고 에이전트·도구 연결을 표준화하는 MCP의 핵심 개념, 아키텍처, 생태계, 보안까지 한 번 정리해본다.
llm
청킹(Chunking)이란 AI가 방대한 문서의 내용을 정확하고 효율적으로 검색할 수 있도록 의미 있는 작은 단위로 분할하는 핵심 과정이다.
llm
기존 RAG의 한계를 넘어선 GraphRAG를 Neo4j로 구현하는 방법, 단계별로 따라 해본다.
llm
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 생성형 언어 모델의 능력을 외부의 검증 가능한 지식 소스와 연결하여 강화하는 아키텍처 패턴이다. 이 접근법은 전적으로 사전 훈련된 데이터에만 의존하는 모델의 내재적 한계를 해결하기 위해 고안되었다.
llm
LangGraph는 기존 LangChain의 한계를 뛰어넘어 복잡한 AI 워크플로우를 그래프 구조로 설계하고 구현할 수 있게 해주는 혁신적인 프레임워크입니다.
llm
프루닝(Pruning), 양자화(Quantization), 지식 증류(Knowledge Distillation), 리랭킹(Reranking), 파라미터 공유(Parameter Sharing) 등
llm
벡터 데이터베이스의 개념, 특징, 주요 종류(Pinecone, Milvus, Weaviate 등) 비교 및 사용 사례별 선택 가이드를 제공합니다. AI 및 RAG 아키텍처의 핵심 기술을 알아보세요.
code
Lightning Module·Trainer 구조로 학습 루프/로깅 추상화하고 W&B 연동으로 실험 추적·메트릭 시각화 자동화하는 워크플로
code
Split-Transform-Merge·grouped conv(cardinality) 설계를 ResNet과 비교 구현하며 파라미터 증가 없이 표현력 높이는 원리 분석
code
Bottleneck 구조 채널 압축·확장, identity/다운샘플 경로와 layer 스택 구성을 직접 코드로 구현해 깊은 네트워크 학습 안정 원리 이해
code
LeNet-5 계층(Conv·Subsampling·FC) 흐름을 CIFAR10에 적용하며 증강·학습 루프·역전파 과정을 PyTorch로 단계 구현
code
ResNet 잔차 블록 개념과 layer 동결·부분 해제·맞춤 Linear 헤드 교체·학습률 전략으로 소규모 FashionMNIST를 효율 미세조정
code
ImageNet 우승 모델 AlexNet의 LRN·드롭아웃·데이터 증식 아이디어를 Fashion/CIFAR 예제로 PyTorch로 모듈별 분해 구현
web
REST 아키텍처의 6대 원칙, URI/HTTP 설계 모범 사례, FastAPI CRUD 구현과 대안 아키텍처 비교까지 한 번에 정리한다.
web
REST, GraphQL, gRPC 비교부터 FastAPI 비동기/스트리밍, 보안, 버전관리, 캐싱, 문서화, 운영 전략까지, 프로덕션급 API 개발의 모든 것을 한 번 정리해본다.
web
본 글은 패스트캠퍼스의 한 번에 끝내는 파이썬 웹 개발 초격차 패키지 강의를 개인 실습하여 정리했습니다. 문법 및 github 예제로 실습
web
본 글은 패스트캠퍼스의 한 번에 끝내는 파이썬 웹 개발 초격차 패키지 강의를 개인 실습하여 정리했습니다.
web
본 글은 패스트캠퍼스의 한 번에 끝내는 파이썬 웹 개발 초격차 패키지 강의를 개인 실습하여 정리했습니다.
hands_on
part 2 신경망과 딥러닝 부분을 개인공부를 목적으로 내용 요약 및 정리한 글입니다. - 합성곱 신경망을 사용한 컴퓨터 비전
hands_on
part 2 신경망과 딥러닝 부분을 개인공부를 목적으로 내용 요약 및 정리한 글입니다. - 텐서플로에서 데이터 적재와 전처리하기
hands_on
part 2 신경망과 딥러닝 부분을 개인공부를 목적으로 내용 요약 및 정리한 글입니다. - 텐서플로를 사용한 사용자 정의 모델과 훈련
hands_on
part 2 신경망과 딥러닝 부분을 개인공부를 목적으로 내용 요약 및 정리한 글입니다. - 심층 신경망 훈련하기
hands_on
part 2 신경망과 딥러닝 부분을 개인공부를 목적으로 내용 요약 및 정리한 글입니다. - 케라스를 사용한 인공 신경망 소개
survey_a
Chapter3_3. 통계적 추정 - 추정 개요, 점추정, 구간추정, Chapter3_4. 가설검정 - 검정통계량, Chapter3_5. 통계분석 - 교차분석, 분산분석, 상관분석, 회귀분석
survey_a
Chapter3_1. 기술통계 - 대푯값, 산포도, 비대칭도, Chapter3_2. 확률과 확률분포 - 확률 및 확률변수, 확률분포
survey_a
Chapter1_2. 자료수집방법 - 자료수집방법의 종류, Chapter1_3. 질문지 설계 및 조사관리 - 질문지의 설계, 자료의 정리
survey_a
Chapter1_2. 자료수집방법 - 자료수집방법의 종류, Chapter1_3. 질문지 설계 및 조사관리 - 질문지의 설계, 자료의 정리
survey_a
Chapter1_1. 사회과학적 방법 - 총설, 조사연구, 조사연구의 설계, 연구의 요소
docker
멀티 컨테이너 정의(Docker Compose) → L7 트래픽 게이트웨이(Ingress) → 상태 데이터 영속성(PV/PVC/StorageClass) → 관리형 쿠버네티스(EKS/GKE/AKS) 선택까지 필수 개념과 실전 예제를 단계별로 정리한다.
docker
개발 환경 불일치 문제를 해결하는 컨테이너 기술부터 대규모 배포를 자동화하는 쿠버네티스까지, 현대 개발의 핵심 3요소를 쉽고 명확하게 설명한다.
tipsdocker
Ubuntu apt 저장소 구성→엔진 설치·도커 그룹 권한·hello-world 실행, Windows는 Docker Desktop·WSL2 통합까지 비교 정리
docker
윈도우 프롬프트, 리눅스 터미널 등에서 사용되는 도커 명령어, 옵션들을 정리해보았습니다. pull, run, start, stop, rm
docker
도커는 특정 프로그램의 배포 및 관리를 단순하게 해주는 오픈소스 플랫폼입니다. 이번 글에서는 도커를 이용해 간단하게 파이썬 가상환경 이미지를 배포해봅니다.
git_blog
Git Blog에 구글 애널리틱스를 설정할 때, tracking_id를 UA-XXX로 해야 할지 G-XXX로 해야 할지 너무나 헷갈렸습니다. 나름 정리해서 헷갈림을 해소하려고 글을 남깁니다.
git_blog
Mathjax란 MathML, LaTeX 및 ASCIIMathML 마크 업을 사용하여 웹 브라우저에 수학 표기법을 표시하는 크로스 브라우저 JavaScript 라이브러리이다. 웹 사이트에서 수학식 표시가 가능하다.
git_blog
주피터 노트북 파일을 한번에 업로드하여 블로그 글에 보여주기
git_blog
YAML을 이용하여 글의 제목, 날짜, 카테고리, 태그, 레이아웃 등을 정의해봅니다.
git
실수 복구 관점으로 정리한 amend·reset·revert 차이와 안전한 롤백 전략, 워킹 디렉터리/스테이징 영역 다루기
git
Git 기본 워크플로우(add→commit→push)와 자주 쓰는 필수 명령의 의미·사용 패턴을 단계별로 정리한 입문 가이드
git
원격 저장소 연결부터 clone/pull/push 흐름과 .gitignore 구성 전략까지 협업 필수 명령 사용 패턴 정리
git
브랜치 생성·분기·병합(Merge) 전략과 충돌 최소화 워크플로우(branch/checkout/merge) 실전 베스트 프랙티스
papermlops
저자들은 label이 없는 test 데이터에 대한 배치 정규화 층의 특성을 이용하여 model drift estimation 방법을 제안합니다. 또한 input 데이터의 샘플링 오류를 해결하기 위해 각 표현 계층에 행렬 분해를 채택했습니다.
papermlops
FHDDM은 sliding window와 hoeffding을 이용하여 계산량을 줄이고 concept drift를 더 잘 detect하는 기법입니다.
mlops
Concept Drift Detection에 대한 기법들을 공부하면서 자연스레 나온 부등식들을 정리해보았습니다.
mlops
Concept Drift는 시간이 지남에 따라 데이터의 통계적인 특성이 변하는 것을 말합니다. 이에 학습된 모델은 자연스레 성능이 떨어지기 때문에 drift를 잘 감지해야 합니다. 감지하는 방법들이 무엇이 있는지 살펴봅니다.
DS
Distributed Systems Third edition by Maarten van Steen, Andrew S. Tanenbaum - cha3. Processes 3.1, 3.2, 3.3, 3.4
DS
Distributed Systems Third edition by Maarten van Steen, Andrew S. Tanenbaum - cha2. Architectures 2.1, 2.2, 2.3, 2.4
DS
Distributed Systems Third edition by Maarten van Steen, Andrew S. Tanenbaum - cha1. Introduction 1.1, 1.2, 1.3, 1.4
md
ipynb 파일이 존재하는 폴더로 갑니다. 해당 폴더에 마우스 커서를 대고 shift + 오른쪽버튼을 누릅니다. 여기에 PowerShell 창 열기를 클릭합니다.
md
헤딩·목록·강조·표·코드블록·각주·수식(MathJax)·토글·이미지/영상·색상/스타일 활용까지 자주 쓰는 Markdown + 최소 HTML 패턴 정리
java
OOP는 문제를 여러 개의 객체 단위로 나눠 작업하는 방식으로, 객체들이 서로 유기적으로 상호작용하는 프로그래밍 이론입니다. 상속, 다형성, 추상화, 캡슐화를 다뤘습니다.
java
java, 자바, 구조, 변수, 자료형, 제어문, 객체, 클래스, 상속, 오버라이딩, 오버로딩, 인터페이스, 다향성
diapp
Designing Data-Intensive Applications by Martin Kleppmann
diapp
Designing Data-Intensive Applications by Martin Kleppmann
tipshadoop
M1 macOS에서 JDK 확인→SSH 무암호 설정→Hadoop/HDFS 포맷→Spark 실행까지 단일 노드 개발 환경 구성 절차
hadoop
[Hadoop The Definitive Guide] 책을 중심으로 하둡의 얀(YARN)을 요약 및 정리해보았습니다. Apache YARN은 하둡의 클러스터 자원 관리 시스템입니다.
linux
생활 코딩 강의 내용을 요약 및 정리한 글입니다. - 기초문법, IO Redirection, shell, shell script