[논문 리뷰] MapReduce: Simplified Data Processing on Large Clusters
paperhadoop
맵리듀스는 2004년 구글에서 발표한 빅데이터를 처리하고 생성하기 위한 프로그래밍 모델입니다. 키,값을 처리하여 중간 키,값 쌍 집합을 생성하는 map 함수와 동일한 키와 연관된 값을 merge하는 reduce 함수를 지정합니다.
paperhadoop
맵리듀스는 2004년 구글에서 발표한 빅데이터를 처리하고 생성하기 위한 프로그래밍 모델입니다. 키,값을 처리하여 중간 키,값 쌍 집합을 생성하는 map 함수와 동일한 키와 연관된 값을 merge하는 reduce 함수를 지정합니다.
paperhadoop
저자들은 2003년에 대규모 분산 데이터 집약적 애플리케이션을 위한 확장 가능한 분산 파일 시스템인 Goole File System을 설계하고 구현했습니다. 분산 파일 시스템의 가장 중요하면서 시초가 되는 논문이기에 리뷰해보았습니다. 두번째 글입니다.
paperhadoop
저자들은 2003년에 대규모 분산 데이터 집약적 애플리케이션을 위한 확장 가능한 분산 파일 시스템인 Goole File System을 설계하고 구현했습니다. 분산 파일 시스템의 가장 중요하면서 시초가 되는 논문이기에 리뷰해보았습니다.
tips
Hortonworks Data Platform(HDP)는 분산 스토리지 및 대규모 멀티 소스 데이터 세트 처리를 위한 오픈소스 프레임워크입니다. 도커 내 hdp를 설치해봅시다.
papermlops
저자들은 label이 없는 test 데이터에 대한 배치 정규화 층의 특성을 이용하여 model drift estimation 방법을 제안합니다. 또한 input 데이터의 샘플링 오류를 해결하기 위해 각 표현 계층에 행렬 분해를 채택했습니다.
python
파이썬 코딩의 기술 개정 2판 책에 대한 내용입니다. 컴프리헨션, 대입식, 제너레이터, 이터레이션, yield, yield from, throw, itertools
docker
도커는 특정 프로그램의 배포 및 관리를 단순하게 해주는 오픈소스 플랫폼입니다. 이번 글에서는 도커를 이용해 간단하게 파이썬 가상환경 이미지를 배포해봅니다.
tips
AWS에서 가상의 환경을 작업하던 중, 내 PC에서 구동해 보았으면 싶어서 설치를 진행해 보았습니다. 윈도우10 환경에서 wsl2를 설치해봅니다.