클라우드 컴퓨팅

Mapreduce Algorithm Design

춤추는수달 2021. 11. 5. 07:30

Architecture

YARN : Jobtracker, tasktracker 대체

reducer 개수 만큼 결과 파일 생성

 

shuffle and sort

- map side

- reduce side

 

 

API

- Mapper 

  ->setup 64MB당 한번

  ->cleanup 64MB당 한번

  -> map key/value당 한번

- Reducer

  -> setup 한 번

  -> cleanup 한 번

  -> reduce key마다 실행

Partitioner 파티션 번호 리턴

Job : mapper 개수는 정의 안함. 인풋크기로 나누면 됨  

 

 

Writable : de/ serialization 

WritableComparable : 모든 Key. 정렬해야해서

 

Serialization : object -> byte stream

Deserialization : byte stream -> object

프로세스 통신, 데이터 저장에 쓰임

 

RPC serialization

 - compact

 - fast

 - extensible

 - interoperable

'클라우드 컴퓨팅' 카테고리의 다른 글

4-2 MapReduce Algorithm Design part3  (0) 2021.11.18
MapReduce Alorithm Design part2  (0) 2021.11.11
MapReduce소개  (0) 2021.10.21
하둡 실습  (0) 2021.10.14
Hadoop HDFS  (1) 2021.10.08