YARN : Jobtracker, tasktracker 대체
reducer 개수 만큼 결과 파일 생성
shuffle and sort
- map side
- reduce side
API
- Mapper
->setup 64MB당 한번
->cleanup 64MB당 한번
-> map key/value당 한번
- Reducer
-> setup 한 번
-> cleanup 한 번
-> reduce key마다 실행
Partitioner 파티션 번호 리턴
Job : mapper 개수는 정의 안함. 인풋크기로 나누면 됨
Writable : de/ serialization
WritableComparable : 모든 Key. 정렬해야해서
Serialization : object -> byte stream
Deserialization : byte stream -> object
프로세스 통신, 데이터 저장에 쓰임
RPC serialization
- compact
- fast
- extensible
- interoperable
'클라우드 컴퓨팅' 카테고리의 다른 글
4-2 MapReduce Algorithm Design part3 (0) | 2021.11.18 |
---|---|
MapReduce Alorithm Design part2 (0) | 2021.11.11 |
MapReduce소개 (0) | 2021.10.21 |
하둡 실습 (0) | 2021.10.14 |
Hadoop HDFS (1) | 2021.10.08 |