클라우드 컴퓨팅
Mapreduce Algorithm Design
춤추는수달
2021. 11. 5. 07:30
YARN : Jobtracker, tasktracker 대체
reducer 개수 만큼 결과 파일 생성
shuffle and sort
- map side
- reduce side
API
- Mapper
->setup 64MB당 한번
->cleanup 64MB당 한번
-> map key/value당 한번
- Reducer
-> setup 한 번
-> cleanup 한 번
-> reduce key마다 실행
Partitioner 파티션 번호 리턴
Job : mapper 개수는 정의 안함. 인풋크기로 나누면 됨
Writable : de/ serialization
WritableComparable : 모든 Key. 정렬해야해서
Serialization : object -> byte stream
Deserialization : byte stream -> object
프로세스 통신, 데이터 저장에 쓰임
RPC serialization
- compact
- fast
- extensible
- interoperable