Spark : mapreduce가 iterative, interactive 한 작업에 성능상 이슈가 있어서 등장. 데이터 reuse.
RDD 사용.
RDD 개념.
Resilient Distributed Datasets: 스파크 기본 레코드. 변경 불가.
Transformation : Rdd를 통해 새로운 RDD 생성. Lineage 추적.
Persistence : 캐싱 기능. 개발자에게 맡김.
Fault tolerance(Resilient)) : lineage로 깨진 데이터 재생성 가능
Transformation & Action
lazy. Transformation을 Lineage로 관리하다가 Action을 만나야 실제 실행.
RDD는 어떻게 데이터를 계산하는지에 대한 명령으로 구성되었을지도?
Persistnce(Caching)
Spark 는 Action이 연속으로 나오면 RDD를 연속으로 다시 만들기 떄문에 힘듬.
그래서 RDD를 캐싱함. 어디에 캐싱할지는 정해줄 수 있음.
Transformation
Actions
SPARK 실습
'클라우드 컴퓨팅' 카테고리의 다른 글
4-2 MapReduce Algorithm Design part3 (0) | 2021.11.18 |
---|---|
MapReduce Alorithm Design part2 (0) | 2021.11.11 |
Mapreduce Algorithm Design (0) | 2021.11.05 |
MapReduce소개 (0) | 2021.10.21 |
하둡 실습 (0) | 2021.10.14 |