클라우드 컴퓨팅

Data Flow Languages Part3

춤추는수달 2021. 11. 25. 07:46

Spark : mapreduce가 iterative, interactive 한 작업에 성능상 이슈가 있어서 등장. 데이터 reuse.

RDD 사용.

 

RDD 개념.

Resilient Distributed Datasets: 스파크 기본 레코드. 변경 불가.

Transformation : Rdd를 통해 새로운 RDD 생성. Lineage 추적.

Persistence : 캐싱 기능. 개발자에게 맡김. 

Fault tolerance(Resilient)) : lineage로 깨진 데이터 재생성 가능

 

Transformation & Action

lazy. Transformation을 Lineage로 관리하다가 Action을 만나야 실제 실행.

RDD는 어떻게 데이터를 계산하는지에 대한 명령으로 구성되었을지도?

 

Persistnce(Caching) 

Spark 는 Action이 연속으로 나오면 RDD를 연속으로 다시 만들기 떄문에 힘듬.

그래서 RDD를 캐싱함. 어디에 캐싱할지는 정해줄 수 있음.

 

Transformation 

Actions

 

SPARK 실습

 

'클라우드 컴퓨팅' 카테고리의 다른 글

4-2 MapReduce Algorithm Design part3  (0) 2021.11.18
MapReduce Alorithm Design part2  (0) 2021.11.11
Mapreduce Algorithm Design  (0) 2021.11.05
MapReduce소개  (0) 2021.10.21
하둡 실습  (0) 2021.10.14