RDD와 비정형데이터(feat. Spark)
데이터프레임은 가공이된, 검색/변경등이 편리한 '고수준' 데이터를 다룬다. 비정형 데이터와 같이 '저수준' 데이터 다룰때는 데이터를 우선 가공해야 관리하기 편하다. *빅데이터의 종류 정형데이터 : RDD(Resilient Distributed Dataset), Excel, etc. 비정형데이터 : Text, Image, Video, etc. 반정형데이터 : XML, JSON, CSV, etc. *RDD란 스파크의 가장 초기부터 도입된 가장 기초적인 데이터 구조이다. - Resilient(회복력 있는, 불변한) Distributed(분산된) Dataset(데이터셋) - RDD는 기본적으로 불변의 특성을 가지기 때문에 처리과정을 하기 위해서는 기본 RDD에서 새로운 RDD를 만들 수 밖에 없다. - 여러 과..
2021. 9. 15.