Hadoop38 Spark 설치 1. https://spark.apache.org/downloads.html Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that, Spark 2.x is pre-built with Scala 2.11 except version 2.4.2, which is pre-built with Scala 2.12. Spar spark.apache.org 위 링크 접속 2. Spark 최신버전, 자신의 Hadoop에 맞는 버전을 선택하고 밑줄친 부분의 파일을.. 2021. 9. 14. Spark(스파크) Spark - Hadoop Eco-system - 하둡의 hdfs(저장), MapReduce(분석/ 처리) 중에 MapReduce의 상위호환이라고 생각하면 된다. - MapReduce는 파일기반의 처리방식으로 인해 속도가 매우 느리다. - Spark는 MapReduce 대비 속도가 대략 100배 빠른 시스템이다 - Spark는 In-Memory 처리방식을 가지고 있다. - 데이터의 분산/저장은 그대로 hdfs가 맡아서 하고 MapReduce의 역할을 Spark가 대채한다. - Hive가 SQL을 사용해서 MapReduce를 대체하는 것처럼 Spark또한 SQL을 지원한다. - Spark는 파일만 가지고 처리하는 것이 아닌 Streaming도 지원을 한다.(즉 전달되는 데이터의 흐름또한 처리할 수 있다) .. 2021. 9. 14. Beeline을 이용한 Hiveserver2 접근(feat. Ubuntu) Hiveserver2는 Hadoop의 주요 기능인 HDFS와 MapReducer에 외부로부터 쉬운 접근을 위한 인터페이스 같은 존재이다. Hiveserver2를 이용하면 외부에서도 Hadoop에 접근이 가능하다. 외부에서 접근할 때 우리는 Beeline 툴을 사용할 것이다. 1. beeline -u jdbc:hive2://localhost:10000/userdb (뜻 : hive2를 Java Database Connectivity를 이용하여 localhost 10000번의 userdb에 접근한다, 이때 10000번은 우리가 사전에 지정했던 숫자, userdb는 만들었던 Database이다.) *beeline이 있는 디렉토리에서 실행한다. (나의 경우 hive-3.1.2/bin/) 만약 에러가 발생한다면 .. 2021. 9. 10. Hiveserver2(Feat. Ubuntu) 기존에 Hive shell을 이용한 작업은 로컬에서만 작업을 하는 방식이다. 하지만 외부에서 hadoop에 접근을 하여 일처리를 해야 한다면 hiveserver2(외부 접근 기능)을 이용한다. hiveserver2로 url을 만들어놓면 예를들어 외부에서 Python을 이용하여 해당 url에 접근 및 일처리가 가능하다. 1. cd ~/hive-3.1.2/bin hive-3.1.2/bin 디렉토리로 이동 *hive-3.1.2는 사용하는 hive 버전에 따라 다르게 작성. 2. hiveserver2 hiveserver2를 입력하고 엔터(하둡 시스템이 running상태여야함, 아니라면 start-all.sh 먼저 실행) **만약 위와같이 실행이 되지 않고 에러가 뜬다면 log파일을 확인해보자 ls -al /tm.. 2021. 9. 9. HiveQL 명령어(feat. Hive shell) *Hive로 접속하는 법은 간단하게 터미널에 hive 입력 1. show databases; 데이터베이스 출력 2. create database userdb; userdb라는 데이터베이스 생성 3. use userdb; 위에서 만든 userdb 데이터베이스를 사용 선언 4. 테이블 안의 컬럼 : eid(int), name(str), salary(string), destination(string) 'no_auto_compaction' = 'true' 안해주면 입출력할때 에러가 생김 5. show tables; 테이블 리스트를 보여준다 6. LOAD DATA LOCAL INPATH 'employee.csv' OVERWRITE INTO TABLE employee; employee테이블에 로컬 파일의 emplo.. 2021. 9. 9. Hive 설치(Feat.Ubuntu) # Hive란 Hadoop에서 데이터 저장을 담당하는 HDFS와 처리/ 분석을 담당하는 MapReducer의 처리를 도와주는 Echo- System이다 # Hive 3.1.2 버전을 설치하는 방법이다. # Hive는 기본적으로 Apache 재단에서 배포한다. 1. https://downloads.apache.org/hive/hive-3.1.2/ Index of /hive/hive-3.1.2 downloads.apache.org 2. 위 링크에 접속하여(혹은 자신이 원하는 버전의 링크) bin.tar.gz 파일을 다운로드 한다. 3. tar -xvzf apache-hive-3.1.2-bin.tar.gz 위에서 다운받은 설치 파일을 압축해제 한다. 4. mv apache-hive-3.1.2-bin hive-.. 2021. 9. 9. MapReduce 파일 설정(feat. Hadoop) HDFS는 기본적으로 데이터를 저장하기 위함이다. 그래서 입출력 데이터는 hdfs 영역 안에서 보관되어야 한다. 그러나 Map, Reduce를 위한 파일은 데이터 저장을 위함이 아니므로 hdfs 영역안에 있지 않아도 된다. 하지만 그러기 위해선 사전 설정을 몇가지 해주어야 한다. 1. start-all.sh 기본적으로 HDFS가 실행중이어야 한다 2. (mapper.py, reducer.py가 들어있는 디렉토리에서 실행) hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-3.2.2.jar -files mapper.py,reducer.py -input /user/data/txt/* -output /user/data/out -mapper map.. 2021. 9. 8. MapReduce HDFS가 데이터 저장에 관련된 업무를 한다면 MapReduce, Spark 등은 데이터 분석 / 처리를 담당한다. 1. 개념 - MapReduce란 빅데이터를 처리하는 방법론이다. 더보기 맵리듀스(MapReduce)는 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크다 이 프레임워크는 페타바이트 이상의 대용량 데이터를 신뢰도가 낮은 컴퓨터로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해서 개발되었다 이 프레임워크는 함수형 프로그래밍에서 일반적으로 사용되는 Map과 Reduce라는 함수 기반으로 주로 구성된다 현재 MapReduce는 Java와 C++, 그리고 기타 언어에서 적용이 가능하도록 작성되었다 대표적으로 아파치 하둡에.. 2021. 9. 8. Jupyter Notebook 저장 및 Linux 터미널로 실행(feat. Ubuntu) 1. Jupyter Notebook 왼쪽 상단의 'File' -> 'Download as' -> 'Python (.py)' *주피터 노트북으로 작성한 코드가 .py 파일로 만들어진다 *다운로드된 경로 : 로컬의 Download 파일에 저장 2. Download 디렉토리에 다운받은 .py 파일을 실행해본다 python3 파일경로 2021. 9. 8. 이전 1 2 3 4 5 다음