본문 바로가기
Hadoop

MapReduce 파일 설정(feat. Hadoop)

by 집못가는프로그래머 2021. 9. 8.

HDFS는 기본적으로 데이터를 저장하기 위함이다.

그래서 입출력 데이터는 hdfs 영역 안에서 보관되어야 한다.

그러나 Map, Reduce를 위한 파일은 데이터 저장을 위함이 아니므로 hdfs 영역안에 있지 않아도 된다.

하지만 그러기 위해선 사전 설정을 몇가지 해주어야 한다.

 

1. start-all.sh 

기본적으로 HDFS가 실행중이어야 한다

 

2. (mapper.py, reducer.py가 들어있는 디렉토리에서 실행) hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-3.2.2.jar -files mapper.py,reducer.py -input /user/data/txt/* -output /user/data/out -mapper mapper.py -reducer reducer.py

* HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-3.2.2.jar (하둡 입출력 관련 압축파일의 경로)

* -files mapper.py, reducer.py  (mapper.py와 reducer.py 등록)

* -input /user/data/txt/*   (입력파일의 HDFS 영역 경로)

* -output /user/data/out   (출력파일의 HDFS 영역 경로)

* -mapper mapper.py       (mapper 파일 경로)

* -reducer reducer.py       (reducer 파일 경로)

 

위와 같은 결과가 나오면 성공

'Hadoop' 카테고리의 다른 글

HiveQL 명령어(feat. Hive shell)  (0) 2021.09.09
Hive 설치(Feat.Ubuntu)  (0) 2021.09.09
MapReduce  (0) 2021.09.08
Jupyter Notebook 저장 및 Linux 터미널로 실행(feat. Ubuntu)  (1) 2021.09.08
Linux에 Jupyter Notebook 설치(feat.Ubuntu)  (1) 2021.09.08

댓글