학습을 위한 가장 쉬운 하둡 설치방법은?

2019. 4. 17. 06:30

이전 포스팅에서 하둡을 맥에 설치해보았다. ( 참조: 맥(mac)에서 하둡(hadoop) 설치하기 ) 하지만 설치하기도 어렵고, 설치가 완료된 후에도 하둡 위에 hue 등 다른 서비스들을 올리는 것도 쉽지 않았다. 단순한 학습과 테스트를 위해서라면 좀 더 쉽게 하둡을 설치하는 방법도 있다.

오늘은 학습을 위한 가장 쉬운 하둡 설치방법에 대해서 알아보도록 하겠다.


하둡_설치



하둡 환경에서의 데이터 분석을 위해 PC에 설치하는 것은 괴장히 번거럽고, 오류 해결도 어렵다. 이런 문제를 이미 공감해서일까. 호튼웍스에서는 하둡을 테스트해 볼 수 있는 샌드박스 형태의 가상환경을 제공하고 있다. 호튼웍스는  오픈 소스 플랫폼들을 엮어 빅데이터 분석을 위한 오픈소스 아키텍쳐를 만들어 기업에 서비스해 주는 업체이다.


가상환경을 이용하기 때문에, 가상머신 프로그램을 설치해야 한다. 가상머신 프로그램은 내 PC안에서 일부 자원을 할당하여 새로운 PC환경을 실행할 수 있도록 도와주는 프로그램이다. 맥을 이용하면서 윈도우를 이용하고 싶을 때도 사용이 가능하다. 맥 안에서 가상환경을 하나 띄워놓고 그 안에 윈도우를 설치하는 것이다.


호튼웍스에서는 Virtualbox, VMWare, Docker의 3가지 가상머신 프로그램을 지원한다. 전에 VirtualBox를 사용한 적이 있어, VirtualBox를 설치하여 진행하기로 하였다. VirtualBox 홈페이지에 방문하면 무료로 설치할 수 있다. VMWare 30일 trial버전을 홈페이지에서 설치할 수 있다.

( 참조: VirtualBox 홈페이지 바로가기 )


VirtualBox
( VirtualBox 홈페에지 )


가상머신 프로그램을 설치하였다면, 이제 하둡 가상환경을 다운받도록 하자. 하둡 가상환경은 아래 주소에서 다운받을 수 있다. 버전이 2가지가 있는데 하둡과 스파크, 하이브 등이 설치돼 있는 HDP버전을 다운 받았다. 파일 용량이 무려 20GB나 된다. 

( 참조: 하둡 가상환경 다운받으러 가기 )


하둡_가상환경_다운

( 2가지 버전이 있다 )


이제 가상머신 프로그램을 실행시키고, 해당 파일을 로드하면 된다. 가상파일을 로드하는 중에 작업이 진행되지 않고, 계속 멈추는 현상이 발견됐다. 이것저것 해보다가 원인을 알게 됐다.



추천포스트



필자의 PC는 AMD CPU를 사용하고 있는데, 여기에는 AMD-V라는 기능이 있다. 이는 'AMD 라이젠 가상화'라는 기능으로 가상머신을 사용할 때는 Enabled로 바꿔줘야 하는 듯 하다. 해당 설정은 BIOS의 CPU설정에서 바꿀 수 있다. SVM MODE를 Enabled로 바꾸면 된다.


AMD-V

( BIOS설정에서 변경할 수 있다 )


이제 정상적으로 잘 작동이 된다. 완료되면 VirtualBox에서 아래와 같은 화면을 볼 수 있다.



가상머신_실행완료

( 가상머신 실행 완료)


이제 VirtualBox의 주소에 해당하는 http://localhost:1080에 접속해보자. 아래와 같이 하둡3.0에 접속된 것을 알 수 있다.


하둡_접속완료

( 하둡 접속완료 )



오늘은 이렇게 학습을 위한 가장 쉬운 하둡 설치방법인 가상환경을 이용하는 방법에 대해서 알아보았다. AMD CPU를 사용하는 경우에 SVM Mode를 Enabled로 바꾸는 것을 잊지 말자. 특히 VirtualBox에서는 별다른 에러 메시지 없이 진행바가 멈춰있기 때문에 원인을 알기가 어렵다.


오픈API를 사용하면 다양한 재미있는 일들을 해 볼 수 있다. 파이썬을 활용한 오픈API 사용이 궁금하다면 아래 글을 참조해보자.

(참조: 오픈API를 활용한 사례는 어떤 것들이 있을까?)


태그 :

댓글()