[bigdata] hadoop + hive를 이용한 데이터 분석 예제Hive를 통해 한달 30,000,000건, 연 360,000,000건에 달하는 데이터를 저장하고 맵리듀싱 하는 SQL 성능 측정을 진행하였다.hive는 meta table을 생성하고 delimiter를 이용하여 파일을 분석하기 때문에 특정 delimiter를 (\t) 두고 로그 파일포맷을 meta table column과 매칭하여 생성 한 뒤 테스트를 진행하였다.테스트 서버 구성ubuntu server 총 5대server 0 (master) : NameNode, SecondaryNameNode, ResourceManager, QuorumPeerMain server 1 : DataNode, NodeManager, QuorumPeerMai..
chukwa란? open source의 hadoop 기반으로 개발된 대규모 분산 시스템을 모니터링을위한 데이터 로그 수집 시스템입니다. 즉 chukwa를 설치하기 위해선 선수과목으로 hadoop에 대한 기반 지식 및 설치를 필요로 합니다. [ 그림1 ] Chukwa Architecture 이제 chukwa를 설치 해 보도록 하겠습니다. 설치환경 OS : Ubuntu 12.04 ( Linux Mint 12 Lisa ) Hadoop : 1.0.3 Chukwa : 0.4.0 Download URL URL : http://ftp.daum.net/apache/hadoop/chukwa/chukwa-0.4.0/chukwa-0.4.0.tar.gz step 1. 소스 설치 소스를 다운로드 받은 뒤 압축을 푼다. $ wg..
[hadoop] 설치 및 clustering 셋팅이번주에는 Cloud Distribute File System으로 각광을 받고있는 Hadoop에 대해 알아보고 설치 및 분산 저장을 해보려고 합니다. Hadoop은 크게 총 두가지의 요소로 나누어져 있습니다. 1. HDFS 2. Map Reduce 입력한 데이터를 지정한 DataNode에 Distribution 및 Replication을 수행합니다. ( HDFS ) [ 그림1 ] HDFS Architecture ( http://hadoop.apache.org 참조 ) HDFS로 분산하여 저장하였다면 이제 데이터를 가져오기 위하여 데이터를 조회하고 원하는 데이터를 가져오기 위한 연산을 처리하는 과정을 MapReduce라고 합니다. [ 그림2 ] MapRedu..
- Total
- Today
- Yesterday
- maven
- 스페인 여행
- 여행
- mongoDB
- 조동사
- 해외여행
- 영문법
- 도덕경
- k8s
- Python Django
- memcached
- Business English
- Python
- 가정법
- hdfs
- 다낭
- hadoop
- ubuntu
- 비교구문
- AWS
- PostgreSQL
- 영작
- redis
- 비지니스 영어
- it
- NGINX
- 대명사 구문
- nodejs
- 베트남
- JBOSS
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |