Big Data 18

Phoenix - Salted Tables

HBase의 sequential write(순차적 쓰기)에서 row key 가 만약 일정하게 증가하게 되면, region server 에 hotspotting (region 서버 한 곳에 집중적으로 쓰기 작업이 이루어지는 경우) 을 유발시킬 수 있다.Row key 를 salting 함으로써 이러한 문제점을 완화 시킬 수 있다. Phoenix 는 특정 table에 salting byte를 이용하여 row key 를 salting 하는 방법을 제공한다.Table 생성 시 “SALT_BUCKETS” 이라는 속성에 값(1~256)을 할당하여 사용할 수 있따. CREATE TABLE table (a_key VARCHAR PRIMARY KEY, a_col VARCHAR) SALT_BUCKETS = 20; Salte..

Phoenix - Secondary Index

Phoenix의 document 를 기반으로 작성한 보조 인덱스에 대한 내용이다. 뒷 부분으로 갈 수록 이해하기 어려워 뒷부분은 거의 document 내용 그대로이다. HBase 에서는 primary row key 에 의해 정렬된 단일 인덱스만 존재함primary row key 이외의 방법으로 레코드에 접근하는건 잠재적으로 table 을 full scan 하는 위험이 있음secondary indexing (인덱스로 형성한 column 이나 expression) 이 새로운 축을 따라 검색이나 range scan을 가능하게 함으로써 row key를 대체 covered indexes (index 페이지에서 row 식별자를 통해 index column 외의 데이터는 실제 데이터에 접근) 일종의 보조 인덱스ind..

HDFS safemode 설정

간혹 namenode 실행할 때, safemode 가 on 상태로 되어있어 namenode 가 실행되지 않는 경우가 있다. 이럴 땐 강제로 safemode 를 off 상태로 변경해주어야 한다.Safemode 끄기12345678910111213141516171819202122232425262728293031$ hdfs dfsadmin -safemode leave Usage: hdfs [--config confdir] [--loglevel loglevel] COMMANDUsage: hadoop [--config confdir] COMMANDwhere COMMAND is one of: namenode -format format the DFS filesystem secondarynamenode run the D..

Big Data/HDFS 2016.03.11

Apache Spark 설치

* Putty로 1번 서버로 접속할 시 SSH Tunnels 설정에 L8081 -> localhost:8081과 L4040 -> localhost:4040을 추가하여 저장 후 연결하도록 한다. ----- 1번, 2번, 3번 서버에서 동일하게 수행한다.------ 1. system에서 spark 계정을 만든 후 hdfs 계정으로 HDFS의 /user/spark 폴더를 만들고 $ chmod spark:hdfs로 해당 폴더에 spark 계정 권한 부여한다. root 계정에서 $ adduser spark -g hdfs 후 $ passwd spark 해서 passwd 설정 hdfs 계정에서 $ hadoop fs -mkdir /user/spark 후 $ hadoop fs -chmod spark:hdfs /user/..

Big Data/Spark 2014.10.01

HDP 2.1 설치

[ 설치 전 확인 사항 ] 1) Java process kill $ ps -ef | grep java 로 확인 2) putty 접속 설정 tunneling 으로 L8080 -> HOST:8080 추가 [ 설치 ] 1. VM클러스터 내 각 호스트에서 root계정으로 다음을 실시 * password-less 설정 - $ ssh-keygen 후 엔터키, 엔터키, 엔터키 - $ ssh-copy-id -i .ssh/id_rsa.pub 후 연결 확인 * iptables off - $ chkconfig iptables off or service iptables stop - $ /etc/init.d/iptables stop * selinux disable - $ setenforce 0 - $ vim /etc/yum/p..

Big Data/Amabari 2014.07.10

Oozie workflow 에서 mapred.job.priority 설정

Oozie workflow 에서 job 의 priority를 설정할 때, oozie.launcher.mapred.job.priority ${priority} mapred.job.priority ${priority} 구글링 해보면 위와 같이 property를 추가 하면 된다고 나온다. 하지만, mapreduce action에만 해당 되는 이야기인지 java action에서는 해당 property가 정상적으로 적용되지 않았다. oozie launcher까지는 property들이 잘 적용되지만 막상 mapreduce까지 내려가면 위 propety들이 전부 누락되어버린다. 그래서 java option 에 아래와 같이 직접 추가해주니 mapred.job.priority 정보가 mapreduce까지 잘 적용되는 것..

Big Data/Oozie 2014.06.19