'Toku DB'에 해당되는 글 1건

  1. 2013.07.01 MySQL 클론의 역습 - 4 (TokuDB 편) (2)

이번에 소개할 MySQL 클론은 TokuDB인데, 엄밀히 말해서 TokuDB는 MySQL의 클론이라고는 할 수가 없다.

TokuDB는 MySQL이나 MariaDB에서 사용할 수 있는 새로운 Storage Engine인데, 이게 또 상당히 특이하고 흥미로운 Storage Engine이다.


4. TokuDB

TokuDB는 TokuTek사에서 개발한 Database Storage Engine으로 MySQL, MariaDB에서 사용할 수 있다.

TokuDB는 처음에는 Open source가 아닌 쉐어웨어로 시작했다. 40G까지는 무료로 사용할 수 있고, 그 이상은 년 400달러 정도의 금액을 지불하는 라이센스 정책을 쓰다가 얼마지나지 않아 30일까지만 무료로 사용할 수 있도록 라이센스 정책이 바뀌었다. 그러다가 최근 다시 Open source로 라이센스가 바뀌었는데, 1년사이에 라이센스 정책이 두번이나 바뀌어서 살짝 불안한 감이 있다.

그래서 현재 라이센스 정책은 MySQL처럼 Community Version은 open source로 Enterprise Version은 커머셜로 두가지 라이센스 정책을 가지고 있다.

Community와 Enterprise의 차이점도 MySQL가 흡사한데, 프로그램 자체에는 없는 듯 하고 다만 Enterprise는 테크니컬 서포트가 추가되는 형태인듯 하다.

 

1. 특징

- 데이터 Insert 속도

InnoDB는 Primary key를 데이터의 물리적인 저장 주소로 사용한다. 그래서 auto increment 값을 primary key로 설정하면 굉장히 빠른 데이터 insert 속도를 낼 수 있다. 하지만 auto increment 값이 아닌 다른 값(예를 들어 varchar나 순서가 뒤죽박죽인 int 데이터)을 pk로 잡을 경우 데이터 insert 속도는 곤두박질 칠수 밖에 없는 구조를 가지고 있다. 반면 TokuDB는 pk의 데이터 유형에 상관 없이 빠르고 일정한 insert 속도를 낼 수 있다.


- 데이터 indexing

TokuDB는 index 구조로 B-Tree가 아닌 TokuTec사에서 특허를 낸 Fractal-Tree 구조를 사용하고 있는데, 이 Fractal-Tree의 알고리즘이 MySQL이나 기타 DB에서 흔히 사용되는 B-Tree보다 성능이 뛰어나고 단편화가 일어나지 않는 구조라고 한다.

그래서 index 기반의 query들(select, update, delete)에서 특히 더 좋은 성능을 볼 수 있다.

뿐만 아니라 단편화(Fragmentation)가 일어나지 않는 특징 때문에 장시간이 지나도 성능 하락이 발생하지 않는다.

B-Tree는 처음 Tree가 구성되어 있을 때에는 양쪽 Balance가 잘 맞기 때문에 빠르게 이진탐색이 가능하지만, 중간 중간 index가 추가, 삭제, 변경이 됨에 따라 양쪽 Balance가 조금씩 무너지는 단편화가 발생하게 되는데, 단편화가 심해질 경우, DB의 성능도 급격하게 떨어지기 때문에 주기적으로 몇시간 또는 몇일에 걸친 index rebuild나 optimize가 필요하다.

하지만, Fractal-Tree는 단편화가 일어나지 않기 때문에 성능 저하도 발생하지 않고, 주기적인 optimize도 필요가 없다. (이 부분은 테스트를 해보지 않아서 전적으로 TokuTec사의 주장을 바탕으로 작성함)


- 데이터 압축

사실 이 특징이 TokuDB의 가장 큰 장점이라고 할 수 있다. TokuDB는 두가지 압축 레벨을 제공하고 있는데, 아무런 설정 없이 데이블을 생성하면 기본 압축 레벨이 적용 된다. 기본 압축일 경우 데이터의 용량은 InnoDB에 비해 3~6배까지 데이터의 용량을 줄어든다. 또한 최대 압축일 경우 약 10배의 압축결과를 보여주는데, 이건 눈으로 보지 않으면 믿기지 않은 결과 일것이다. (실제로 테스트 해본 결과 정말 믿기 힘들정도로 용량이 들어든다.)

데이터는 압축 할 수 있다고 치고, 그럼 압축된 데이터 때문에 query 성능이 떨어지지 않을까 생각했는데 그렇지도 않다. 앞에서도 언급했지만, InnoDB보다 전반적으로 빠른 query 성능을 보여준다. 심지어 최대 압축일때도 InnoDB보다 빠르다. 물론 cpu를 조금 더 쓰기는 하지만, 생각만큼 cpu load가 올라가지 않아서 테스트 내내 놀라움을 금치 못했다.


- Flash Drive(SSD) 최적화

B-Tree는 작은 블럭단위로 write가 발생하지만, Fractal-Tree는 큰 블럭단위로 write가 발생하는데, 이는 SSD의 수명이나 성능에 많은 영향을 미친다. (TokuDB가 SSD에 보다 더 적합하다고 볼 수 있다.)


- Hot Schema, Hot Index 기능

"Hot"이라는 말은 여기서는 실시간이라는 뜻으로 이해하는 것이 좋을 듯 하다.

InnoDB는 새로운 컬럼이나 인덱스를 추가하기 위해 서비스를 중단(Table Lock이 걸리기 때문)해야 하지만, TokuDB는 서비스중에 Table Lock 없이 새로운 컬럼이나 인덱스를 추가 할 수 있다.


- 빠른 복구 기능

InnoDB는 table 이 깨졌을 경우 이를 복구하는데 수분에서 몇시간까지의 시간이 필요한다. TokuDB는 몇초만에 데이터 복구가 가능하다.


- 개발 편의성

TokuDB는 MySQL과 MariaDB에서 사용할 수 있는 Storage Engine으로 사용법은 MySQL이나 MariaDB와 똑같으며, 기존 DBMS가 제공하는 함수기능들을 모두 사용할 수 있다. 

TokuDB를 사용하기 위해 따로 학습이 거의 필요 없고 다만, tokuDB Engine tunning을 위해 my.cnf에 사용할 수 있는 configuration 몇가지만 알면 된다.


2. 테스트 결과

약 3억건의 Record를 가지는 데이터를 CSV 파일로 준비해서 InnoDB와 TokuDB에 각각 Bulk insert, select query를 날리는 테스트를 진행했다. (CSV파일의 총 용량은 22G)


- InnoDB

a. Bulk insert에 걸린 총 시간: 49분 22초

b. insert 후 DB size: 15G

c. select count query에 걸린 시간: 53초

d. index key add에 걸린 시간: 18분 26초

e. 부하테스트 툴을 이용한 query test: 초당 약 500건 처리


- TokuDB (기본 압축 레벨)

a. Bulk insert에 걸린 총 시간: 106분 14초 (primary key가 auto_increment값이라서 그런지 InnoDB가 훨씬 빨랐음)

b. insert 후 DB size: 3.7G (용량이 약 1/4로 줄어듬)

c. select count query에 걸린 시간: 44초 (약간 성능 향상)

d. index key add 에 걸린 시간: 4분 49초 (상당히 빨라졌음)

e. 부하테스트 툴을 이용한 query test: 초당 약 700건 처리 (약 1.4배 향상)


- TokuDB (최대 압축 레벨)

a. Bulk insert에 걸린 총 시간: 105분 52초

b. insert 후 DB size: 1.9G (InnoDB대비 8배 이상)

c. select count query에 걸린 시간: 44초

d. index key add 에 걸린 시간: 5분 27초

e. 부하테스트 툴을 이용한 query test: 초당 약 700건 처리

** 특이사항: 기본 압축 레벨에 비해 성능 하락은 거의 없지만, cpu load가 조금 더 올라갔고, Bulk insert 중 알 수 없는 이유로 2차례 Connection이 끊어짐, 그리고 약 1천건 정도의 데이터가 들어가지 않음 (최대 압축 레벨은 서비스에 쓰기에는 좀 불안 할지도.....)


- 테스트 결과에 대한 추가 설명

InnoDB와 TokuDB의 Insert 시간을 비교해 보면 2배 이상의 차이가 나는데, 이는 auto_increment 값을 primary key로 사용하고 있는 상태이기 때문으로 보이며, 순차적인 insert가 일어나는 경우에는 InnoDB가 배 이상의 속도를 내는 것으로 보인다.

하지만 auto_increment 데이터가 없는 상태에서 1천만건의 데이터 insert 속도를 비교했을 때는 InnoDB는 약 3분, TokuDB는 약 48초 정도가 걸렸는데, 데이터의 건수가 많아질수록 그 차이는 벌어질 것이다.

DB의 용량을 살펴 보면 TokuDB가 InnoDB에 비해 4배 이상 작으며, 최대 압축일 경우 8배까지 그 차이가 벌어지는 것을 볼수 있다.

부하테스트 툴을 이용한 query 테스트는 전반적으로 TokuDB가 우수한 것을 볼 수 있는데, 부하테스트의 경우 텟그트 환경중 네트워크 속도가 받혀 주지 않아 TokuDB의 경우는 실제로 위의 값보다 충분히 더 많은 초당 처리 갯수를 보일 수 있을 것으로 예상된다.

최대 압축 테스트중 2회 정도 Connection이 끊기는 현상이 발생했고, insert 후 record 갯수가 1천개 정도 적었는데, 이것이 최대 압축 라이브러리의 문제인지, 아니면 다른 외부요인이 있었는지는 확인하지 못했다.


Posted by 얌노트