선두적인 데이터 중심 조직에서 공통적으로 벌어질 수 있는 다섯가지 위험에 대해 이야기한다.
데이터 기반 기업들이 HPE의 Vertica advanced analytics를 이용해 그들의 빅데이터를 변환하고, 비즈니스 문제를 해결하며, 새로운 방식으로 가치를 찾아내는 방법을 Alice LaPlante의 "The Big Data Transformation"에서 알아보세요.
분석 데이터베이스는 점차 비즈니스의 빅데이터 기반 구조의 중요한 부분이 되어가고 있다. 특히 전통적인 관계형 데이터베이스에 비해 더 나은 성능과 확장성을 제공해, 비즈니스 사용자는 물론 데이터 분석가나 데이터 과학자들이 크고 복잡한 데이터에서 의미를 쉽게 찾을 수 있도록 도와준다.
하지만 당신의 회사가 매 분마다 수집하는 데이터 - 매 초가 아니라면 - 에서 지식과 의미를 찾아내기 위해 분석용 데이터베이스를 활용할 때, 일부 모범 사례들을 염두에 둘 필요가 있다. 당신의 빅데이터 조직이 성숙함에 따라 당신이 올바른 방향을 유지할 수 있도록, 이러한 분석용 데이터베이스를 활용하고 있는 선두적인 기업들이 당신이 피해야 할 다섯 가지 위험을 공유했다.
1. 분석용 데이터베이스 도구를 선택할 때 사용자들을 무시하지 말아라.
전세계 수백만명의 사람들이 온, 오프라인으로 연결되어서 자신들만의 유일한 상품을 만들고, 사고, 파는 Etsy에서 일하는 시니어 데이터베이스 엔지니어인 Chris Bohn, "CB"가 말하길 비즈니스 사용자들, 분석가들, 그리고 데이터 과학자들은 서로 매우 다른 사람들이다. 대부분, 데이터 과학자들은 하둡, 맵 리듀스, 스칼딩, 스파크 등으로 일하는 것을 편하게 생각하지만, 분석가들은 SQL 세상에 살고 있다. Bohn은 이렇게 말한다. "만약 당신이 사용자들이 경험해보지 않은 도구를 가져다 놓는다면, 그들은 그 도구를 사용하지 않을 것이다. 단순한 문제다."
Etsy는 분석용 데이터베이스를 선택하기 전에 최종 사용자들을 반드시 고려하도록 했다. 그리고 그 최종 사용자들이 대부분 분석가임이 밝혀졌다. 그래서 Etsy는 PostgreSQL과 같은 SQL 기반의 데이터베이스를 선택했다. 이 도구는 최종 사용자들에게 익숙한 도구였으며, 그들의 생산성을 증가시켜주었다.
2. 당신의 빅 데이터 조직을 시작할 때, 지나치게 크게 시작하지 말아라.
빅 데이터는 최근 많은 관심을 받고 있다. CEO들이 빅 데이터에 대해 비즈니스 기사에서 읽고, 제품 맞품 설계, 작업자들의 생산성 향상, 더 나은 제품 품질 등 모든 곳에 회사의 데이터를 사용하고 싶어한다. 하지만 너무 많은 회사들이 많은 예산과 그보다 더 큰 기대를 가지고 빅 데이터 활용을 위한 연구를 시작한다. 그들은 너무 많은 문제를 해결하려고 한다. 그리고, 18개월 후에는, 보여줄 결과는 거의 없다.
작게 생각하는 것이 더 현실성이 있다. 데이터를 좀 더 효율적으로 활용함으로써 해결할 수 있는 하나의 특정한 문제에 - 가능하면 보여줄 것이 많은 것으로 - 집중하라. 아주 기본적인 데이터 분석 툴로 - 엑셀로도 가능하다. - 문제를 정의하라. 가설을 세우고 그 가설을 테스트하기 위해 데이터를 분석하는 연습을 해보자. 기대한 것과 다른 결과가 나오더라도, 당신은 무언가를 배운 것이다. 수정하고 반복하라. 이 방법론으로 다른 프로젝트를 수행하고 또 수행하라. "그러면 멈출 수 없다는 것을 발견할 것이다. - 사례는 계속해서 나타날 것이다." HPE의 부사장이며 HPE 소프트웨어 빅 데이터 부서의 관리자인 Colin Mahony는 이렇게 단언한다.
데이터 저장소와 백업용 하드웨어, 소프트웨어 솔루션을 제공하는 회사의 수석 데이터 과학자였던 Larry Lancaster 역시 동의한다. "당신의 사업이 가지고 있는 문제를 찾아라." Lancaster가 조언한다. "뜨거운 쟁점을 찾아라. 그 문제를 해결하기 위해 새 간부를 고용하지 말고, 데이터 과학자를 고용하라."
3. 데이터 양의 증가를 과소평가하지 말아라.
거의 대부분의 빅 데이터 전문가들은 기대하지 못했던 데이터의 양에 대해 경고한다. 헬스 케어와 정보 기술의 교차점에서 활동하고 있는 회사인 Cerner 역시 예외는 아니었다. 켄자스 시티에 있는 Cerner의 건강 정보 기술(HIT) 솔루션은 세계적으로 20,000개 이상의 조직에서 사람들과 시스템들을 연결하고 있다.
Cerner가 2012년의 개념 증명 시기에 상당한 데이터 양 증가를 예상했지만, 데이터 증가량은 Cerner의 예상치를 훨씬 웃돌았다.
"당시 우리는 상당한 증가세를 예상했고, 심지어는 선형적인 증가를 예측한 것도 아니었다." Cerner의 엔터프라이즈 시스템 관리 부서장인 Dan Woicke가 말했다. "그렇긴 하지만, 우리는 우리가 얼마나 빨리 성장할 것인가 예상하지 못했다. 우리는 예상했던 것보다 2~3배는 더 많은 데이터를 가지고 있다."
교훈: 기대하지 못한 데이터 양을 감당할 수 있게 규모를 키울 수 있는 데이터베이스를 선택하라.
4. 당신의 어떤 데이터도 버리지 말아라.
많은 회사에서 하는 실수 중의 하나가 데이터를 모두 저장하지 않는다는 것이다. 보통 데이터가 오래되면 데이터가 유효하지 않다고 생각한다. 혹은 데이터를 어떻게 사용해야 할지 생각하지 못하고 무시한다. 이것은 아주 심각한 잘못이다. 미래에, 그 데이터들이 핵심적인 비즈니스 결정에 꼭 필요하다고 밝혀질 수도 있는 것이다.
"당신은 어떤게 필요할 지 알지 못한다." Etsy의 Bohn이 말했다.
오늘날 저장소와 데이터베이스 기술들은 데이터를 오랫동안 저장하는 비용을 값싸게 만들었다. 그렇데 왜 모든 것을 저장하지 않는가? 당신이 생성하는 데이터를 모두 수용할 수 있을 정도로 규모를 늘릴 수 있는 분석 데이터베이스를 찾아라. "데이터를 가지고 있는 안전한 방법이 있다면, 그것을 계속 유지하라." Bohn이 말한다. "나중에 그곳에서 금광을 찾을 수도 있을 것이다."
5. 융통성없고, 엔지니어 기반 시스템의 데이터 웨어하우스에 갇혀 있지 말아라.
Bohn에 의하면, 그가 빅 데이터 관련 업무를 하면서 배운 교훈 한가지가 있다: 당신의 데이터가 당신의 별이다. 그리고 이것이 당신의 데이터베이스 구매 의사 결정에 중요한 역할을 할 것이다.
"동일 장소에 있는 조직에서, 클라우드를 사용할 것인가? 아니면 실제 서버를 사용할 것인가?" Bohn이 묻는다. "이것은 중요한 문제다. 왜냐하면 데이터를 클라우드에 저장하려면 데이터들을 인터넷을 통해 보내야 한다. 이것은 빅 데이터 분석 시스템이 당신의 생산 시스템 바로 옆에 있는 것처럼 빠르지 않을 것이다."
Bohn이 덧붙였다. "사유 기술의 막다른 곳까지 가지 않는 것이 중요하다." Bohn은 일부 새로운 기술들은 아직 세월의 시험을 견디지 못하고 있음을 주의하라고 말했다. "최신 기술을 사용하는 것(leading edge)이 최첨단 기술(bleeding edge)을 사용하는 것보다 낫다." Bohn이 말했다. 예를 들어, 데이터를 배포하기 위해, 메시지 큐는 인프라 스트럭처의 중요한 부분이 되었다. 지난 수십년 동안 이러한 시스템들이 많은 광고와 약속을 가지고 시장에 나왔다. 일부 회사에서 이 기술들에 투자했지만, 그 기술들이 광고한 만큼의 성능이 나오지 않다는 것을 알게 되었을 뿐이었다.
"그런 투자를 했던 회사들은 이러한 무시하지 못할 수준의 비용에서 벗어나야 한다는 것을 깨달았다." Bohn이 말했다. Etsy는 지금 이벤트와 데이터의 파이프라인으로 Kafka를 사용 하고 있고, 머지 않아 HPE Vertica에 데이터를 넣는 용도로 사용할 예정이다. "Kafka는 많은 견인력을 가지고 있어, 당분간은 주변에서 계속 사용될 것으로 생각된다. 우리는 이 모델을 좋아하고, 현재까지 견고함이 증명되고 있다. Vertica가 훌륭한 Kafka 커넥터를 개발했으며, 이것이 Vertica에 데이터를 넣는 주된 방법이 될 것이다."
*****
원문 : 5 mistakes to avoid when deploying an analytical database
번역 : 한승균
이전 글 : Slack : 07. 채널(Channel)
다음 글 : 효과적인 퍼포먼스 엔지니어링이란 무엇인가?
최신 콘텐츠