빅데이터란 무엇인가

| 0

요즘 4차산업이 활발해지면서 화두가 된 키워드가 AI와 빅데이터입니다.

그 중 최근 최대의 관심사가 되고 있는 빅데이터에 대해 소개합니다.

  • 빅데이터란 무엇인가?

빅 데이터(big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다.

고 정의합니다.

출처 : http://ko.wikipedia.org/

이전에는 버려지던(관리해서 분석할 수 있는 대상이 아니었던) 데이터를 사용하게 된 것이 빅 데이터의 시작입니다.

Oracle, MySQL, DB2 등의 데이터베이스 관리 도구(DBMS)에 넣지 않았던 혹은 못했던 데이터를 빅 데이터라고 할 수 있습니다.

넣지 못하는 이유는 양이 많아서 일 수 도 있으며, 형태가 일정하지 않아서 라는 두 가지 이유가 됩니다.

 

> 이제와서 빅데이터를 사용하게 된 이유

정형이기도 하고, 로그를 남기듯 일단 쌓아두는 내용이고 보니, 잘못된(우리가 기대하지 않았던)데이터가 섞여 있을 확률이 매우 높습니다. 그래서 사용하기 전에 데이터를 정련(data cleansing)하는 작업을 꼭 해야하고, 뭔가 처리 할 때는 모든 가능한 오류 상황을 처리 할 수 있도록 프로그램을 짜야 합니다. 처리하다가 오류나면 처음부터 다시 작업 해야하는데 ‘빅’이니까 기본적으로 몇 시간씩 걸리거든요. 아무리 기술이 발달해서 처리는 가능하다고 하지만, 빅 데이터는 말 그대로 양이 많습니다. 그래서 무엇을 알고자 하는지 목적을 분명히 한 후 일을 시작해야 하는 리스크가 있습니다.

 

> 빅데이터를 무엇에 쓰는지?

한마디 요약으로 패턴을 찾는다. 라고 할 수 있습니다.

쇼핑몰의 고객의 모든 행동 이력을 가지고 어느 요일에 주로 구매가 일어나는지 알 수 있고, 개인별로 이 사람은 어떤 물건을 좋아하는지, 어떤 행동을 보인 사람들이 탈퇴를 하거나, 재구매를 하는지 하는 것을 알아낼 수 있습니다. 이런 것을 찾아서 비즈니스 기회를 극대화 시키는 데 사용하게 됩니다. 구매가 많이 일어나는 요일에 세일을 많이 한다거나, 탈퇴 할 것 같은 행동 패턴을 보이는 사용자가 발견되면 자동으로 탈퇴를 막을 수 있는 프로모션을 제공 할 수 있는 원인에 따른 결과를 낼 수 있습니다.

우리 정부에서도 심야 버스 운행 노선을 정하기 위해서 심야의 교통카드 사용 및 택시 사용 이력을 분석 했다든지, 전기 수요를 예측하기 위해서 과거 데이터와 그에 영향을 미칠 요소들의 상관성을 분석한다든지 하는 식으로 사용하려는 노력을 기울이고는 있습니다. 앞서나가고 있는 미국에 비하면 공유되는 정보가 매우 제한적이고 그나마 자세하지도 않은게 현실입니다.

 

[출처 : 빅데이터란 무엇인가?]

http://cskstory.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80

Leave a Reply