빅데이터는 수십 테라바이트 용량의 정형 및 비정형 데이터를 말합니다.
빅데이터는 데이터들이 모여 유용한 정보가 되고 그 유용한 정보가 쌓이면 지식이 됩니다.
이 지식으로 의사결정을 할 수 있는 가치 있는 판단 근거, 지혜를 얻는 구조를 가지고 있습니다.
간략하게 빅데이터 구조를 살펴보시기 바랍니다.
정형 데이터
데이터를 처리하는 시스템은 데이터베이스로 데이터의 저장과 검색 조건에 맞는 데이터를 찾아내는 것과 같은 처리를 수행하는 기능을 제공합니다.
이중 가장 보편화된 데이터베이스는 관계형(relational) 데이터베이스입니다.
관계형 데이터 베이스의 테이블에 데이터를 저장하고, 각 테이블에 저장된 데이터 사이에 관계를 설정하고 이를 이용할 수 있는 방식으로 데이터를 저장합니다.
이렇게 파일 단위로 저장되거나 데이터베이스에 테이블 형태를 갖춘 데이터를 정형화 데이터라고 합니다.
비정형 데이터
그러나 정형화된 형식을 갖추지 못한 일정한 형식이 없는 데이터를 비구조화 또는 비정형 데이터라고 합니다.
우리가 다루는 대부분의 빅데이터는 비정형의 속성을 가지고 있습니다.
위의 고양이 사진과 같이 우리가 유튜브나 인스타 등 여러 플랫폼에 올리고 있는 각종 동영상 자료들과 노랫소리, 이미지 자료들은 모두 비정형 데이터입니다.
비정형 데이터는 일정 형식이 없이 각각 독특한 특수 형태로 저장되는 특징을 가지고 있습니다
빅데이터가 가지는 3V 속성, 즉 속도(Velocity), 볼륨(Volume), 다양성(Variety)과 5V에 대해 살펴보겠습니다.
빅데이터의 특징
1. 속도 (Velocity)
빅데이터는 빠르게 생성되고 있습니다.
주변의 IOT 각종 센서, 인공위성, 스마트 홈에서 나오는 방대한 데이터, SNS를 통해 생성되는 데이터들이 축적되므로
빅데이터가 생성되는 속도는 과거 정형화된 데이터의 생성과 비교할 수 없을 만큼 빠른 속도로 생성되고 있습니다.
2. 볼륨 (Volume)
볼륨(Volume)은 빅데이터의 빅(Big) 자체를 의미합니다. 여러 매체를 통해서 생성되어 수집된 데이터의 용량은 엄청나게 큽니다. 대체로 1시간 분량의 동영상의 경우 해상도에 따라 다르지만 수백 기가바이트까지의 볼륨이 필요합니다.
3. 다양성 (Variety)
테이블로 정형화된 형태가 아닐 빅데이터는 동영상, 이미지, 음성 등 일정하지 않은 다양한 형태로 생성된다는 특징을 가집니다. 형식 자체가 저마다의 형식으로 생성되고 저장됩니다. 빅데이터는 무한한 형태로 생성될 수 있고 각 응용 목적에 따라 데이터를 처리하고 맞춰줘야 하는 특징을 가집니다.
4. 정확성 (Veracity)
생성된 데이터를 신뢰하는 지표가 정확성입니다.
빅데이터의 경우 비 정형화되어 있고 서로 상관성이 없는 데이터가 많기 때문에
필터링 및 전처리를 통해 비즈니스와 상관관계가 있는 데이터만을 얻어내는 방법이 빅데이터 처리에서 중요한 요소가 되었습니다. 너무 많은 데이터는 때로는 너무 적은 데이터만큼 더 나쁜 정보를 줄 수 있습니다.
그래서 적절한 처리를 통해 데이터 범위를 축소할 수 있다면 질 좋은 정보를 얻는 확률은 향상될 것입니다.
5. 가치 (Value)
무작정 데이터를 축적한다고 이 데이터가 비즈니스에서 의미 있는 결과를 내는 것은 아닙니다.
이 때문에 양이 아닌 질적으로 가치 있는 데이터를 분석하고 걸러낼 수 있는 기능이 빅데이터 처리의 중요한 속성이 되었습니다.
빅데이터의 활용
산업별로 빅데이터가 다양하게 활용될 수 있습니다.
의료 건강
헬스케어 플랫폼 등을 통한 개인 건강 정보의 축적 및 의료 기관 등과 공유 및 활용합니다.
과학기술
전공 분야의 연구 개발 성과물을 기반으로 대규모 과학기술 빅데이터를 공유하고 활용하는 플랫폼을 구축하여 빅데이터를 활용합니다.
정보보안
빅데이터 분석을 통해 해킹 등의 보안사고가 일어날 징후를 간파할 수 있고 조기 대응 및 협업 시스템 구축이 가능합니다.
제조 공정
완제품의 품질 향상을 위해 기업들이 빅데이터 시스템을 구축하고 납품하게 됩니다.
소비 및 거래
구입 패턴 및 트랜잭션 분석을 통해 소비 트렌드 파악 및 예측, 시뮬레이션을 통해 마케팅에 반영 및 리스크 관리에 이용됩니다.
금융과 빅데이터의 관계
금융 분야에서는 다양한 종류의 빅데이터가 있습니다.
금융 고래 고객의 데이터로 시작해 전 세계 주식시장의 거래 데이터, 자금 이체, 신용 카드 결제 데이터가 발생합니다.
각종 중앙은행의 발표문, 기업들의 재무제표, 언론들의 리포트, 사람들의 의견 등 너무나 다양한 데이터가 존재합니다.
빅데이터를 처리하기 위해 하둡과 HPC가 이용됩니다.
하둡과 HPC의 기술은 일반 PC를 클러스터로 묶어서 슈퍼컴퓨터와 동등한 성능을 내도록 하는 공통점이 있습니다.
빅데이터를 위해서는 계산 자원과 저장공간이 필요합니다.
이런 과제를 수행할 수 있는 슈퍼컴퓨터는 1000억대를 넘는 고가이기에
일반 슈퍼컴퓨터를 클러스터링 하는 기술이 발전하게 됩니다.
빅데이터 처리를 위해서는 하둡이나 HPC 방식의 클러스터를 만든 이후에 데이터를 분산하여 효율적으로 처리하고
그다음에 종합해서 처리하고 있습니다.
이때 클러스터에 사용되는 컴퓨터는 사내의 유휴 컴퓨터를 사용하거나 일반 PC를 사용해도 충분할 수 있도록 구성하게 됩니다.
이상으로 빅데이터의 구조와 빅데이터의 특징 및 빅데이터의 활용에 대해 알아보았습니다.
'IT' 카테고리의 다른 글
Python URL 쉽게 다루기 (0) | 2023.02.10 |
---|---|
인공지능 빅데이터 워크플로우 (0) | 2022.12.09 |
인공지능의 시작 (0) | 2022.11.15 |
AI? 다 해결해? (0) | 2022.11.01 |
유무선 네트워크 (0) | 2022.10.27 |