본문 바로가기
자격증/ADsP

[ADsP] 1.4 빅데이터의 이해

by 리미와감자 2023. 2. 4.

빅데이터의 이해

빅데이터 : 기본적으로 방대한 양의 데이터를 의미.

4V : Volume(), Variety(다양성), Velocity(속도), Value(가치).

- Volume, Variety, Velocity는 투자비용 요소 / Value는 비즈니스 효과 요소.

 

빅데이터의 범주

- 데이터 변화(Volume, Variety, Velocity) -> 기술 변화(분석 기술) -> 인재, 조직 변화(Data Scientist 등의 인재 및 데이터 중심조직)

 

빅데이터 분석 기술

- 클라우드 컴퓨팅 : 클라우드 컴퓨팅 기술이 빅데이터 분석에 경제성을 제공(출현 배경).

- 하둡(Hadoop) : 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 분산 처리 기술.

- Apache Spark : 실시간 분산형 컴퓨팅 플랫폼. 하둡보다 처리 속도가 빠름.

- Smart Factory

- Machine Learning & Deep Learning

 

빅데이터 출현 배경

빅데이터 출현 배경

1. 산업계 : 고객 데이터 축적. 양질 전환 법칙.

2. 학계 : 거대 데이터 활용, 과학 확산. ex) 인간 게놈 프로젝트.

3. 기술 발전 : 데이터 처리 기술, 저장 기술, 디지털화, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅.

4. 비정형 데이터 확산 : 소셜 미디어, 영상 등.

 

데이터 유형

- 정형데이터 : 형태(고정된 필드)가 있으며 연산이 가능. RDBMS에 저장됨. ex) 스프레드시트, CSV.

- 반정형데이터 : 형태(스키마, 메타데이터)가 있으며 연산이 불가능. 파일로 저장됨 ex) XML, HTML.

- 비정형데이터 : 형태가 없으며, 연산이 불가능. NoSQL에 저장됨. ex) SNS, 영상, 이미지, 텍스트.

 

데이터 레이크(Data Lake) : 대용량의 정형 및 비정형 데이터를 저장/접근하는 대규모 저장소.

 

빅데이터의 기능 및 역할

빅데이터에 거는 기대를 표현한 비유

- 산업혁명의 석탄, : 제조업 및 서비스 분야의 혁명졍 변화를 가져올 것.

- 21세기의 원유 : 경제 성장에 필요한 정보를 제공하여 산업 전반에 생산성을 향상시킬 것.

- 렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼 데이터가 산업 전반에 영향을 미칠 것.

ex) 구글의 Ngram Viewer

- 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물로서 역할. ex) 카카오톡, 페이스북

 

빅데이터가 만들어내는 본질적인 변화

과거에서 현재로의 변화

1. 사전처리 -> 사후처리

2. 표본조사 -> 전수조사

3. ->

4. 인과관계 -> 상관관계

 

* 데이터의 양을 무식하게 많이 모아서 상관관계를 발견하는 방향으로 변화했다.

 

빅데이터의 가치

빅데이터의 가치 산정이 어려운 이유

1. 데이터 활용방식 : 데이터를 재사용이나 재조합하면서 특정 데이터를 언제·어디서·누가 활용할지 알 수 없게 되어 가치 선정이 어려워짐.

2. 새로운 가치 창출 : 기존에 없던 가치를 창출하면서 가치 측정이 어려워짐.

3. 분석 기술 발전 : 현재는 가치가 없는 데이터이지만, 나중에 새로운 분석 기법이 등장하여 가치가 있는 데이터가 될 수도 있기때문에 마찬가지로 가치 측정이 어려움.

 

댓글