빅데이터의 이해
◼ 빅데이터 : 기본적으로 방대한 양의 데이터를 의미.
◽4V : Volume(양), Variety(다양성), Velocity(속도), Value(가치).
- Volume, Variety, Velocity는 투자비용 요소 / Value는 비즈니스 효과 요소.
◽빅데이터의 범주
- 데이터 변화(Volume, Variety, Velocity) -> 기술 변화(분석 기술) -> 인재, 조직 변화(Data Scientist 등의 인재 및 데이터 중심조직)
※ 빅데이터 분석 기술
- 클라우드 컴퓨팅 : 클라우드 컴퓨팅 기술이 빅데이터 분석에 경제성을 제공(출현 배경).
- 하둡(Hadoop) : 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 분산 처리 기술.
- Apache Spark : 실시간 분산형 컴퓨팅 플랫폼. 하둡보다 처리 속도가 빠름.
- Smart Factory
- Machine Learning & Deep Learning
빅데이터 출현 배경
◼ 빅데이터 출현 배경
1. 산업계 : 고객 데이터 축적. 양질 전환 법칙.
2. 학계 : 거대 데이터 활용, 과학 확산. ex) 인간 게놈 프로젝트.
3. 기술 발전 : 데이터 처리 기술, 저장 기술, 디지털화, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅.
4. 비정형 데이터 확산 : 소셜 미디어, 영상 등.
※ 데이터 유형
- 정형데이터 : 형태(고정된 필드)가 있으며 연산이 가능. RDBMS에 저장됨. ex) 스프레드시트, CSV.
- 반정형데이터 : 형태(스키마, 메타데이터)가 있으며 연산이 불가능. 파일로 저장됨 ex) XML, HTML.
- 비정형데이터 : 형태가 없으며, 연산이 불가능. NoSQL에 저장됨. ex) SNS, 영상, 이미지, 텍스트.
※ 데이터 레이크(Data Lake) : 대용량의 정형 및 비정형 데이터를 저장/접근하는 대규모 저장소.
빅데이터의 기능 및 역할
◼ 빅데이터에 거는 기대를 표현한 비유
- 산업혁명의 석탄, 철 : 제조업 및 서비스 분야의 혁명졍 변화를 가져올 것.
- 21세기의 원유 : 경제 성장에 필요한 정보를 제공하여 산업 전반에 생산성을 향상시킬 것.
- 렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼 데이터가 산업 전반에 영향을 미칠 것.
ex) 구글의 Ngram Viewer
- 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물로서 역할. ex) 카카오톡, 페이스북
빅데이터가 만들어내는 본질적인 변화
◼ 과거에서 현재로의 변화
1. 사전처리 -> 사후처리
2. 표본조사 -> 전수조사
3. 질 -> 양
4. 인과관계 -> 상관관계
* 데이터의 양을 무식하게 많이 모아서 상관관계를 발견하는 방향으로 변화했다.
빅데이터의 가치
◼ 빅데이터의 가치 산정이 어려운 이유
1. 데이터 활용방식 : 데이터를 재사용이나 재조합하면서 특정 데이터를 언제·어디서·누가 활용할지 알 수 없게 되어 가치 선정이 어려워짐.
2. 새로운 가치 창출 : ‘기존에 없던 가치’를 창출하면서 가치 측정이 어려워짐.
3. 분석 기술 발전 : 현재는 가치가 없는 데이터이지만, 나중에 새로운 분석 기법이 등장하여 가치가 있는 데이터가 될 수도 있기때문에 마찬가지로 가치 측정이 어려움.
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 1.6 빅데이터의 위기요인과 통제방안 (0) | 2023.02.04 |
---|---|
[ADsP] 1.5 빅데이터 활용 (0) | 2023.02.04 |
[ADsP] 1.3 데이터베이스 활용 (0) | 2023.02.03 |
[ADsP] 1.2 데이터베이스의 정의와 특징 (0) | 2023.02.01 |
[ADsP] 1.1 데이터와 정보 (0) | 2023.02.01 |
댓글