본문 바로가기
728x90
반응형

전체 글181

[ADsP] 3.6 회귀분석 회귀분석 ■ 회귀분석 : 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법 ■ 회귀 모형 - 선형회귀모형 : X와 Y가 1차식으로 나타나는 모형 - 단순선형회귀모형 : 독립변수 1개 최소제곱법(최소자승법) : 측정값과 함수값 차이를 제곱한 값의 합이 최소가 되도록하는 y = f(x)를 구하는 것. 즉, (측정값 – 함수값)^2의 합이 최소가 되는 직선의 그래프를 찾는 것. - 다중선형회귀모형 : 독립변수 2개 이상 ■ 선형회귀분석의 가정 - 선형성 : 입력변수와 출력변수의 관계가 선형이다. - 독립성 : 입력변수와 오차는 관련이 없다. - 정상성(정규성) : 오차의 분포가 정규분포를 이룬다. -> Q-Q plot, Shapiro-Wilks test 등으로 확인. - 등분산성 :.. 2023. 2. 24.
[ADsP] 3.5 상관분석 상관분석 ■ 상관분석 : 두 변수 간의 관계의 정도를 알아보는 분석 방법 - 상관관계가 높다고 인과관계가 있다고 할 수 없음 - 상관계수 범위(절대값) 0.7 ~ 1 : 강한 상관 관계 0.3 ~ 0.7 : 약한 상관 관계 0 ~ 0.3 : 거의 상관없음 0 : 전혀 상관없음. ■ 상관분석의 유형 피어슨 상관계수 스피어만 상관계수 등간척도, 비율척도 변수 서열척도 변수 연속형 변수, 정규성 가정 순서형 변수, 이산형 변수, 비모수적 방법 선형관계 측정 선형, 비선형 관계 측정 *스피어만 상관계수는 ‘ㅅ’(시옷)이 많다. ■ 공분산 - 2개의 확률변수의 선형 관계를 나타냄. - 값에 따라 양의 방향성과 음의 방향성을 가질 수 있으며, 공분산이 0이면 서로 독립. - 공분산이 0이면 4면에 균일하게 분포되어.. 2023. 2. 23.
[ADsP] 3.4 통계분석의 이해 통계 기초 용어 ■ 모집단과 표본 - 모집단, 모수 표본, 통계량 통계자료 획득 ■ 총 조사(=전수조사) vs 표본조사 - 전수조사 : 대상 집단을 모두 조사 -> 시간과 비용이 많이 소요. - 표본조사 : 모집단에서 일부만 추출하여 모집단을 분석(모수 추정). ■ 표본 추출 방법 - 단순랜덤추출 : 말 그대로 무작위 추출법. 모집단에서 각 개체가 표본으로 선택될 확률이 동일. - 계통추출 : 각 개체에 일련번호를 부여한 후, 일정한 간격으로 표본 추출. - 집락추출(군집추출) : 군집을 구분하고 군집별로 단순랜덤 추출. - 층화추출 : 각 계층을 고루 대표하는 표본을 단순랜덤 추출. ex) 성별, 나이대, 지역 등 ■ 척도 구분 - 명목척도 : 어느 집단에 속하는지 특성 분류 ex) 성별, 혈액형, 출.. 2023. 2. 23.
[ADsP] 3.3 데이터마트(R 심화) 데이터 마트(R 심화) ■ 데이터 마트 - 데이터 웨어하우스와 사용자 사이의 중간층에 위치 - CRM 관련 업무 중에서 핵심 ■ 변수 : 데이터 웨어하우스로부터 받아오는 데이터를 분석에 적절하게 처리 1) 요약변수 - 수집된 정보를 분석에 맞게 종합한 변수 - 많은 모델이 공통으로 사용될 수 있어 재활용성이 높음 2) 파생변수 - 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 - 주관적일 수 있으므로 논리적 타당성을 갖추어 개발 - 세분화, 고객행동 예측, 캠페인 반응 예측에 매우 잘 활용됨 ■ 패키지 - 패키지 설치 : install.packages(‘패키지이름’) - 패키지 로드 : library(‘패키지이름’)/library(패키지이름) 1) reshape 패키지.. 2023. 2. 20.
[ADsP] 3.2 R 프로그래밍 R ■ R 소개 - 다양한 OS(운영체제)에서 사용할 수 있음 - 무료 오픈소스 소프트웨어 - 복잡한 통계분석 기법 가능 - S언어 기반의 프로그래밍 - 다양한 형태의 데이터 구조 지원 - 많은 패키지가 수시로 업데이트 - 커뮤니티 활발 ■ R 데이터 유형 1) 기본형 - Numeric : 정수, 실수, 복소수, 수학적 연산 및 통계 - Character : 문자, 단어로 구성. ex) "abc" - Logical : TRUE, FALSE 2) 구조형 - scalar, vector, matrix, array, factor 3) 복합형 : 서로 다른 타입의 데이터를 묶을 수 있음 - list, data.frame, data.table 4) Special Values - NULL : 변수 값이 초기화되지 않.. 2023. 2. 16.
[ADsP] 3.1 데이터 분석 기법의 이해 데이터 분석 기법의 이해 ■ 데이터 처리 - 데이터 분석은 통계지식과 복잡한 가정이 상대적으로 적은 분야 - 대기업은 DW(데이터 웨어하우스)나 DM(데이터 마트)을 통해 데이터를 가져와 사용 - 신규 시스템이나 DW에 포함되지 못한 경우, 기존 운영시스템(Legacy)이나 스테이징 영역(Staging Area)과 ODS(Operational Data Store)에서 데이터를 가져와 DW의 내용과 결합하여 활용 ■ 분석 기법 5가지 1. 시각화 - 가장 낮은 수준의 분석이지만, 복잡한 분석보다 효율적 - 빅데이터 분석, 탐색적 분석할 때 시각화는 필수 - SNA 분석에 활용 2. 공간분석(GIS) - 공간적 차원과 관련된 속성을 시각화하는 분석 - 지도 위 속성의 크기, 모양, 선 굵기 등 구분 3. 탐.. 2023. 2. 13.
[ADsP] 2.6 분석 거버넌스 체계 수립 분석 거버넌스 체계 수립 ■ 거버넌스 : 기업, 기관 등에서 규칙 및 규범이 구조화, 유지, 규제되고 책임지는 방식 및 프로세스 ■ 분석 거버넌스 : 기업에서 데이터 분석의 적용과 확산을 위한 관리방식이나 프로세스 ■ 분석 거버넌스 체계 구성요소 5가지 1) Organization : 분석 기획/관리 수행 조직 2) Process : 과제 기획/운영 프로세스 3) System : 분석 관련 시스템 4) Data : 데이터 5) Human Resource : 분석 교육/마인드 육성체계 * 분석 비용, 예산 X ■ 데이터 분석 수준 진단 1) 분석 준비도 : 분석 업무, 분석 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라 분석 업무 파악 인력 및 조직 분석기법 · 발생한 사실 분석 업무.. 2023. 2. 12.
[ADsP] 2.5 분석 마스터 플랜 분석 마스터 플랜 수립 ■ 우선순위 고려 요소 : 3가지 기준을 고려해 적용 우선순위 결정 1. 전략적 중요도 : 전략적 필요성과 시급성으로 이루어짐 2. 비즈니스 성과/ROI(투자자본수익률) 3. 실행 용이성 : 투자 용이성과 기술 용이성으로 이루어짐 ■ 적용 범위/방식 고려 요소 : 3가지 기준을 고려해 분석(Analytics) 구현 로드맵 수립 1. 업무 내재화 적용 수준 2. 분석 데이터 적용 수준 3. 기술 적용 수준 ■ ISP(Information Strategy Planning) - 조직 내·외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차. - 전사적인 종합추진 계획 ■ 우선순위 평가 방법 및 .. 2023. 2. 12.
[ADsP] 2.4 데이터 분석 프로젝트 관리 분석 프로젝트 관리 ■ 분석 프로젝트 관리를 위한 5가지 주요 영역 1. 데이터 크기(Data Size) : 데이터의 양. 2. 데이터 복잡성(Data Complexity) : 데이터에 잘 적용될 수 있는 분석 모델 선정 필요. 3. 속도(Speed) : 시나리오 측면에서의 속도. 분석 모델의 성능 및 속도를 고려한 개발. 4. 분석 복잡성(Analytic Complexity) : 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델 선정. - 정확도(Accuracy)와 복잡도(Complexity)는 트레이드 오프 관계 5. 정확도·정밀도(Accuracy & Precision) - 정확도 : 모델과 실제 값의 차이. 분석의 활용성 측면. - 정밀도 : 모델을 반복했을 때 편차. 분석의 안정성 측면. - .. 2023. 2. 11.
[ADsP] 2.3 데이터 분석 과제 발굴 분석 과제 발굴 ■ 하향식 접근 방법 : 문제가 확실할 때 사용. 문제가 주어지고 해법을 찾기 위해 사용(지도 학습). - 문제 탐색 -> 문제 정의 -> 해결 방안 탐색 -> 타당성 검토 1) 문제 탐색 : 빠짐없이 문제를 도출하고 식별하는 것이 중요. ① 비즈니스 모델 기반 - 비즈니스 모델 캔버스를 활용하여 창출될 문제를 누락없이 도출 - 5가지 영역 : 업무, 제품, 고객, 규제와 감사, 지원 인프라 ② 분석 기회 발굴의 범위 확장 - 거시적 관점 : STEEP(사회, 기술, 경제, 환경, 정치) - 경쟁자 확대 관점 : 대체재, 경쟁자, 신규 진입자 - 시장의 니즈 탐색 : 고객(소비자), 채널, 영향자 - 역량의 재해석 : 내부 역량, 파트너 네트워크 ③ 외부 참조 모델 기반 문제 탐색 : 유.. 2023. 2. 11.
[군산]자주적 관람 갤러리&제로웨이스트샵 안녕하세요 여러분~ 나는 오늘 무엇을 샀나! 오늘은 자주적 관람을 방문해서 이것저것 골라담아 왔습니다 자주적 관람 전라북도 군산시 구영 5길 21-4 운영시간 11:00~18:00 월, 화 정기휴무 해가 잘드는 곳에 위치한 자주적 관람은 제로웨이스트샵이에요 제로웨이스트(zero waste)란 포장을 줄이거나 재활용이 가능한 재료를 사용해서 쓰레기를 줄이려는 세계적인 움직임이랍니다 자주적 관람에서는 PP, PE 재질의 플라스틱(병뚜껑), 말린 우유팩, 멸균팩 등을 모으는 자원순환품목 프로젝트를 함께 하고 있답니다 색별로 분리해서 수거하는 모습을 볼 수 있었어요 이렇게 모아진 자원순환품목은 재활용되거나 업사이클링 제품으로 재탄생하기도 합니다 업사이클링은 우리말로 '새활용'이라고 하는데요 재활용의 상위 개념으.. 2023. 2. 11.
[ADsP] 2.2 데이터 분석 방법론 분석 방법론 개요 ■ 분석 방법론의 구성요소 : 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물 ■ 기업의 합리적 의사결정을 가로막는 장애 요소 1. 고정관념 2. 편향된 생각 3. 프레이밍 효과(Framing Effect) : 동일한 상황임에도 개인의 선택이나 판단이 달라지는 현상. 분석 방법론의 모델 3가지 ■ 폭포수 모델 - 단계를 순차적으로 진행. - 이전 단계가 완료되어야 다음 단계로 진행. - 하향식(Top Down) 진행. ■ 프로토타입 모델 - 고객의 요구사항을 완전히 이해하지 못했을 때 사용. - 일부분을 우선 개발(초기 모델)하여 사용자에게 제공 후 결과를 통한 개선 작업. 신속하게 해결책 모형 제시. - 상향식 접근방법. ■ 나선형 모델 - 반복을 통해 점증적으로 개발 - 반복에 .. 2023. 2. 10.
728x90
반응형