기타

ADSP 핵심 정리

공영재 2025. 8. 9. 07:54

1, 2 파트는 문제 잘읽고 모순을 생각해보자.

 

1. 데이터 이해

 

- 데이터 유형

정형 반정형 비정형

DB 엑셀 CSV 정형

스키마가 없으면(SNS 등) 비정형

메타데이터를 포함, HTML JSON CSS 반정형

 

- DIKW: Data(사실) Info(패턴 인식) Knowledge(예측) Wisdom(창의적 산물)

 

- 데이터 단위 - 패지요 (패타엑사제타요타)

 

- !! DB 특징 - 공통저변

공용 데이터 

통합 데이터 - 중복 X

저장 데이터

변화 데이터 - 추가/삭제에도 현재 상태 유지 = 무결성

 

- 기업활용 DB

OLTP: T가 Transaction - 거래 단위

OLAP: 대화식 분석

CRM: 고객과 관련 (Customer Relation)

SCM: 공급망 연결(Supply Chain)

ERP: 기업경영자원 Enterprise Resource

RTE: 빠른 결정 RealTime

BI: 리포트 Business Intelligent

BA: 통계, 통찰

KMS: 지식 Knowledge Management

 

- !! 데이터웨어하우스 DW

! 비휘발성, 시계열성, 통합, 주제지향

구성요소 - E 추출 T 변환 L 로드

이렇게 한걸 ODS(Operational Data Store)에 임시저장 -> 이후 데이터마크(DM)을 통해 활용.

 

- 데이터레이크

비정형 데이터와 하둡 연결 - HDFS(분산파일시스템), MapReduce(분산된 데이터 병렬 처리)

 

- 빅데이터 3V

Volume (구글 번역 서비스 예시) Variety (유형 증가) Velocity (생성 및 처리 속도 증가)

(5V, 7V도 있긴 함)

 

- !! 빅데이터가 만들어내는 변화 - 전후양상

표본 대신 전수조사

사전처리보단 사후처리

질보다는 양

인과보다는 상관관계

 

- 빅데이터는 누가 어디서 사용할지 모름.

 

- 빅데이터 3대 요소 - 인자기 (인력 자원 기술)

 

- 빅데이터 주요 분석기법

!유전(자) 알고리즘: 최적화 필요한 문제 해결책

연관분석 - 규칙 상관관계. 장바구니에 물건 넣는~, 마트 장볼 때~ etc.

회귀분석 - 에어컨판매량 등 수치 분석. X가 Y에 영향

분류분석 - 범주

텍스트마이닝 - NLP로 의미 발견

 

 

- !! 위기 요인과 통제

사생활 침해 - !! 제공자에서 사용자 책임으로 전환 !! 헷갈리지 말 것

책임 원칙 훼손 - 결과에 대해서만 책임

데이터 오용 - 알고리즘 해석하는 알고리즈미스트(부당 피해 구제)

 

- 데이터 3법

개인정보보호법 - 가명정보(공OO) 도입을 통해 동의없이 활용 가능

 

- 마이데이터: 내 정보를 3자에 제공, fintech서 활용

 

- 데이터 사이언스 요소 : 분석, IT, 비즈니스

데이터 사이언티스트(분석가) 역량은 소프트(창의력 등)+하드(이론적 지식)

 

- 빅데이터 패러다임 변화 : 디카(digital - Connection - Agency)

 

- ! 비즈니스 모델 기반 문제 탐색

업무, 제품, 고객, 규제와 감사, 인프라. - 경쟁자 분석은 XX

 

 

2. 데이터 분석 기획

 

- 분석 대상과 방법

대상과 방법을 알면 - 최적화

대상을 모르면 - 통찰

방법을 모르면 - 솔루션

둘다 모르면 - 발견

 

- 분석기획방안

과제 중심적 접근 : Speed / Quick / Solving

장기적 마스터 플랜 : Accuracy / Long Term / Definition.

 

- 분석 방법론 구성요소

절차, 방법, 도구와 기법, 템플릿과 산출물

 

- 분석 방법론 모델

계층적 프로세스 : 단계 > 태스크 > 스텝

나선형 : 여러 개발과정 거쳐 점진적 완성

반복적 : 증분형 & 진화형

- KDD 분석 방법론 : 마이닝은 평가 직전에 !

데이터 선택 > 전처리 > 변환 > 마이닝 > 평가

- Crisp-DM 분석 방법론 : 업데이데모델평가전

업무이해 > 데이터 이해 > 데이터 준비 > 모델링(모델 작성 및 평가 (<- `평가` 헷갈리지 말것) >  평가 >  전개

 

- !!! 빅데이터 분석 방법론 : PPADD (Planning - Preparing - Analyzing - Developing - Deploying)

분석 기획 - 프로젝트 위험 계획 수립 : 회전완수(회피, 전이, 완화, 수용)

데이터 준비(Preparing) 요소 - 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검

데이터 분석(Analyzing) 요소 - 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증, 모델 적용 및 운영방안 수집

 

- 하향식 접근 방법 : 문제를 보고 해답을 찾기위함 (지도 학습)

- 상향식 접근 방법 : 문제 정의가 어려울 때, 비지도 학습(정답이 없는 데이터 학습) 활용해 사물을 그대로 인식하는 What 관점, 아래에서 위로, 전후양상 즉, 상관관계가 중요

 

- 디자인 싱킹 : 공감하기 -> 문제 정의 -> 아이디어 도출 -> 프로토타입

 

- 분석 과제에서 고려해야 할 요소 : 데이터 크기, 속도, 데이터 복잡도, 분석 복잡도, 정확도/정밀도

이때 정확도와 정밀도는 트레이드오프

 

- 분석 거버넌스 체계 : 시조프로마인드데

시스템 조직 프로세스 마인드(인력, 육성) 데이터

 

- ! 분석 성숙도 : CMMI 모델 기반

1. 도입(환경, 시스템 구축) 2. 활용(업무에 적용) 3. 확산(전사 차원 관리, 공유) 4. 최적화(혁신, 성과향상에 기여)

 

- 분석 플랫폼 구성요소

광의의 분석 플랫폼(분석 서비스 제공 엔진, 분석 어플리케이션, API, 등등) 안에 협의의 분석 플랫폼(좀 더 근원적인, 데이터 처리 프레임워크, 분석 엔진, 분석 라이브러리)

 

- ! 조직 및 인력방안 수립 : 집 기 분

집중 구조 : 독립적 전담 조직 (중복 업무 가능성)

기능 구조 : 해당 부서에서 직접 분석(DSCoE(=분석 조직)이 없음)

분산 구조 : 분석 조직 인력을 현업 부서에 배치

 

3. 데이터분석

 

- 데이터 마트 : 데이터 웨어하우스의 한 분야, 특정 목적 위해 사용.

요약 변수: 정보 종합, 재활용성, 파생 변수: 의미, 논리적 타당성(고객 구매 등급)

 

- 결측값과 이상값

EDA (탐색적 자료 분석: 데이터의 통계, 시각화) 4가지 주제 : 저잔재현

저항성(자료 변동 둔감)

잔차 계산(값들이 얼마나 벗어나있는지 확인)

재표현(원래 변수를 적당한 척도로 변환)

그래프 통한 현시성(시각화를 통해 효율적 파악)

 

결측값 처리

완전 분석법: 데이터 삭제

평균 대치법(=비조건부 평균 대치): 단순 평균으로 대치

회귀 대치법(=조건부 평균 대치): 회귀분석 결과로 대치

확률 대치법 : NN(가까운 걸로), Hot-Deck(현재 셋에서 비슷한 성향), Cold-Deck(외부 출처에서 비슷한 성향)

다중 대치법: 여러번 대치(대치 > 분석 > 결합)

 

이상값 처리

이상값을 항상 처리하는 것은 아님.

그럼 어떻게?

1. ESD : 평균으로부터 표준편차의 3배 넘어가는 값

2. 사분위수 : Q1- 1.5IQR / Q3 + 1.5IQR로 계산. Q1은 밑으로 25퍼, Q3는 위로 75퍼일 때 Q1부터 Q3를 IQR이라고 함.

 

3. Z-score : 정규화 평균 0, 표준편차 1 후 일정 임계값을 초과할 경우 이상값

4. DBScan : 밀도를 이용해 밀도가 적은 부분 이상값.

 

- 통계 분석

자료의 척도 구분

1. 질적 척도: 명목 척도(어느 집단) / 순서 척도(서열 척도, 학년)

2. 양적 척도: 등간 척도(구간척도, 구간 사이 간격이 의미가 있음. 온도, 지수 등) / 비율척도 : 절대적 기준 0이 존재하고 사칙 연산 가능(무게, 나이 등)

 

확률적 표본 추출 방법

랜덤 / 계통(번호 부여해 일정 간격)

!!! 군집(집락) : 여러 군집으로 나눈 뒤 군집 선택, 군집이 동질적.

!!!! 층화 추출(같은 비율이면 비례 층화 추출)

예시) A, B, C 아파트 중 하나의 아파트만 추출하는게 군집 추출. 군집 내 이질적, 군집 간 동질적

학년 별로 추출하는게 층화 추출. 군집 내 동질적, 군집 간 질적

 

- 기초 통계량

산술평균 : 일반적인 평균

기하평균 : 루트 (a* b* ..n*)

조화평균 : n / 값들의 역

 

!!! 관계 측면

공분산 = 0 이면 상관 X

공분산 + 양의 상관관계, - 음의 상관관계, 하지만 최소, 최대값이 없어 강약 판단 불가.

그래서 상관계수를 사용

상관 정도를 -1 ~ 1로 표현.

상관계수 = 1이면 정비례관계

상관계수 = 0이면 상관없음

상관계수 = -1이면 반비례 관계

독립이면 공분산 0, 공분산 0이 독립이진 않음.

 

- 첨도와 왜도

첨도 = 3 이면 정규분포. 높을수록 중앙이 뾰족함.

왜도 = 비대칭 정도. 왜도 < 0 이면 최빈값 > 중앙값> 평균, 왜도 > 0 이면 최빈 < 중앙 < 평균.

 

- R결과 Summary 함수 요약

median과 mean의 대소 비교로 왜도가 0보다 큰지 작은지 알 수 있음.

 

- 정규분포는 Z검정(사람들의 키, IQ, 성적) / t분포는 꼬리 부분이 더 두껍고 긴 분포(표본이 30개보다 작은 집단의 T검정)

 

- 중심극한정리

표본크기가 크면(30개 이상) 모집단의 분포에 상관없이 표본평균분포가 정규분포를 이룸.

즉, 해당 정규분포 형태만 알아도 모집단을 예측할 수 있다.

 

- 가설검정

귀무가설 <> 대립가설, 유의수준: 귀무가설이 참일 때 기각하는 1종 오류를 범할 확률의 한계(0.05), 2종오류는 대우.

 

- 회귀분석의 가정

선형성, 등분산성, 정상성, 독립성

다중공산성 : 독립변수 간 강한 상관관계가 나타나는 문제. 1 / 1-R^2 값이 10 이상이면 다중공선성 존재. 

 

loading