Untitled

목차

  1. 데이터 형태에 따른 분류 - 정형/비정형/반정형

  2. 정형데이터 종류 - 연속/이산/순위/명목형

  3. 기본용어 - Feature/Variable/열/속성/Field, Instance/Record/Observed Value

  4. 데이터 준비 형태 - Feature는 열, Record는 행

  5. 독립변수 vs 종속변수

  6. Vector/Matrix, Dimension(차원)에 대한 이해 - 이건 상관분석/회기분석 전에 다뤄도 되겠다.

  7. 기본 통계값 - 평균(mean), 중앙(median), 최빈(mode), 백운위수(percentile)

  8. 분산, 표준편차

  9. 결측값(missing value)처리 - 제거, 대체(imputation)

  10. 이상치(outlier)처리 - Outlier detection(ESD,IQR, iForest,시각화)

  11. 정규화(Normalization)

  12. 범주화(구간화, Binning, 비닝)

  13. 과제

    1. 자신의 데이터를 엑셀로 정리한다. (행/렬 위치 조심!!)
    2. 그 상태로 모든 Feature에 대해 기본 통계치를 다 구해본다.(평균~표준편차까지)
    3. 결측치를 최소 두가지 방식을 적용해보고 다시 원본의 통계치와 비교해본다.
    4. 다음 (3회차) 모임 출석시간에 결과 인증한다.
  14. 퀴즈

    1. 다음 중 데이터 유형이 다른 하나는? d a. 연속형 b. 이산형 c. 순위형 d. 비정형

    2. 다음 데이터에 대한 설명 중 틀린 것은? c a. 연속형(Continiuous) 데이터의 예에는 키, 몸무게 등이 있다 b. 태스크 개수는 이산형(Discrete)에 속한다 c. MBIT는 순위형(Ordinal)에 속한다 d. 수치형 데이터와 범주형 데이터는 변환 가능하다

    3. 데이터 준비에 대한 설명으로 잘못된 것은? d a. Feature에 해당하는 것을 열(Column)에 둔다 b. 관측치는 행에 추가한다 c. 종속(dependent)변수는 열에 추가한다 d. 데이터의 차원은 관측개수로 결정된다

    4. 데이터 전처리 종류나 대상에 해당하지 않는 것은? a a. 분산화 b. 구간화 c. 정규화 d. 결측값

    5. 다음 중 대표값 개념에 해당하지 않는 것은? b a. 평균(mean) b. 백분위수(percentile) c. 최빈값(mode) d. 중앙값(median)

    6. 다음 모집단과 표본집단에 대한 설명 중 옳은 것은? b a. 모집단의 평균과 표본집단의 평균의 값은 항상 동일하다 b. 분산은 표준편차의 제곱값이다 c. 모집단과 표본집단의 분산 공식은 동일하다 d.표준편차가 클수록 데이터가 평균에 집중화되어있는 것이다

    7. 결측값 처리 방법에 대해 잘못 설명한 것은? b a. 완전 무작위 결측(MCAR)인 경우 제거해도 된다. b. 필수 속성인 경우는 반드시 대체값으로 채워야 한다. c. 다른 값으로 대체하는 경우 Feature에 대한 정확한 이해가 필요하다 d. 결측치가 많은 경우 처리하지 않으면 결과에 bias가 포함될 수 있다.

    8. 아웃라이어 탐지방법이 아닌것은? a. a. Regression b. ESD c. IQR d. iForest

    9. 데이터 정규화에 대해서 잘못된 것은? c a. 독립 변수라는 가정이기때문에 가능한 것이다 b. [-1, 1] 로 정규화할 수 있다 c. 한 변수내의 관측치의 절대적인 크기가 중요할때 사용한다 d. 변수간 상대적인 영향도를 균일화하는 개념이다

    10. Binning에 대한 설명으로 잘못된 것은? d a. Outlier를 완화하는 효과가 있다. b. 연속형 변수를 범주형으로 변환할 수 있다 c. 변수간 새로운 관계를 파악할 수 있다 d. 구간 개수만큼으로 관측 개수를 줄여주는 효과가 있다

Untitled