Chapter 05. 데이터 전환
1. 데이터 전환 기술
(1) 초기 데이터 구축 = 전대범고
구축 전략 수립
대량의 데이터를 전환 수행 시 신속하고 안정적인 데이터 전환을 위한 체계적인 초기 데이터 구축 전략을 수립한다.
초기 데이터 구축 대상 파악
초기 데이터 구축을 위한 대상을 식별하고 대상을 목록화한다.
초기 데이터 구축 범위 확정
업무 협의를 통해 초기 데이터 구축 범위를 확정한다.
초기 데이터 구축 시 세부 고려사항
데이터 이관 시 업무 중단을 최소화하고 안정성을 확보할 수 있는 방안을 마련한다.
데이터 이관 정합성 검증을 통해 오류 방지 방안을 제시한다.
(2) ETL
ETL(Extraction, Transformation, Loading)의 개념
ETL은 원천 시스템에서 데이터를 추출하여 변환 작업을 거쳐 목적 시스템으로 적재하는 프로세스이다.
원천 시스템으로부터 데이터를 추출하고 변환하는 작업을 거쳐서 목적 시스템으로 전송 및 로딩한다.
ETL 프로세스
데이터 전환 계획 및 요건 정의 > 데이터 전환 설계 > 데이터 전환 개발 > 데이터 전환 테스트 및 검증 > 데이터 전환
(3) 파일 처리 기술
파일 처리 기술의 개념
파일 처리 기술은 많은 양의 자료를 각종 매체에 저장하는 기법이다.
파일을 하드 디스크에 저장 시, 기억공간을 효율적으로 사용하고 자료의 탐색을 쉽게 한다.
파일 처리 기술의 유형
① 순차 파일(Sequential File)
순차 파일은 입력되는 데이터들을 논리적인 순서에 따라 물리적 연속 공간에 순차적으로 기록하는 방식이다.
순차 파일의 장/단점
장점 | 단점 |
기록 밀도가 높아 기억공간을 효율적으로 사용 매체 변환이 쉽고 어떤 매체에도 적용 가능하고 처리속도가 빠름 |
파일에 신규 레코드 삽입/삭제 시 파일 전체 복사로 시간소요가 큼 데이터 검색 시 순차 검색으로 인한 검색 효율성 저하 |
② 색인 순차 파일(Indexed Sequential File)
색인 순차 파일은 레코드들을 '키 값' 순으로 정렬시켜 기록하고 레코드의 키 항목 색인을 구성하는 방식이다.
색인 순차 파일의 장/단점
장점 | 단점 |
목적기반 순차 처리, 랜덤 처리 가능 레코드 삽입, 삭제, 갱신 용이 |
색인 구역과 오퍼플로 구역 구성위한 추가 공간 필요 빈번한 파일 추가, 삭제 시 효율 저하 |
③ 직접 파일(Direct File)
직접 파일은 파일을 구성하는 레코드를 특정 순서 없이 임의의 물리적 저장 공간에 기록하는 파일이다.
직접 파일의 장/단점
장점 | 단점 |
물리적 주소를 통해 각 레코드에 직접 접근하거나 기록 가능 평균 접근시간 내 접근 가능 |
레코드 주소 변환 과정 필요로 후가 시간 소요 별도의 기억공간 확보 필요 기억공간의 효율 저하 가능성 존재 |
2. 데이터 전환 수행
(1) 체크리스트 개념
체크리스트는 전환 프로그램의 에러, 시간 제약, 비즈니스 로직 변경, 긴급 상황 및 위험요인 대응을 위한 측정 가능한 목록이다.
(2) 데이터 검증
데이터 검증 종류
검증 종류 | 검증 내역 |
로그 검증 | 전환 시 수행되는 추출·적재 로그를 작성하여 검증 |
애플리케이션 검증 | 응용 애플리케이션을 통한 프로그램 기반 검증 |
데이터 검증 | 사전 정의된 업무 규칙을 통하여 데이터 정합성 검증 수행 |
전환 단계별 결과 검증
시점 | 목적 |
추출 검증 | 원천데이터 정합성 확인 |
전송 검증 | 전송 데이터 유실 확인 |
전환 검증 | Staging DB 구성 후 데이터 검증 |
적재 검증 | 전환데이터 정합성 검증 |
통합 검증 | 매핑 정의서 오류 검증 |
3. 데이터 정제
(1) 데이터 정제
데이터 정제 요청서 작성 항목 = I제테처
작성 항목 | 설명 |
정제 ID | 연월 순번으로 yyyymm-sss 형태로 작성, |
정제 제목 | 정제 요청 내용을 함축적으로 표현할 수 있는 소제목 |
관련 테이블 | 졍제 요청 자료와 관련이 있는 테이블 |
예상 처리건수 | 정제 처리를 해야 하는 자료의 예상 건수 |
(2) 데이터 품질 분석
데이터 품질 관리
조직/대상 | 데이터 값 | 데이터 구조 | 관리 프로세스 |
CIO/EDA (개괄적 관점) |
데이터 관리 정책 | ||
DA (개념적 관점) |
표준 데이터 | 개념 데이터 모델 데이터 참조 모델 |
데이터 표준 관리 요구사항 관리 |
모델러 (논리적 관점) |
모델 데이터 | 논리 데이터 모델 | 데이터 모델 관리 데이터 흐름 관리 |
DBA (물리적 관점) |
관리 데이터 | 물리 데이터 모델 데이터베이스 |
데이터베이스 관리 |
User (운용적 관점) |
업무 데이터 | 사용자 뷰(View) | 데이터 활용 관리 |
(3) 오류 데이터 측정
오류 데이터 측정
데이터 구분 | 작업 설명 |
정상 데이터 | 전환 대상 범위의 데이터를 업무 영역별, 테이블별로 세분화 |
정상 데이터의 수량을 정확히 측정 및 기록 | |
오류 데이터 | 정합성 기준을 근거로 업무별 오류 위치와 유형을 파악 |
오류 데이터의 수량을 측정하여 오류 관리 목록에 기재 |
https://book.naver.com/bookdb/book_detail.nhn?bid=15910265
수제비 정보처리기사 필기
NCS 모듈제작에 참여한 경험을 기반으로, 다양한 모듈에서 시험 출제 빈도를 분석하여 출제 비중이 높은 내용 위주로 구성했다. 출제 비중이 낮고 이해하기 어려운 개념들은 과감하게 제외함으
book.naver.com
'IT 자격증 > 정보처리기사' 카테고리의 다른 글
정보처리기사 필기 4주차 Day-2 정리 (0) | 2021.07.29 |
---|---|
정보처리기사 필기 4주차 Day-1 정리 (0) | 2021.07.29 |
정보처리기사 필기 3주차 Day-4 정리 (0) | 2021.07.25 |
(추가)정보처리기사 필기 3주차 Day-3 정리(추가) (0) | 2021.07.24 |
정보처리기사 필기 3주차 Day-2 정리 (0) | 2021.07.23 |