1) 데이터베이스 종류
데이터베이스란?
다수의 인원, 시스템 또는 프로그램이 사용할 목적으로 통합하여 관리되는 데이터의 집합.
데이터에 대한 효과적인 관리를 위해 자료의 중복성 제거, 무결성 확보, 일관성 유지, 유용성 보장 중요.
데이터베이스는 통합된 데이터, 저장된 데이터, 운영 데이터, 공용 데이터
- 통합된 데이터(Integrated Data) : 자료의 중복을 배제한 데이터의 모임
- 저장된 데이터(Stored Data) : 저장 매체에 저장된 데이터
- 운영 데이터(Operational Data) : 조직의 업무를 수행하는 데 필요한 데이터
- 공용 데이터(Shared Data) : 여러 애플리케이션, 시스템들이 공동으로 사용하는 데이터
데이터베이스 특성
- 실시간 접근성 (Real-Time Accessibility) : 쿼리에 대해 실시간 응답 가능
- 계속적인 변화 (Continuous Evolution) : 새로운 데이터의 삽입, 삭제, 갱신으로 항상 최신 데이터 유지
- 동시 공용 (Concurrent Sharing) : 다수의 사용자가 동시에 같은 내용의 데이터를 이용 가능
- 내용 참조 (Content Reference) : 데이터베이스에 있는 데이터를 참조할 때 데이터 레코드의 주소나 위치에 의해서가 아닌, 사용자가 요구하는 데이터 내용으로 데이터를 찾음.
데이터베이스 관리 툴이란?
DB관리자들이 데이터베이스를 편리하고 쉽게 다룰 수 있도록 도와주는 도구.
오픈 소스 기반으로 무료로 사용할 수 있는 툴과 상용화로 비용을 지불해야 사용할 수 있는 툴이 존재.
DB 생성 및 삭제 / SQL 명령어 작성 및 실행 / 상태 모니터링 / 사용자 계정 관리 / DB 내보내기 및 가져오기 / 환경 설정
[데이터베이스 종류]
파일 시스템이란?
파일에 이름을 부여하고 저장이나 검색을 위하여 논리적으로 그것들을 어디에 위치시켜야 하는지 등을 정의한 뒤 관리하는 데이터베이스 전 단계의 데이터 관리 방식.
파일 시스템의 종류
- ISAM (Indexed Sequential Access Method) : 자료 내용은 주 저장부, 자료의 색인은 자료가 기록된 위치와 함께 색인부에 기록되는 시스템.
- VSAM (Virtual Storage Access Method) : 대형 운영체제에서 사용되는 파일 관리시스템
관계형 데이터베이스 관리시스템(RDBMS : Relational Database Management System)
관계형 모델을 기반으로 하는 가장 보편화된 DBMS.
데이터를 저장하는 테이블의 일부를 다른 테이블과 상화 관계로 표시하며 상관관계 정리.
변화하는 업무나 데이터 구조에 대한 유연성이 좋아 유지 관리 용이.
Oracle / SQL Server / MySQL / Maria DB
계층형 데이터베이스 관리시스템(HDBMS : Hierarchical Database Management System)
데이터를 상하 종속적인 관계로 계층화하여 관리하는 DB
데이터에 대한 접근 속도가 빠르지만, 종속적인 구조로 인하여 변화하는 데이터 구조에 유연하게 대응하기 쉽지 않다.
IMS / System2000
네트워크 데이터베이스 관리시스템(NDBMS : Network Database Management System)
데이터의 구조를 네트워크상의 망상 형태로 표현한 데이터 모델.
트리 구조나 계층형 데이터베이스보다는 유연하지만 설계가 복잡한 단점.
IDS / IDMS
DBMS란?
데이터 관리의 복잡성을 해결하는 동시에 데이터 추가, 변경, 검색, 삭제 및 백업, 복구, 보안 등의 기능을 지원하는 소프트웨어
DBMS 유형
- 키-값(Key-Value) DBMS : 키 기반 Get / Put / Delete 제공, 메모리 기반에서 성능 우선 시스템 및 빅데이터 처리 가능 DBMS. 유니크한 키에 하나의 값을 가지고 있는 형태.
Redis / DynamoDB
- 컬럼 기반 데이터 저장(Column Family Data Store) DBMS : Key 안에 (Column, Value) 조합으로 된 여러 개의 필드를 갖는 DBMS. 테이블 기반, 조인 미지원, 컬럼 기반으로 구글의 Bigtable 기반으로 구현.
HBase / Cassandra
- 문서 저장(Document Store) DBMS : 값의 데이터 타입이 문서라는 타입을 사용하는 DBMS. 문서 타입은 XML, JSON과 같이 구조화 된 데이터 타입으로, 복잡한 계층 구조 표현이 가능.
MongoDB / Couchbase
- 그래프(Graph) DBMS : 시맨틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터를 표현하는 DBMS. 노드와 엣지로 특징되는 요소 특화. 노드 간 관계를 구조화하여 저장.
Neo4j / AllegroGraph
* 시맨틱 웹(Semantic Web)?
온톨로지를 활용하여 서비스를 기술하고, 온톨로지의 의미적 상호 운용성을 이용해 서비스 검색, 조합, 중재 기능을 자동화하는 웹.
* 온톨로지(Ontology)?
실세계에 존재하는 모든 개념들과 개념들의 속성, 그리고 개념들 간의 관계 정보를 컴퓨터가 이해할 수 있도록 서술해 놓은 지식베이스.
DBMS 특징
- 데이터 무결성 : 부적절한 자료가 입력되어 동일한 내용에 대하여 서로 다른 데이터가 저장되는 것을 허용하지 않음.
- 데이터 일관성 : 삽입 / 삭제 / 갱신 / 생성 후에도 저장된 데이터가 변함없이 일정.
- 데이터 회복성 : 장애가 발생하였을 시 특정 상태로 복구되어야 하는 성질.
- 데이터 보안성 : 불법적인 노출, 변경, 손실로부터 보호되어야 하는 성질.
- 데이터 효율성 : 응답 시간, 저장 공간 활용 등이 최적화되어 사용자, 소프트웨어, 시스템 등의 요구 조건을 만족시켜야 함.
상용 DBMS란?
특정 회사에서 유료로 판매하는 시스템. 유지보수와 지원이 원활함.
오픈소스 기반 DBMS
오픈 소스 라이선스 정책을 준용하는 범위 내에서 자유로운 사용.
오픈소스 기반 DBMS 고려 사항
- 기업들의 원가 절감 노력과의 상관 관계파악.
- 인공 지능, 클라우드, 빅데이터 등 새로운 기술의 증가에 따른 오픈 소스 DBMS의 대응 동향 분석
- 오픈소스 진영에서 보안, 안정성에 대한 우려를 해결하고자 하는지 조사.
- 정책적으로 오픈소스 DBMS 활성화를 추진하는 사례 정리.
[ 데이터베이스 기술 트렌드 ]
빅데이터란?
시스템, 서비스, 조직 등에서 주어진 비용, 시간 내에 처리 가능한 데이터 범위를 넘어서는 수십 PB크기의 비정형 데이터.
빅데이터의 특성
- 양 : PB수준의 대규모 데이터. 디지털 정보량이 기하급수적으로 폭증. 분석 규모
- 다양성 : 정형 / 비정형 / 반정형의 다양한 데이터. 로그, 소셜, 위치 등 데이터의 유형이 다양해짐. 자원 유형
- 속도 : 빠르게 증가하고 수집 및 처리되는 데이터. 가치 있는 정보 활용을 위해 실시간 분석 중요. 수집 / 분석 / 활용 속도
빅데이터 수집, 저장, 처리 기술
- 비정형 / 반정형 데이터 수집 : 내·외부 정제되지 않은 데이터를 확보, 이를 통해 필요 정보를 추출하여 활용하기 위해 효과적으로 수집 및 전송하는 기술. 척와(Chukwa) / 플럼(Flume) / 스크라이브(Scribe)
- 정형 데이터 수집 : 내·외부 정제된 대용량 데이터의 수집 및 전송기술. ETL / FTP / 스쿱(Sqoop) / 하이호(Hiho)
- 분산데이터 저장 / 처리 : 대용량 파일의 효과적인 분산 저장 및 분산 처리 기술. HDFS / 맵 리듀스
* HDFS(Hadoop Distributed File System)이란?
대용량 데이터의 집합을 처리하는 응용 프로그램에 적합하도록 설계뙨 하둡 분산 파일 시스템.
* 맵 리듀스(Map Reduce)이란?
구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년에 발표한 소프트웨어 프레임워크.
- 분산데이터 베이스 : HDFS의 컬럼 기반 DB로 실시간 랜덤 조회 및 업데이트 가능. HBase
빅데이터 분석, 실시간 처리 및 시각화를 위한 주요 기술
- 빅데이터 분석 : 빅데이터 분석을 위한 데이터의 가공과 분류, 클러스터링, 패턴 분석을 처리하는 기술.
데이터 가공 솔루션 => 피그(Pig), 하이브(Hive) / 데이터 마이닝 솔루션 => 머하웃(Mahout)
- 빅데이터 실시간 처리 : 하둡 기반의 실시간 SQL 질의 처리와 요청된 작업을 최적화하기 위한 워크플로우 관리 기술.
실시간 SQL 질의 솔루션 => 임팔라(Impala) / 워크플로우 관리 솔루션 => 우지(Oozie)
- 분산 코디네이션 : 분산 환경에서 서버들 간에 상호조정이 필요한 다양한 서비스를 분산 및 동시처리 제공 기술.
분산 코디네이션을 위한 솔루션 => 주키퍼(Zookeeper)
- 분석 및 시각화 : 빅데이터 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술.
분선 및 시간화를 위한 솔루션 => 알(R)
NoSQL(Not Only SQL)이란?
전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인 연산을 사용할 수 없으며, 수평적으로 확장이 가능한 DBMS.
NoSQL 특성
- Basically Available : 언제든지 접근할 수 있어야 함. 분산 시스템이기에 항상 가용성을 중시.
- Soft-State : 노드의 상태는 내부에 포함된 정보에 의해 결정되는 것이 아닌 외부에서 전송된 정보를 통해 결정됨. 특정 시점에서는 데이터의 일관성이 보장되지 않음.
- Eventually Consistency : 일정 시간이 지나면 데이터의 일관성이 유지되는 속성. 일관성을 중시하고 지향함.
NoSQL 유형
(DBMS 유형과 같음)
- Key-Value Store
- Column Family Data Store
- Document Store
- Graph Store
데이터 마이닝이란?
대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기술. 대규모 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 기법.
데이터 마이닝은 데이터의 숨겨진 정보를 찾아내어 이를 기반으로 서비스와 제품에 도입하는 과정.
통계분석은 가설이나 가정에 따른 분석, 검증을 하지만 데이터 마이닝은 수리 알고리즘을 활용하여 대규모 데이터에서 의미 있는 정보를 찾아냄.
데이터 마이닝 절차
목적 설정 -> 데이터 준비 -> 가공 -> 마이닝 기법 적용 -> 정보 검증
1. 목적 설정 : 데이터 마이닝을 통해 얻고자 하는 명확한 목적 설정. 목적에 따라 사용할 모델과 필요 데이터 정의.
2. 데이터 준비 : 거래정보, 웹로그 데이터, 고객 정보, 데이터 사용량, 소셜 데이터 등 다양한 데이터 활용. 사전에 운영 데이터 접근에 따른 부하 고려. 필요시 작업 서버에 저장하여 운영에 지장이 없도록 데이터를 준비하고 데이터 정제를 통해 데이터의 품질을 보장, 필요시 데이터 추가 등을 통해 충분한 양의 데이터 확보.
3. 가공 : 모델링 목적에 따라 목적 변수 정의. 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있는 형식으로 가공 처리.
4. 마이닝 기법 적용 : 1단계의 명확한 목적에 맞도록 데이터 마이닝 기법을 적용하여 정보 추출.
5. 정보 검증 : 데이터 마이닝으로 추출된 정보를 검증함. 테스트 데이터와 과거 데이터를 활용하여 최적의 모델을 선정. 데이터 마이닝 결과의 업무 적용 보고서 작성 및 활용.
데이터 마이닝 주요 기법
- 분류 규칙 (Classification) : 과거 데이터로부터 특성을 찾아내어 분류모형을 만들어 이를 토대로 새로운 레코드의 결과 값을 예측하는 기법. 마케팅, 고객 신용평가 모형에 활용.
- 연관 규칙 (Association) : 데이터 안에 존재하는 항목들 간의 종속관계를 찾아내는 기법. 제품이나 서비스의 교차판매, 매장 진열, 사기 적발 등 다양한 분야에서 활용.
- 연속 규칙 (Sequence) : 연관 규칙에 시간 관련 정보가 포함된 형태의 기법. 개인별 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생 가능성 예측.
- 데이터 군집화 (Clustering) : 대상 레코드들을 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업으로 작업의 특성이 분류규칙과 유사. 정보가 없는 상태에서 데이터를 분류하는 기법. 분석대상에 결과값이 없으며 판촉활동이나 이벤트 대상을 선정하는데 활용.
데이터 마이닝은 텍스트 마이닝, 웹 마이닝과 함께 다양한 분야에서 활용됨.
* 텍스트 마이닝?
대량의 덱스트 데이터로부터 패턴 또는 관계를 추출하여 의미 있는 정보를 찾아내는 기법. 비정형·반정형 데이터에 대하여 자연어·문서 처리기술을 적용하여 의미있는 정보를 추출.
* 웹 마이닝?
웹으로부터 얻어지는 방대한 양의 정보로부터 유용한 정보를 찾아내기 귀해 분석하는 기법. 웹 자원으로부터 의미있는 패턴, 프로파일, 추세 등을 발견하기 위해 데이터 마이닝 기술을 응용한 것.
'정보처리기사' 카테고리의 다른 글
4.2 연계 메커니즘 구성 (0) | 2022.09.14 |
---|---|
4.1 연계 데이터 구성 (0) | 2022.09.14 |
3.2 물리 데이터 저장소 설계 (0) | 2022.09.13 |
3.1 데이터 모델 (0) | 2022.09.13 |
2.2 UI 설계 (0) | 2022.09.13 |