5 분 소요

빅데이터 분석기사 실기 대비 차원에서 쓴 글입니다.
기출문제의 데이터는 https://github.com/ingu627/BigDataAnalysis에 데이터 셋을 남겨놨습니다.

정답보기는 문제 왼쪽의 토글을 클릭합니다. ▶ 이거.

혹시 해당 글을 pdf로 받고 싶으신 분은 이메일과 함께 댓글로 남겨주세요~


1단원. 빅데이터 분석 기획

1.

수집 대상 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술 정답: ETL


2.

( )은/는 사용자의 의사 결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스이다. 정답: 데이터 웨어하우스 (DW)


3.

()은/는 서버, 클라이언트 방식으로 로컬 또는 원격의 수집 대상 시스템과 1:1로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술이다. 정답: Rsync


4.

()은/는 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 대응되는 액션을 수행하는 처리 기술이다. ()을/를 통해 실시간 상황에서 의미 있는 이벤트를 파악하고 가능한 빨리 대응할 수 있다. 괄호()안에 공통적으로 들어갈 가장 올바른 용어를 쓰시오. 정답: CEP (Complex Event Processing)


5.

커넥터(Connector)를 사용하여 관계형 데이터베이스(RDB)와 하둡(Hadoop)간 데이터를 수집하고 전송하는 기술은 무엇인가? 정답: 스쿱 (Sqoop)


6.

대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하고 분산 응용 프로그램을 지원하는 오픈 소스 자바 소프트웨어 프레임워크는 무엇인가? 정답: 하둡(Hadoop)


7.

웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬(Python) 기반의 애플리케이션 프레임워크로서 데이터 마이닝, 정보 처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 비정형 데이터 수집 기술은 무엇인가? 정답: 스크래파이(Scrapy)


8.

대규모로 저장된 데이터 안에서 체계적으로 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법은 무엇인가? 정답: 데이터 마이닝


9.

()은/는 대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발행(Publish), 구독(Subscribe)하는 방식의 분산 스트리밍 플랫폼 기술이다. 괄호 ()안에 들어갈 가장 올바른 데이터 수집 기술을 쓰시오. 정답: 아파치 카프카(Apache Kafka)


10.

()은/는 다수의 수집 대상 서버로부터 실시간 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술이다. 괄호 ()안에 들어갈 가장 올바른 용어를 쓰시오. 정답: 스크라이브 (Scribe)


11.

대규모 분산 시스템 모니터링을 위해 에이전트와 컬렉터 구성을 통해 데이터를 수집하고, 수집된 데이터를 하둡 파일 시스템(HDFS)에 저장하는 기능을 제공하는 데이터 수집 기술은 무엇인가? 정답: 척와 (Chuckwa)


12.

스키마 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터로 SNS 데이터나 오디오/이미지/비디오 데이터가 속하는 데이터의 유형은 무엇인가? 정답: 비정형 데이터


13.

스키마(형태) 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식에서 일관성을 가지지 않는 데이터
XML, HTML과 같은 웹 데이터가 Node 형태의 구조를 가짐
정답: 반정형 데이터


14.

W3C에서 개발된. SGML 문서 형식을 가진, 다른 특수한 목적을 갖는 마크업 언어를 만드는 데 사용하는 다목적 마크업 언어는 무엇인가? 정답: XML


15.

빅데이터 수집 시스템에서 수집 대상이 되는 데이터를 저장 형태 관점에서 분류했을 때 센서 데이터, HTTP 트랜잭션, 알람 등과 같이 네트워크를 통해서 실시간으로 전송되는 데이터의 유형은 무엇인가? 정답: 스트림 데이터


16.

데이터베이스에서 자료의 구조, 자료의 표현 방법, 자료 간의 관계를 형식 언어로 정의한 구조를 무엇이라 하는가? 정답: 스키마


17.

데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터는 무엇인가? 정답: 메타데이터


18.

데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기법으로 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만들기 위해 구간화, 군집화 등의 기법을 적용하는 데이터 변환 기술은 무엇인가? 정답: 평활화 (Smoothing)


19.

()은/는 데이터를 정해진 구간 내에 들도록 하는 기법으로 최단 근접 분류와 군집화와 같은 거리 측정 등을 위해 특히 유용하다. 괄호 ()안에 들어갈 변환 기술을 쓰시오. 정답: 정규화


20.

데이터 비식별화 처리 기법 중 아래에서 설명하는 기법은?

수집된 정보에 민감한 개인 정보가 있을 경우 데이터 집합 또는 부분으로 집계 처리를 하여 민감성을 낮추는 방법
정답: 총계 처리 기법 (Aggregation)


21.

데이터 비식별화 처리 기법 중 은폐화 방법이라고도 하며, 명확한 값을 숨기기 위하여 데이터의 평균값으로 변환하는 방식으로 랜덤 올림 방법, 범위 방법, 세분 정보 제한 방법, 제어 올림 방법의 세부 기술을 가지고 있는 기법은? 정답: 범주화 기법


22.

아래는 비식별화 기법에 대한 설명이다. 괄호 ()안에 올바른 기법을 쓰시오.

()기법은 개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값(공백, '*', 노이즈 등)으로 변환하는 기법이다.
완전 비식별화가 가능하며 원시 데이터의 구조에 대한 변형이 적다.
정답: 데이터 마스킹


23.

프라이버시 보호 모델에서 주어진 데이터 집합에서 함께 비식별되는 레코드들은(동질 집합에서) 적어도 l개의 서로 다른 민감한 정보를 가져와야 하는 프라이버시 모델은 무엇인가? 정답: l-다양성


24.

()은/는 개인이 자신의 정보를 관리, 통제할 뿐만 아니라 이러한 정보를 신용이나 자산관리 등에 능동적으로 활용하는 일련의 과정을 의미한다.
개인은 데이터의 활용과 관리에 대한 통제권을 개인이 가진다는 것이 핵심 원리이다.
정답: 마이데이터


25.

전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인(Join) 연산을 사용할 수 없으며, 수평적으로 확장이 가능한 DBMS이다. 정답: NoSQL


26.

빅데이터 저장을 위한 분산 파이 시스템 중에서 구글의 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템으로 파일을 고정된 크기(64MB)의 청크들로 나누고, 청크와 여러 개의 복제폰을 청크 서버에 분산하여 저장하는 시스템은? 정답: 구글 파일 시스템 (GFS; Google File System)


27.

수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 분산 파일 시스템은 무엇인가? 정답: 하둡 분산 파일 시스템 (HDFS; Haddop Distributed File System)


28.

리눅스와 클러스터의 합성어로, 고성능 컴퓨팅을 위한 대용량 파일 분산 파일 시스템으로, 고속 네트워크로 연결된 클라이언트 파일 시스템, 메타데이터 서버, 객체 저장 서버들로 구성된 시스템은 무엇인가? 정답: 러스터 (Lustre)


29.

아래에서 설명하는 데이터베이스 저장 기술은 무엇인가?

하나의 데이터 베이스를 여러 개의 서버 상에 분산하여 구축하는 저장 기술로 데이터를 통합할 때, 성능과 가용성의 향상을 위해 데이터베이스 파티셔닝 등을 이용한다.
정답: 데이터베이스 클러스터


30.

다음은 NoSQL의 유형에 대한 설명이다. 괄호 ()안에 들어갈 유형을 쓰시오.

시맨틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터를 표현하는 DB로 Neo4j, AllegroGrpah 등의 제품이 있는 NoSQL의 유형은 ()이다.
정답: Graph Store


31.

NoSQL 제품 중 하둡 분산 파일 시스템(HDFS)을 기반으로 구현된 컬럼 기반의 분산 데이터베이스로 비관계형이며 SQL을 지원하지 않는 특성이 있고, 관계형 데이터베이스(RDBMS)와 달리 수평적으로 확장성이 있어 큰 테이블에 적합한 제품은 무엇인가? 정답: HBase


32.

()은/는 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것으로 도수분포표를 그래프로 표현한 형태이다. 정답: 히스토그램


33.

비동기 브라우저/서버 통신(AJAX)을 위해 '속성-값 쌍', '키-값 쌍'으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 자바 스크립트를 토대로 개발된 개방형 표준 포맷은 무엇인가? 정답: JSON


34.

괄호 ()안에 들어갈 가장 올바른 용어를 쓰시오.

()은/는 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크이다.
모든 데이터를 키-값(Key-Value)쌍으로 구성하고, 데이터를 분류 및 처리한다.
Map -> Shuffle -> Reduce 순서대로 데이터를 처리한다.
정답: 맵리듀스 (MapReduce)


35.

오픈 소스 소프트웨어로 제작된 컬럼 기반 스토리지로 아파치 하둡 환경의 데이터 처리 프레임워크 대부분과 호환이 가능하고 특정 컬럼에 대한 데이터 읽기를 고속화할 수 있는 특징이 있는 하둡 에코 시스템은 무엇인가? 정답: 쿠두 (Kudo)


36.

리소스 관리와 컴포넌트 처리를 분리한 하둡 2.0에 도입된 분산 클러스터 리소스 관리 플랫폼은 무엇인가? 정답: 얀 (YARN)


37.

아래에서 설명하는 하둡 에코 시스템은 무엇인가?

대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 자체 언어를 제공한다.
맵리듀스 API를 매우 단순화시키고, SQL과 유사한 형태로 설계된다.
정답: 피그 (Pig)


38.

괄호()안에 공통적으로 들어갈 용어를 쓰시오.

()은/는 데이터 현황 분석을 위한 자료 수집을 통해 잠재적 오류 징후를 발견하는 방법이다.
()은/는 데이터의 저장, 연계, 가공, 활용 등 데이터의 변경이 발생하는 모든 영역에서 수행하여 오류를 사전에 파악할 수 있다.
정답: 데이터 프로파일링


39.

인 메모리(In-Memory) 기반으로 빅데이터 워크로드에 주로 사용되는 오픈 소스 분산 처리 시스템으로 빠른 성능을 위해 인 메모리 캐싱을 사용하고, 스트리밍 데이터 처리, 온라인 러닝머신, SQL 질의 처리, 그래프 라이브러리 처리 등 실시간 데이터 처리가 가능한 하둡 에코 시스템은 무엇인가? 정답: 아파치 스파크


40.

하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임으로 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술을 포함한 용어는 무엇인가? 정답: 하둡 에코 시스템


41.

아래는 하둡 에코 시스템에 대한 설명이다. 괄호 ()안에 들어갈 가장 올바른 시스템을 쓰시오.

()은/는 하둡기반의 DW(Data Warehouse) 솔루션으로 사용자가 SQL(Simple Query Language)로 쿼리를 작성하면 내부적으로 맵리듀스로 변환되어 실행된다.
정답: 하이브(Hive)


42.

하둡 기반의 대용량 데이터를 SQL 형태명령을 통해 분산 분석 작업을 지원하는 대용량 데이터 웨어하우스로 하둡의 HDFS을 메인 저장소로 활용하고, 다양한 파일 형태와 압축을 지원하며, ANSI-SQL 표준 준수 및 자동 최적화를 지원하는 하둡 에코 시스템은 무엇인가? 정답: 타조 (Tajo)


43.

()은/는 하둡 작업을 관리하는 워크플로우 및 코디 네이터 시스템으로 자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버로 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우를 제어한다. 괄호 ()안에 들어갈 가장 정확한 하둡 에코 시스템은 무엇인가? 정답: 우지 (Oozie)


44.

다음은 데이터 수집 기술에 대한 설명이다. 괄호()안에 들어갈 기술은 무엇인가?

()은/는 데이터 백업이나 통합 작업을 할 경우 최근 변경된 데이터들을 대상으로 다른 시스템으로 이동하는 처리 기술로 실시간 백업과 데이터 통합이 가능하여 24시간 운영해야 하는 업무 시스템에 활용된다.
정답: CDC (Change Data Capture)


45.

웹상에 존재하는 데이터를 개별 URI(Uniform Resource Identifier)로 식별하고, 각 URI에 링크 정보를 부여함으로써 상호 연결된 웹을 지향하는 오픈 데이터는 무엇인가? 정답: LOD (Linked Open Data)


46.

데이터베이스 시스템에서 하나의 논리적 기능을 정상적을 수행하기 위한 작업의 기본 단위를 무엇이라고 하는가? 정답: 트랜잭션(Transaction)


References

댓글남기기