본문 바로가기

생활의 정보화/인공지능( AI : Artificial Intelligence)

인공지능과 빅데이터(AIDE 2급 자격시험 대비 요점정리)

인공지능과 빅데이터

 

인공지능 빅데이터 활용

. 빅데이터 : 대량의 정형(수치화 가능), 비정형(영상, 사진, 음성 등)데이터로부터 가치를 추출하는 기술

1) 대량의 모든 데이터 : 컴퓨터, 인터넷 등 디지털 환경에서 발생하는 데이터

2) 데이터 가치와 결과 분석 기술

3) 빅데이터 플랫폼 등장 : 데이터 관리 하드 및 소프트웨어, 어플이 등장

4) 대규모 데이터 관리기술이 등장 : 저장, 관리, 분석하는 하드, 소프트웨어, 유통, 활용 기술

- 최근 인터넷과 모바일의 출현으로 빅데이터 시대 개막

2. 빅데이터 특징

. 특징 : 규모(Volume), 속도(Velocity), 다양성(Variety)

1) 초기 빅데이터(3V 빅데이터) : 규모(Volume), 속도(Velocity), 다양성(Variety)

2) 4V 빅데이터 : 3V 빅데이터 + 정확성(Veracity)

3) 5V 빅데이터 : 4V 빅데이터 + 가치(Value)

) 규모 : 크기 나) 속도 : 실시간 처리 및 분석

) 다양성 : 저장되는 데이터의 형태 즉 정형, 비정형, 반정형 데이터

정형(Structured) 데이터 : 구조화된 데이터, 고정 필드에 저장(데이터베이스, 엑셀, csv)

반정형(Semi-Structured) 데이터 : 고정 필드는 아니지만 스키마를 포함, 연산 불가(, HTML, JSON)

비정형(Unstructured) 데이터 : 고정되지 않은 데이터, 형태 없고 연산 불가(소셜미디어, 영상, 음성, 이미지)

3. 인공지능과 데이터의 상관관계

. 인공지능의 성능향상 : 양질의 데이터가 필요

. 인공지능은 라벨링된 데이터가, 빅데이터 역시 가공(전처리)된 데이터가 필요

. 인공지능이 필요한 데이터 제작에 80%의 시간이 소요

4. 데이터 라벨링 : 인공지능 모델학습을 위한 데이터를 기계가 이해할 수 있는 형태로 가공

. 데이터 정의 : 필요 데이터 분석, 확보할 데이터 정의, 구축 계획서(종류, 수량, 형태 정의) 작성

. 데이터 획득 : 최대한으로 확보 부족할 시 크롤링 작업

. 데이터 정제 : 학습할 수 있는 상태로 분류, 가공, 변형하여 원천 데이터 생성

. 데이터 라벨링 : 원천 데이터를 학습 가능한 데이터로 제작

. 데이터 학습 : 원천 데이터와 라벨링 데이터가 꼭 필요

크롤링 작업 : 웹페이지를 통째로 가져와 데이터 수집하는 것

5. 데이터셋 : 원천데이터와 라벨링데이터를 모아 놓은 자료의 집합

6. 저작권과 초상권

. 저작권 : 창작적인 표현의 결과물에 대한 권리(저작인격권, 저작재산권) - 이미지, 폰트, 뉴스, 기사, 포털 정보 등

. 초상권 : 얼굴 기타 통념상 특정인임을 식별할 수 있는 신체적 특징으로 촬영, 그림묘사, 공표 불가, 영리적 사용불가

개인 정보 취급시 주의 사항 : 신체적 정보(신체, 의료), 정신적 정보(성향, 사상), 재산적 정보(금융, 신용), 사회적 정보(교육, 범위), 기타(통신, 위치, 병역, 화상) 등은 가명, 범주화, 마스킹하여 구분할 수 없도록 하여 사용

 

 
반응형