지능형 콘텐츠 기술 발전전략 연구(인공지능의 콘텐츠 분야 적용 필요성 및 활용 가능성, 콘텐츠 관련 인공지능 기술 분석 및 적용 타당성)
지능형 콘텐츠 기술 발전전략 연구
1)인공지능의 콘텐츠 분야 적용 필요성 및 활용 가능성
인공지능의 콘텐츠 분야 적용 필요성 및 활용 가능성
1. 인공지능의 콘텐츠 분야 적용 필요성
-> 콘텐츠 환경의 패러다임 변화
(사회적 측면) 개인중심의 여가생활과 힐링 라이프 스타일 확산 추세
맞춤형 문화와 개인스타일을 중시하여, 독창적이고 자유로우며 본능적인 라이프
스타일을 추구
급변하는 현대사회의 피로감과 낮은 삶의 만족도 속에서 힐링에 대한 관심이
증대되고 있으며, 휴식과 심신 안정, 웰빙 관련 소비행태들이 확산
* 여가활동의 주목적은 ‘개인의 즐거움을 위해(41.1%)’인 것으로 나타났으며, 그 외
‘스트레스 해소를 위해(14.7%)’, ‘마음의 안정과 휴식을 위해(14.4%)’, ‘건강을
위해(9.7%)’ 여가활동을 하는 것으로 조사(문화체육관광부, 2014년 국민여가활동조사)
->(기술적 측면) 지능정보기술과 VR, 융합기술의 혁신적 발전에 따라 음악,
게임, 출판, 영화 등 다양한 콘텐츠의 창출, 전달, 공유, 소비 가속화
지능정보기술을 통해 콘텐츠 제공자는 개별 시장과 소비자를 미시적 차원에서
분석·파악할 수 있고 소비자는 더욱 개인화된 맞춤형 콘텐츠를 제공 받는 것이 가능
모바일을 통해 SNS가 일상생활화 되었으며, SNS를 통해 콘텐츠의 생산과
소비를 용이하게 하는 큐레이션 서비스가 확대되고 있어 비슷한 취향을 가진
사용자들이 콘텐츠를 공동으로 생산·유통하는 구조로 진화
* 이와 동시에, SNS 이용확산에 따른 명예훼손, 프라이버시 침해, 불법유해정보 유통
등 부작용도 등장
콘텐츠를 창출, 전달, 공유하는 주체가 개인으로 이동하는 것이 지능정보기술
혁신이 가져올 주요 파급효과
이용자에게 몰입 체험을 제공하는 가상현실 기술은 콘텐츠의 소비에 새로운
이용자 경험을 제공
* 최근 페이스북이 인수한 오큘러스 리프트(Oculus Rift), 구글이 투자한 매직 립(Magic
Leap), MS의 홀로렌즈(HoloLens)등이 주목받고 있음
비콘, O2O와 같은 융합기술은 온오프라인 거래와 관련하여 콘텐츠의 맞춤형
구매와 소비를 가능하게 하는 기반 기술
-> (경제적 측면) 융합 패러다임 및 공유경제 확산
산업융합은 이종 산업간 제품과 서비스가 상호 결합하여 기존에 없었던 새로운
제품과 서비스를 제공하는 것을 의미
기존산업의 성장 정체, 기술의 성숙, 소비자 욕구의 다양화 등에 대응하여
산업융합은 향후 몇 년간 세계경제의 주요 패러다임으로 남아있을 것으로 예측
글로벌 저성장 뉴 노멀(New Normal) 시대와 초연결사회의 도래로 온라인 개인
플랫폼을 제공하는 공유경제 서비스가 확산될 전망이고 수많은 경제 주체간의
공유가 일어나면 궁극적으로 콘텐츠 시장 성장률의 제고 가능
-> (정책적 측면) 국내외적으로 문화콘텐츠 경쟁력 제고를 위한 정책 추진
(국내) 정부는 “스마트미디어 산업 육성계획(2015~2020)”을 발표(2014.12.5.)
(국내) 문화체육관광부는 방송・영상, 콘텐츠, 게임, 영화, 음악 등 디지털콘텐츠
뿐 아니라 공연, 전시, 영상정보 등 문화정보 전반에 대한 데이터를 수집,
가공하여 부가가치 창출을 위한‘문화정보 아카이브’구축 및 고도화 추진
* 관광(52%)에 비해 문화예술(2%) 및 문화산업(4%)의 홈페이지 방문율 저조(`13.1~10월)
* 공공문화정보통합 메타데이터 구축 및 고도화를 위해 문화재청, 국립박물관,
대학박물관 등 주요 박물관의 문화유산 DB를 수집하여 아카이브로 구축하고 있으며
대상을 점차 확대해나갈 계획
(EU) 유럽위원회(EC)는 2005년 유럽의 도서관, 박물관, 미술관, 영화, 문서 기록
등 유·무형 문화유산 자원의 온라인화를 통한 보존활용을 위한 유로피아나
* 문화체육관광부, 미래창조과학부, 방송통신위원회, 중소기업청 공동 추진
전략 추진
(일본) 신성장동력의 일환으로 콘텐츠(애니메이션, 만화, 영화, 음악
등)·음식·패션· 디자인·관광 등 다양한 문화관광 전반의 국내외 경쟁력을
제고하기 위한 ‘쿨재팬’을 정부전략으로 지원
(싱가포르) 국가정보화(Intelligent Nation 2015) 전략의 일환으로 신기술과 ICT
융합기술을 활용한 문화관광 비즈니스의 고도화를 주요 내용으로 하는 디지털
컨시어지(Digital Concierge) 프로그램 추진
* 기존 관광데이터에 ICT 솔루션을 결합하여 실시간 정보공유, 위치기반 모바일
광고/거래 등 신시장 창출
-> 콘텐츠 분야의 인공지능 적용 요인
(콘텐츠 분야 특성) 콘텐츠 분야는 교통, 의료 등 타 산업에 인공지능을
적용하기 전 시범적용 분야로서 매우 적합하며, 적용결과는 융합산업의
성장에 긍정적 활용 가능
콘텐츠는 사용자의 편의 지원과 재미 증강을 위한 목적성이 강한 분야로서
인공지능 기술 적용 결과의 정확도에 대한 사용자의 민감도가 상대적으로
낮으며 책임소재 등 규제·제도 관련 이슈가 상대적으로 적은 분야임
* 동작인식 기술이 적용된 게임에서 사용자의 동작을 빠르고 정확하게 인지하지
못하더라도 사용자는 수용하는 반면(민감도 ▼), 자율주행차가 상대 자동차 혹은
사람의 동작을 제대로 인지하지 못하면 큰 사고 발생(민감도 ▲)
* (유사 예: 헬스케어 분야 vs. 의료 분야) 헬스케어 스마트 기기는 사용자 스스로가 건강과
활동량을 체크하는 흥미·호기심 만족을 위해 사용되는 것이라면 의료용 스마트 기기는
사용 대상의 생명과 직결되는 사항을 검사하기 위해 사용되는 것으로서, 두 스마트
기기가 같은 결과 값을 도출하더라도 사용자가 그 값을 활용하는 민감도는 상이함
콘텐츠 분야에 인공지능의 선제적 적용은 지능형 콘텐츠 시장 선점뿐만 아니라
타 산업간 융합의 성장 동력이 될 것으로 기대
* 음악+의료=음악치료, 콘텐츠+자동차=카인포테인먼트 등 콘텐츠는 타 산업과의 융합성이 높음
-> (콘텐츠 환경 변화) 콘텐츠 주체가 공급자 중심이 아닌 수요자 중심으로
변화하고 있으며 단순 재미를 위한 콘텐츠가 아닌 생활문화로서의
콘텐츠로 범위 확대
인공지능의 적용 필요성이 높은 콘텐츠 분야 특성에 따라 콘텐츠 환경 패러다임
변화 안에서의 사용자 니즈를 해결해줄 수 있는 기술 필요
* (콘텐츠 기획·제작) 과거 수동적이었던 소비자가 콘텐츠의 개발과 소비과정에
참여하는 생산적·창조적 프로슈머로 변모됨에 따라 기획능력과 창의성 확보를
지원하는 기술 적용 필요
* (콘텐츠 유통) 인터넷 구축과 콘텐츠의 디지털화로 인해 콘텐츠 유통이 활성화
되었으나 불법복제나 불법복제물 확산 우려가 있어 이를 방지하는 기술 필요
* (콘텐츠 유통) 원하는 시간에 장소 제한 없이 콘텐츠 활용이 가능해지면서 실시간
상황에 적합한 콘텐츠 제공에 대한 요구사항을 만족시킬 수 있는 기술 적용 필요
* (콘텐츠 소비) 우리의 경제력과 비교하여 국민이 느끼는 삶의 만족도(행복지수)는
선진국 대비 매우 낮은 수준으로, 삶의 질 향상을 위해서는 여가 활용도 제고와
즐거운 경험의 확대가 중요하며 이를 지원하는 기술 개발 필요
-->본 사업에서의 인공지능 조작적 정의
콘텐츠 분야에서의 인공지능이란, 인간의 기획·창조력을 향상시킴으로써
1) 누구나 참여 가능한 콘텐츠 기획을 가능하게 하고,
인간의 콘텐츠 제작 능력을 보완해주어
2) 경제적이고 효율적인 콘텐츠 제작을 가능하게 하며,
인간의 철저한 콘텐츠 유통검열 능력을 향상시킴으로써
3) 안전하고 투명한 콘텐츠 유통을 가능하게 하고,
이용자의 니즈와 상황에 맞춤화된 최적의 콘텐츠를 제공하기 위한
4) 이용자 맞춤형 콘텐츠 기획,
5) 전략적 콘텐츠 유통을 통해,
6) 즐겁고 편리한 콘텐츠 소비가 가능하도록 지원해주는 기술
-> 지능형 콘텐츠 기술 정의30)
- 지능형 콘텐츠는 구조적으로 풍부하고 의미적으로 분류되어있어, 자동으로
검색 가능하고 재사용 및 재구성이 가능하며 적응력이 뛰어난(Adaptable) 콘텐츠
- 인공지능이 콘텐츠에 적용된 지능형 콘텐츠 기술은 콘텐츠 수요자/공급자
측면에서 구분되어 정의 가능
(수요자 측면) 지능형 콘텐츠 기술이란, 콘텐츠 안에 인공지능을 적용함으로써
이용자 개입 없이 이용자의 요구에 적응된 형식으로 콘텐츠를 제공하는 기술
(공급자 측면) 지능형 콘텐츠 기술이란, 콘텐츠 제작·유통 과정 안에
인공지능을 적용함으로써 현장 업무의 효율성 제고에 기여하여 콘텐츠 산업
경쟁우위 선점을 지원하는 기술
-> 즉 지능형 콘텐츠 기술이란, 콘텐츠 수요자/공급자가 원하는 시기에 원하는
형식의 올바른 정보를 제공해줌으로써 뛰어난 경험*을 제공해주는 기술
* 수요자 측면에서는 새롭고 즐거운 문화생활 향유 경험, 공급자 측면에서는 효율적이고
편리한 업무수행 경험
2. 인공지능의 콘텐츠 분야 활용 가능성 및 관련성
2.1 인공지능의 콘텐츠 분야 활용 가능성
-> STEEP 분석 결과를 통해 사회적, 기술적, 경제적, 환경·생태계적, 정책적
분야에서 16가지 인공지능 메가트렌드 도출
(사회) 대인관계 형성, 합리적 소비, 효율적 업무, 고령화 해결책, 여성 사회진출,
영업·판매 지원, 창작 지원, 맞춤형 게임 제작 등에 AI가 영향을 미칠 것으로 예측
(기술) 인공지능 기술은 다양한 산업 내 기술과 융복합성이 높으며, 데이터 활용
증가와 인공지능 기술 수준의 성장이 두드러짐
(경제) 알파고의 등장과 함께 AI에 대한 관심 증가로 관련 시장이 성장할 것으로
전망되며, 특히 기계학습과 자연어 처리 기술을 활용한 서비스가 개발되는 추세
(환경·생태계) 자연환경 상태와 변화 등의 기록을 분석하고 향후 기후 및
생태계 등의 변화를 예측하는 데에 인공지능이 활용 가능할 것으로 기대
(정책) 인공지능 기술 개발을 위한 정부의 지원 정책이 활발히 추진되고 있으며
인공지능의 창작품에 대한 저작권 이슈 등이 대두
-> 콘텐츠 가치사슬 상에서의 인공지능 필요요소*와 인공지능 메가트렌드와의
매칭이 가능하며, 이는 콘텐츠에 인공지능을 적용할 타당성이 있으며
적용효과를 기대할 수 있음을 반영
* 1) 기획: 누구나 참여 가능한 콘텐츠 기획, 이용자 맞춤형 콘텐츠 기획, 2) 제작:
경제적이고 효율적인 콘텐츠 제작, 3) 유통: 안전하고 투명한 콘텐츠 유통, 전략적
콘텐츠 유통, 4) 소비: 즐겁고 편리한 콘텐츠 소비
― 메가트렌드(Mega Trend)와 AI 요소의 매칭분석표(MeTA Map)를 통해 인공지능의
콘텐츠 활용 가능성을 검토
2.2 콘텐츠 산업 현장에서 바라보는 인공지능 활용을 통한 미래상
1) 콘텐츠 장르 구분
->콘텐츠 장르는 문화체육관광부의 콘텐츠산업 통계조사 특수분류체계를
반영하여 다음과 같이 10개의 장르로 설정
1. 출판 산업, 2. 만화 산업, 3. 음악 산업, 4. 게임 산업, 5. 영화 산업,
6. 애니메이션 산업, 7. 방송 산업, 8. 광고 산업, 9. 캐릭터 산업, 10. e-러닝 산업
* 콘텐츠산업 특수분류체계는 11개 대분류, 43개 중분류, 98개 소분류로 구성
2) 장르별 전문가 대상 인터뷰 수행을 통한 콘텐츠 미래상 조사
-> 인터뷰 개요
콘텐츠 장르별 가치사슬 프로세스 현황과 인공지능 기술의 니즈를 정확하게
파악하고 인공지능 활용을 통해 변화되기를 기대하는 미래 모습을 예측하기
위해 실시하였으며 서면 및 대면 인터뷰 형식으로 진행
-> 인터뷰 대상 선정
콘텐츠 분야의 장르별 현장 전문가를 대상으로 실시
콘텐츠 산업 유망 분야 분포 및 ICT 분야에 대한 관심도를 고려하여 콘텐츠
10개 장르의 43개 기업의 실무자 인력을 고려하였으며, 이 중 18개 기업을 최종
인터뷰 대상으로 선정
-> 인터뷰 수행
`16. 8. 4. ~ `16. 8. 20.까지 약 3주에 걸쳐 서면·대면 인터뷰 수행
-> 인터뷰 결과
* 전문가 의견을 반영한 장르별 프로세스와 프로세스 내 인공지능 기술의 니즈·미래상
그림은 257페이지의 [붙임] 참조
현재 콘텐츠 산업 내 인공지능 기술을 적용하고 있는 현황에 대한 현장
전문가 의견은 다음과 같음
(출판) e-Book 제작 시 사용자를 고려하여 다양한 형식(맞춤형)으로 제작 중
(출판) 폰트 크기 설정 및 자동번역 등은 기술적으로 상당히 구현 가능한 수준
(출판) 온라인 서점 배급 분야에서 이미 배본 시스템 활용 중
(출판) 고객 특화 추천시스템은 많은 기업에서 이미 개발하여 서비스 제공 중
(영화) 실제 관객을 고려한 데이터 기반의 시나리오 작성 기법은 국내·외에서
계속 시도하고 있으나 현재로서는 효과가 없는 것으로 알고 있음
(e-러닝) 많은 e-러닝 기업들에서 학습자의 학습패턴에 따라 학습구조,
커리큘럼 등을 기획 중
-> 실제로 현장에서는 이미 인공지능 기술적 진보를 체감 중이며, 콘텐츠
제작과정을 간소화하거나 편리한 방식을 제공해주는 기술 적용은 찬성
강 인공지능이 아닌 약 인공지능의 개념으로는 어느 정도 기술이 구현·적용 중
콘텐츠 장르 현장 전문가들은 인공지능 기술에 대한 부정적인 의견을 적지 않게 갖고
있으나 인공지능이 인간의 능력을 보완·편의를 제공해준다는 측면에서는 동의
* 인공지능이 기획자·창작자, 프로듀서의 업무를 대체하는 것에 대한 우려 표시
* 반면 창작자의 창작성을 향상시켜주고 불필요한 업무 대체, 저작권 보호 등을 위한
기술에 대한 수요는 높음
-> 인공지능 기술의 효과와 적용에 대한 우려 다수 표출
(공통) 기획 단계는 인간의 상상력과 통찰력으로 콘텐츠를 생산하기 때문에
인공지능이 스토리를 구상하는 것은 적절하지 않음
(공통) 제작에서 인공지능이 활용될 수는 있으나 창작·기획 단계에서 인공지능
활용은 불가능할 것으로 예상
* 기계적 작업이 아닌 감성적인 작업(창작 및 기획)은 인간(개발자)의 고유 영역
* (영화) 영화 제작 투자를 위한 기본 골자가 시나리오이며, 시나리오에는 감독의 연출
의도가 녹아야하기 때문에 인공지능의 시나리오 작성은 불가능하며 바람직하지도 않음
(출판) 인공지능 기술을 이용해 오프라인 서점의 유통을 개선시킬 수 있을지 의문
(출판) 온라인 서점은 이미 배본 시스템이 만들어져 있어 이와 관련한 개선은
인공지능이 아닌 산업적으로 접근 필요
2.3 콘텐츠 현장의 요구사항 해결을 위해 필요한 관련 기술 도출
-> 현장 전문가 인터뷰에서 수집된 현장에서 가장 필요로 하는 요구사항과
이를 위해 필요한 인공지능 기술을 도출
-> 콘텐츠 현장의 요구사항 구현을 위해 필요한 관련 인공지능 기술은
6가지에 대하여 제IV장에서 심층 분석을 실시
1. 자연어 처리 기술, 2. 영상/이미지 인식 기술, 3. 음성/음향 인식 기술, 4.
동작/운동 인식 기술, 5. 기계학습/딥러닝, 6. 지식표현 및 추론 기술
2) 콘텐츠 관련 인공지능 기술 분석 및 적용 타당성
1. 콘텐츠 관련 인공지능 기술 심층 분석
1.1 인식
1) 자연어 처리 기술
->기술 정의
-> 인간이 일상적으로 사용하는 언어를 기계적으로 분석해서 컴퓨터가
이해할 수 있는 형태로 만드는 자연어 이해 혹은 그러한 형태를 다시
인간이 이해할 수 있는 언어로 표현하는 제반 기술
수많은 말뭉치 데이터(신문, 잡지, 교과서 등에서 추출한 다양한 문장들)를 자동으로
학습하여 통계적·경험적 인공지능 기법으로 자연어를 처리
* 자연어 이해: 일상생활 언어를 형태 분석, 의미 분석, 대화 분석 등을 통하여
컴퓨터가 처리할 수 있도록 변환시키는 작업
* 자연어 생성: 컴퓨터가 처리한 결과물을 사람의 편의성에 입각하여 텍스트, 음성,
그래픽 등을 생성하는 작업
-> 기술 현황
-> 1950년대 음성 인식 기술 연구와 동시에 자연어 처리 기술의 연구가
시작되어 현재 상용화 단계에 거의 도달한 것으로 평가
(1950년대~1980년대) 기계번역, 질의응답시스템, 자연어검색, 언어이해 등
다양한 응용분야 기술이 개척됨
(1990년대~2000년대) 컴퓨터의 급속한 발전과 인터넷 사용자의 폭발적 증가로
자연어 처리 기술 수요가 증가함
* 대량의 말뭉치 데이터의 축적을 통해 통계적, 경험적 인공지능기법의 도입이 가능
(2010년대) 인공지능에서 가장 많이 이용되는 기술 중 하나로서 기술의 발전에서
얻는 혜택과 계속 증가하는 데이터 값, 말하고 쓰는 자연어를 인식하는 프로그램은
임상문서, 항공예약, 자동차 긴급출동 서비스 등에 폭넓게 이용되고 있음
-> 페이스북, 애플 등의 글로벌 기업들이 연구·개발한 프로그램들은 이미
자연어 처리를 능숙하게 구사하는 단계에 도달
(페이스북) 소설 ‘반지의 제왕’의 줄거리를 읽고 ‘반지는 어디에 있는가?’라는
질문에 ‘운명의 산에 있다. 프로도가 반지를 거기에 떨어뜨렸고, 프로도는 운명의
산으로 갔다’라는 대답을 할 정도로 능숙한 자연어 처리 능력을 보여줌
(애플) 애플의 음성비서 ‘시리’도 자연어 처리 능력을 구사하는 단계임
* 전 세계 29종류 프로야구리그 정보를 학습하여 베이브 루스 타율, `08년 월드시리즈에서
우승한 필리스의 라인업뿐만 아니라 1934년 월드시리즈에 대한 질문도 대답 가능
-> 기술 영향
-> (경제 측면) 자연어 처리 관련 시장은 인공지능 시장에서 큰 규모를 차지하고
있으며 향후 NLP 공개 플랫폼을 통한 기업 간의 협업 및 경쟁이 예상31)
국내 자연어 처리 연관 시장규모는 `20년 3,700억 원 규모로 국내 인공지능 시장
규모의 약 17%를 차지할 것으로 전망
자연어 처리 시장의 트렌드는 다음과 같이 크게 3가지 방향에서 전개될 것으로
예상: 1. 자연어 번역의 퀼리티를 높이기 위한 빅데이터 기반의 Corpus(말뭉치)
수집과 머신러닝(Machine Learning)을 이용한 번역품질 개선, 2. 자연어 대화형
서비스의 출현과 음성 인식 정확도 개선을 위한 자동 음성 인식(ASR) 기술의
진보, 3. NLP 공개 플랫폼을 통한 생태계 구성과 이를 둘러싼 글로벌 플랫폼
사업자 간 경쟁 심화
* 40년 넘게 자연어 처리 기술을 고수해 온 번역 솔루션 제공 기업인 시스트란
인터내셔널(SYSTRAN International)은 최근 NLP 플랫폼인 ‘SYSTRAN.io’를 현지에서
발표하며 미 글로벌 기업들과 협업 추진
-> (사회·문화·윤리 측면) 음성 인식 및 문자 인식 기술과 결합되어 IoT
서비스 분야 전반에 적용됨으로써 편리한 생활환경을 제공
* (비서 서비스) 구글은 `16년 주인 음성을 알아듣고 지시를 수행하는 가정용 스피커
‘구글 홈’과 머신러닝을 통해 음성 인식의 정확도를 크게 개선하여 사용자 간 대화의
맥락을 이해해 실시간 답변을 지원하는 ‘구글 어시스턴트’를 발표함
* (가사 지원 서비스) 맞벌이 부부가 증가하는 상황에서 가정교사 및 가사도우미로서
로봇의 언어 능력을 더욱 향상시킬 수 있을 것으로 예상됨
* (통·번역 서비스) 빅데이터 기반의 Corpus(말뭉치) 수집과 머신러닝(Machine
Learning)과 결합하여 더욱 정교한 통·번역 솔루션에 활용되어 영화 “설국열차”의
‘첨단 통역기’와 같은 실시간 통역기술의 상용화가 가능할 것으로 기대됨
-> 콘텐츠 분야와의 관련성
-> 인간의 언어를 이해하고 생성해낼 수 있는 본 기술은 신문 출판과 방송
콘텐츠 분야에 적용 가능성이 높음
한류 등 국내 콘텐츠의 글로벌화를 위해 보다 정확도 높은 실시간 통·번역
기술에 대한 높은 수요와 함께 콘텐츠 콘티 및 시나리오 생성 등 아이디어
제공에 대한 기술 니즈 존재
입력된 데이터를 분석하여 인간의 언어로 표현해주는, 신문기사 등의 출판
분야에서 이미 기술이 적용 진행 중이며, 자연어 처리는 보다 직관적인
인터페이스로서 다양한 산업과의 융합과 혁신을 기대
2) 영상/이미지 인식 기술
-> 기술 정의
-> 딥러닝 기술을 이용하여 정지영상 및 동영상으로부터 객체를 인식하는 기술
컴퓨터가 태스크를 학습하고 정보를 체계화하여 스스로 패턴을 찾아냄으로써
영상에 포함된 사람, 동물, 물체, 문자 등이 각각 무엇인지 구분
선형 맞춤(Linear Fitting)과 비선형 변환(Nonlinear Transformation or Activation)을
반복해 쌓아올린 구조로서 인공신경망이 데이터를 구분할 수 있는 선들을 긋고
이 공간들을 잘 왜곡해 합하는 것을 반복하는 구조
* 예를 들어 사진 속에서 고양이를 검출해낼 경우, ‘고양이’라는 추상적 이미지는 선,
면, 형상, 색깔, 크기 등 다양한 요소들이 조합된 결과물이며 이는 ‘선 30cm 이상은
고양이, 이하는 고양이 아님’, 또는 ‘갈색은 고양이, 빨간색은 고양이 아님’ 처럼
간단한 선형 구분으로는 식별해 낼 수 없는 문제임
* 딥러닝은 기존에 입력된 ‘대량’의 데이터에 근거하여 일단 대충 선을 긋고 그것들을
적절히 움직여가며 구분 결과가 더 좋게 나오도록 선을 이동하고 합하고를 반복하는
‘최적화(optimization)’의 과정을 거쳐 복잡한 공간 속에서 최적의 구분선을 만들어 냄
-> 기술 현황
-> 영상 인식 기술은 수많은 정지영상 및 동영상으로부터 특정 개체를
인식·분석하는 인간과 비슷한 수준까지 도달
Google은 `12년 딥러닝을 이용하여 유튜브 내 천만 개 이상의 동영상에서
고양이를 인식하는 연구 결과를 발표
* 유튜브 인수 후 확보한 대량의 비디오 데이터를 통해 딥러닝을 이용하여 정답이
표기되지 않은 데이터로 실험을 진행하였고 그 결과를 고양이 인식에 적용하여 기존
기술보다 더 좋은 성능을 확보
* 구글에서 ‘고양이’를 검색하면 일일이 태그를 달지 않은 사진까지도 검색이 가능하며
이는 학습 전 고양이의 이미지를 전혀 알려주지 않은 ‘비지도학습’을 통해 나온 결과
― 페이스북의 얼굴인식 프로그램 ‘딥페이스’ 역시 사진에서 사람의 얼굴을
정확히 인지할 수 있는 기능을 머신러닝으로 구현
* 사진에 찍힌 얼굴에 67개의 점을 찍어 사진을 분할한 뒤, 나뉜 조각을 3차원으로
변환해 사진 속 인물이 누구인지 알아내는 기술로서 얼굴의 눈, 코, 입의 거리나 높이
등을 파악하는 방법을 사용하여 머신러닝을 통해 불규칙한 데이터를 보정
* 정면 사진이 아니라도 머신러닝으로 사진 내 다른 요소와 연계해서 분석하며 8억
건의 사진을 5초 이내에 확인 가능하고 인식률은 사람과 비슷한 97% 수준에 도달
* 이 기술을 활용하여 페이스북에서는 사람 얼굴이 나온 사진을 업로드할 때 자동으로
‘홍길동님을 태그하시겠습니까’라는 정보가 뜨는 서비스가 제공됨
마이크로소프트(MS)가 선보인 ‘하우올드닷넷’ 사이트는 사진을 업로드 하면
사진 속 사람 얼굴을 찾아 나이를 추정해 주는 서비스 제공
* MS연구소는 영상 인식 기술을 개발하기 위해 엄청난 데이터를 통해 컴퓨터를
학습시키는 머신러닝 기술을 적용함으로써 1천 개 카테고리를 인식하는 이미지 인식
경진대회에서 인간보다 더 낮은 에러율을 보임(인간 에러율: 5.1%, MS 에러율: 4.9%)
국내기업 클디는 특정 옷의 이미지를 컴퓨터에게 보여주면 그 사진에서 옷의
종류와 특징들을 인식해서 비슷한 상품들을 추천해 주거나, 내 개인 사진들
중에서 강아지와 찍은 사진만을 골라서 보여주는 등의 서비스 제공
* 세계적 수준의 영상 인식 역량을 보여주며 `14년 케이큐브벤처스로부터 1억 원의
투자를 유치
-> 다양한 형태의 비정형 영상 데이터들이 증가함에 따라 영상 검색 및 분석
기술의 접목을 위한 연구가 활발히 진행 중32)
미국 DARPA에서는 VIRAT(Video and Image Retrieval and Analysis Tool)
프로젝트를 수행
* 대규모의 영상정보 데이터베이스를 구축하고 Content-Based Searching 기능을 통해
빠른 속도로 대용량 영상 콘텐츠를 검색하는 기능을 수행
* VIRAT의 목적은 수천 시간의 동영상 데이터베이스에서 Single Person(배회, 투기,
걷기, 달리기 등), Person-to-Person(미팅, 악수, 물건교환, 군집, 해산 등), Personto-
Vehicle(운전, 승차, 하차, 태우기 등), Person-to-Facility(들어가기, 나오기, 서있기
등), Vehicle(턴, 정차, 차량 군집이동, 차량화재 등)과 같은 형태들을 검색하는 도구를
제공하는 것
일본 히타치 연구소는 이미지가 포함되어 있는 유사한 장면 자동 검출 및 해당
장면으로의 이동, 영상으로부터 특정 객체 검출, 추출한 영상에 대해 주석을
자동 태깅하는 3가지 주요 영상 인식 기술에 대한 연구 진행
* 유사 이미지 검색기술: 쿼리 이미지에 비슷한 이미지를 데이터베이스에서 찾아오는
기술로, 이 기술을 이용하여 대량의 영상 데이터 중에서 원하는 이미지를 추출 가능
* 객체 탐지 기술: 이미지에서 사람의 얼굴이나 자동차 등의 객체 영역을 식별하는
기술로, 이 기술을 사용해서 점포 내에서 인원수를 세거나 이상 행동의 탐지, 대량의
감시 영상에서 특정 장면 검색이 가능
* 이미지 주석(annotation) 기술: 이미지가 나타내는 내용에 해당하는 메타 데이터를
자동으로 부여하는 기술로 주어진 이미지 쿼리에 대하여 유사 이미지 검색을 하고
검색결과의 이미지에 나오는 텍스트의 단어를 확률적 지표에 의해 평가하여 특별한
사전학습 없이 이미지에 의미를 부여하는 키워드를 추정 가능
MS는 대규모 웹 이미지 검색과 탐색을 위한 WISE(Web Image Search and
Exploration) 프로젝트를 통하여 이미지 재현을 위한 대규모 기계학습과 효율적인
이미지 인덱싱과 질의방법을 개발
* 프로젝트 내에서 콘텐츠 기반 이미지 검색을 위해 인덱싱과 스케일러블 이미지 재현
알고리즘을 개발하고 Bing 검색엔진에 활용하여 10억 개 이상의 이미지에 대한
인덱싱과 검색 기능을 지원
-> 기술 영향
-> (경제 측면) 딥러닝을 이용한 영상 인식 기술은 사람이 직접 눈으로 보고
판단하는 과정이 필요했던 수많은 분야에 적용될 수 있어 시장 규모를
특정하기 어려움
기존의 영상 인식 기술 시장을 목표로 하기보다는 신규 시장을 창출할 수
있다는 데 더 큰 가치가 있음
특히 느린 속도와 낮은 정확도를 갖는 과거의 인식 방법들로는 존재할 수
없었던 시장들이 창출될 가능성이 높음
-> (사회·문화·윤리 측면) 정서상 좋지 않은 영상 검색을 사전에 방지
가능하고 사회 안전과 정보보안 강화에 기여 가능
구글, 네이버 등의 포털사이트에서 영상 검색 결과 제공 시, 혐오사진 등을
걸러내는 서비스 제공이 가능
생체정보를 이용한 로그인 시스템에 활용 가능
* Windows 10에 도입된 생체정보를 이용한 로그인 시스템 ‘Windows Hello’는
컴퓨터의 카메라를 보면 카메라가 얼굴을 인식해서 로그인이 가능
* 온라인 상거래나 은행거래에서도 복합적인 인증 수단으로 활용 가능
드론과 결합하여 산불 등 재난관리에 활용되거나 CCTV에 활용되어 실시간
범죄 검거 등 공공 분야에 활용 가능
-> 콘텐츠 분야와의 관련성
-> 영상과 이미지로부터 특정 개체를 인식·분석하는 본 기술은 영화,
애니메이션 등 영상 콘텐츠 분야와 광고 및 게임 분야에 적용 가능성 높음
영상의 개체와 분위기 등을 인식하고 이해함으로써 무대 효과를 기획하는
분야와 영상의 표절 검토 영역에서 기술 니즈가 존재
영상의 내용을 이해하고 자막을 자동으로 생성해주는 기술이 개발되었으며,
TV나 영화에 나온 연예인의 소품에 대한 정보를 제공해주는 기술도 연구
중으로 이 기술이 보다 활성화되면 광고 분야에서의 높은 활용 기대
3) 음성/음향 인식 기술
-> 기술 정의
-> 복수의 음향을 컴퓨터가 인식하여 구분하고 이해하거나 사람이 일생생활
속에서 마우스나 키보드 등을 사용하지 않고 목소리를 통해 원하는 기기
및 정보 서비스의 이용을 제어할 수 있는 기술
컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호를 단어나 문장으로
변환시키거나 음성을 통해 원하는 기기와 정보 서비스의 이용을 제어
* 음성인식: 입력된 음성을 기계가 문자열로 전환
* 음성이해: 전환된 문자열의 의미를 출력
음향 신호를 추출한 후 잡음을 제거하는 작업을 거치고 컴퓨터가 분석하여
특징을 추출한 다음, 미리 수집된 음성모델 데이터베이스와의 유사도를 측정해
가장 유사한 것을 문자 혹은 명령어로 변환
* 센싱과 데이터 분석 기술이 결합되어 있긴 하나, 측정하고 분석해야 하는 데이터가
음성 데이터 하나라는 점에서 보다 손쉽고 정확하게 사람의 의도를 파악 가능
복수의 음향 신호가 발생하는 경우 주파수를 분석하여 각각의 음향 사건들을
추출해내고 분석하여 파악
* 음악을 재생하는 경우 각 악기와 목소리, 음정·음계 등을 파악
-> 기술 현황33)
-> 음성인식 기술은 1952년에 연구가 시작되어 현재까지 5세대에 걸쳐 발전되어
왔으며 최근 딥러닝 기술과 결합되어 더욱 활발한 연구 진행 중
해외 기업들은 인공지능 기술을 적용한 음성인식 기술의 연구를 활발하게 진행
중이며 특히 아마존, 애플, 페이스북, 구글 등이 선두에 있음
* (아마존) 음성인식 기술과 스피커를 결합한 에코를 통해 음성명령으로 음악을
실행하고 뉴스나 교통상황 등을 검색하여 사용자에게 알려주는 서비스를 제공 중임
* (애플) `11년 10월 음성검색 ‘시리(Siri)’ 서비스를 탑재한 아이폰을 출시한 이후
계속해서 시리 서비스 개선을 위해 연구 중이며 영국 소프트웨어 업체 노바우리스를
인수하여 시리를 보다 정교하고 정확도 있는 서비스로 고도화 시킬 계획을 밝힘
* (페이스북) `14년 5월 음성인식 소프트웨어 개발업체인 ‘윗에이아이(Wit.ai)’를
인수하여 페이스북 모바일 어플리케이션에 음성명령 기능 탑재 및 페이스북 메신저에
음성으로 메시지 보내기 기능 등을 꾸준히 연구 중임
* (구글) `12년 음성인식 서비스 구글 나우(Google Now)를 선보이고 계속해 음성
인식률을 향상시키는 연구를 진행 중이며 구글, 구글 글래스, 구글카 등 여러 IT
기기에 음성인식 서비스를 적용하고 있음
국내 IT 기업들도 수년 전부터 꾸준히 음성인식 기술 연구를 진행해오고 있으며
음성인식 기술을 활용한 다방면의 서비스 제공을 계획 중임
* (네이버) 전담 연구조직인 ‘네이버랩스(Labs)’에서 다국어 기계번역 기술, 최신의 딥러닝
기술을 활용한 음성인식 기술, 한국어·영어·일본어 등 단문·장문 음성인식 기술,
어플리케이션과 서버에서 활용될 수 있는 음성합성 기술과 음색조절 기술 등을 연구 중
* (다음) `10년 국내 포털 최초로 한국어가 지원되는 모바일 음성 검색 서비스를 선보인
후 `12년 말 음성인식 전문기업 ‘다이알로이드’를 인수하면서 관련 음성 인식 기술을
다방면으로 확대·적용 중임
* (아카스터디) 인공지능 엔진 ‘뮤즈(Muse)’를 탑재한 ‘뮤지오(Musio)’를 통해 영어
교육에 특화된 음성인식 기능 제공을 위한 연구 진행 중임
음향 검출 및 인식 기술도 산·학·연에서 활발한 연구 진행 중
* (고려대) `10년 고한석 교수팀 ‘음성왜곡 방지를 위한 강화된 차단 매트리스’, ‘모바일
장치를 이용한 다차원 가우시한 혼합모델 기반의 실시간 음향 환경 분류 시스템’,
‘모바일 기기의 상황인지를 위한 환경음 인식’ 관련 연구 진행
* (연세대) 강홍구 교수팀은 ‘잡음 환경에서의 SNR회복 기법을 적용한 음성 향상 알고리즘을
이용한 감정인식’, ‘화자의 연령에 따른 음성 특징 변화 분석 및 분류’ 에 관한 연구 수행
* (한양대) 전진용 교수팀은 `16년 8월 음성통신 및 신호처리 학술대회에서 ‘MUSIC
알고리즘을 통한 실시간 다수 음원위치 추적 시스템 평가’ 연구 발표
* (삼성전자) `14년 음향 입력을 분석함으로써 검출된 음향 사건에 기초하여 다양한
동작을 수행함으로써 일상생활에서의 사용자의 편의를 제공하는 장치 및 방법에 관한
내용의 ‘음향 사건 검출 장치 및 그 동작 방법’ 특허 출원
-> 기술 영향
-> (경제 측면) 음성인식 기술은 사실상 모든 종류의 IT 기기에 접목될 수
있기 때문에 산업적·경제적 가치와 파급력이 무궁무진할 것으로 평가됨
시장조사 전문기업 IRS글로벌에 따르면 전 세계 음성인식기술 시장은 `14년
720억 달러에서 `17년 1,130억 달러로 고성장이 예견됨
국내 시장의 경우 `13년 5,530억 원에서 연평균 42%의 초고도 성장을 구가해
오는 `17년 2조 2,510억 원 규모에 달할 전망
음성·음향 인식 기술을 활용하여 음악 시장 확대와 신시장 창출 가능
* 성균관대 안창욱 교수팀은 음성인식 기술을 통해 음계를 인식하고 이를 통해 비슷한
풍의 새로운 음악 작곡이 가능한 AI 프로그램을 개발하여 멜론과 지니에 ‘Boid’라는
아티스트 명으로 ‘Grey’와 ‘Cavity’ 음원을 공개하였으며 전문 작곡가들로부터
아마추어 작곡가보다 나은 수준이라는 평가를 받고 있음
-> (사회·문화·윤리 측면) 인간과 컴퓨터 간의 자연스러운 의사소통을
이뤄줌으로써 삶의 질 향상을 이끌 수 있고 산업적 파급력도 IT를 넘어
산업 전 분야로 확산이 가능할 것으로 예상됨
다양한 응용 서비스를 위한 음성 인터페이스 역할 수행
* `11년에 출시된 애플의 음성 기반 개인비서 서비스인 ‘시리(Siri)’는 아이폰 사용자의
음성명령을 바탕으로 모바일 검색은 물론, 일정관리, 전화 걸기, 메모, 음악 재생 등
다양한 생활편의 서비스를 제공
* 애플의 시리 출시 이후, 구글은 ‘구글 나우(Google Now)’, 마이크로소프트는
‘코타나(Cortana)’와 같은 음성인식 기반의 개인비서 서비스를 출시했으며, 일본의
NTT도코모는 ‘샤베테콘쉐루’라는 외국어 통역 서비스를 출시
* 삼성전자·LG전자 등 스마트폰 제조사들도 ‘S보이스’와 ‘Q보이스’ 같은 서비스를 출시
* 콜센터, 내비게이션, 스마트TV 채널 변경, 스마트폰 사용, 발음교정 등의 교육 분야
등 전반의 서비스에 활용 가능
딥러닝 기반으로 성문과 감정 상태 등 제반 정보 분석을 통해 보이스피싱 등의
범죄 예방 등 안전한 사회 구현에 활용 가능함
-> 콘텐츠 분야와의 관련성
-> 소리를 비교·분석하고 대화의미를 도출할 수 있는 본 기술은 음악 및
대화형 콘텐츠 등의 분야에 적용 가능성 높음
음성과 음향을 인식하고 학습하여 새로운 음악을 작곡하는 등 창작 분야뿐 아니라
표절검토 영역에서 기술 니즈가 존재하며, 인공지능 로봇의 요구기능에 포함
사용자의 음성을 인식하고 정확한 발음을 교정해주는 등 e-러닝 분야에서 이미
활용하고 있으며, 1인 가구와 독거노인의 맞춤형 여가생활을 지원해줄 것으로 기대
4) 동작/운동 인식 기술
-> 기술 정의
-> 이미지 센서, 모션 센서, 뎁스 센서 등 다양한 센서로부터 사용자의
움직임을 인식하는 기술
영상과 센서 등을 통해 대상 사람의 움직임을 분석하고 어떠한 자세 혹은
동작을 취했는지 판단
사람의 신체 부위들이 어떻게 배치되어 있는가를 표현하는 자세 혹은 특정한
의미를 가지는 신체의 움직임을 나타내는 동작 등을 인식
* 사람이 두 눈을 통해 대상자의 동작을 인식하고 지각하는 작업을 컴퓨터로 하여금
입력된 영상과 센서 정보로부터 이 작업을 자동으로 수행하도록 만드는 것
* 센서는 사용자의 신체 움직임을 인식하고, 이를 장치(컴퓨터)와 상호 작용하는 중간
연결 고리 기능을 수행
-> 기술 현황
-> 동작 인식 기술은 크게 ‘컨트롤러 기반’과 ‘카메라 기반’ 방식이 주로
연구되었으며 최근에는 동작 인식에 관한 새로운 기법들이 등장
일본의 게임 회사 닌텐도는 `06년 ‘닌텐도 Wii’에 컨트롤러 기반의 동작 인식
기술을 도입하여 이전의 게임들과는 색다른 게임을 대중들에게 선보임
마이크로소프트에서 개발한 실감형 게임기 ‘키넥트(KINECT)’는 적외선
카메라를 이용한 카메라 기반 방식의 게임기
* 적외선을 송출하는 ‘적외선 프로젝터’와 반사되어 오는 적외선을 인식하는 ‘깊이 인식
적외선 카메라’ 센서가 20여 개 이상의 관절을 인식하여 XYZ 3차원의 신체 움직임 감지
* 카메라 기반 방식은 컨트롤러 없이 신체 모션만으로도 인식하기 때문에 기존의
컨트롤러 기반 방식보다는 조금 더 진일보했다는 평가를 받고 있음
최근 주목받고 있는 기술인 ‘립모션(Leap Motion)’은 마우스가 없어도,
모니터에 손을 대지 않아도 화면 조종이 가능하며 그림 그리기와 게임도 가능
미국 실리콘밸리의 신생 기업인 탈믹랩스(Thalmic Labs)는 팔에 착용하는
웨어러블 디바이스 밴드 형태의 ‘MYO’을 출시
* 기존의 키넥트나 립모션처럼 카메라 기반의 동작 인식이 아닌 암밴드(Armband)를
통해 사용자 팔의 근육에서 발생하는 전기 신호를 분석·전달하여 팔과 손가락의
25가지 동작을 인식하여 정해진 동작에 따라 해당하는 명령을 수행
* 사용자가 근육을 움직일 때 나오는 전기 신호를 인식하는 원리로서 동작 인식을 위한
보조 장치 등이 없어도 사용자의 동작 인식이 가능
-> 글로벌 기업들은 동작인식 기술 전문 기업을 인수하는 등 기술 확보를
위한 노력을 기울이고 있음
`13년 10월, 구글은 데스크톱이나 노트북의 웹캠을 이용해 사용자의 동작을
인식하여 음악, 영화 등의 재생을 제어 할 수 있는 소프트웨어 개발 업체
‘플러터(Flutter)’를 인수
애플은 `13년 11월, 마이크로소프트의 게임기 ‘엑스박스(Xbox 360)’에 적용된
‘키넥트(Kinect)’ 기술을 개발한 이스라엘의 3D 동작인식 전문기업
‘프라임센스(PrimeSense)’를 3억 5000만 달러에 인수
* 애플은 프라임센스의 기술을 바탕으로 동작 인식 기술에 대한 다양한 특허를 등록함으로써
스마트폰 시장에 이어 웨어러블 시장까지 애플의 영향력을 크게 향상시킬 계획
-> 원천 기술 연구보다는 시장에 출시된 기존 기술을 활용하여 새로운
솔루션을 개발하는 사례도 등장
국내 기업 ‘디베이션UX’는 해외(MS) 기반의 동작 인식 기술을 활용, 응용하여
동작 인식 솔루션인 ‘키모트(Keymote)’를 출시
* 마이크로소프트 영상 인식 센서 ‘키넥트’를 설치하고 사람은 센서와 일정한 거리를
두고 서서 모니터를 조작하는 방식으로 마우스나 키보드 등의 컨트롤러 없이 화면
넘김, 왼쪽 클릭, 마우스 드래그 등의 동작을 손짓으로 제어 가능
-> 기술 영향
-> (경제 측면) 음성 인식과 더불어 시장 선점을 위한 기업 간 치열한 경쟁이
전개될 분야로 예상
* 음성 인식으로 모든 명령을 내릴 수 있지만, 말하기조차 귀찮거나 소음이 존재하는
등의 특정 상황에서는 동작인식이 보다 간편하기 때문
시장조사 업체 IHS에 따르면 스마트 기기에 쓰이는 동작 인식 센서 출하량은
`12년 24억 개, `13년 35억 개를 기록하였으며 `17년에는 60억 개 이상으로 그
규모가 커질 것으로 전망
동작 인식 기술은 초기의 인식률과 사용성 면에서는 아직까지 시장에 신뢰를
크게 받지 못하는 상황이지만 음성에 비하여 동작은 사람 간의 차이가
상대적으로 적음에 따라 향후에는 보다 활발히 사용될 것으로 전망
-> (사회·문화·윤리 측면) 다양한 인터랙티브 콘텐츠의 생산 기반 기술로
활용되어 더욱 편리하고 즐거운 여가생활을 누릴 수 있을 것으로 기대
톰 크루즈의 ‘마이너리티 리포트’나 휴잭맨의 ‘리얼스틸’ 등의 영화에서와
같이 컴퓨터 제어, 복싱 동작 학습을 위한 사용자 동작 인식 기술로써 활용 기대
실생활에서 스마트 전자 기기 제어, 사용자 자세/행동 인식 등 사람-컴퓨터
상호작용, 지능로봇, 게임&엔터테인먼트 분야에서 폭넓게 활용 가능
* 리모컨 대신 손가락만으로 스마트 기기를 제어하는 원거리터치 기술에 활용되어 더욱
빠르고 효율적인 기기 조작이 가능해짐
* 현재 공장에서 작업자는 로봇과 함께 일하기에 위험하기 때문에 분리되어 작업을
하고 있으나 동작인식기술이 적용되면 사람과 로봇이 함께 일하는 것이 가능해져
보완 및 시너지 효과를 낼 수 있을 것으로 예상됨
* VR 기술과 결합되어 더욱 현실적인 가상현실 체험과 게임 제작에 활용 가능
* 영상 기반의 보안, 영유아나 노인과 같은 취약자에 대한 모니터링, 사람의 행동을
이해하고 적절한 반응을 취해야 하는 지능 로봇 등을 위한 핵심기술로 활용 가능
-> 콘텐츠 분야와의 관련성
-> 다양한 센서를 통해 사용자의 움직임과 동작의 의미를 인식하는 본 기술은
게임과 광고 분야 등에 적용 가능성 높음
사람을 보조해주는 인공지능 로봇의 개발에 있어서 사용자의 움직임을
인식하고 그에 대응하여 행동함으로써 실제 사람과 같은 역할 수행이
가능하도록 기술 적용 니즈가 존재
또한 사람이 직접 몸을 움직이며 즐길 수 있는 Interaction 기반 게임에
적용하여 게임의 재미 요소를 확대시킬 수 있는 기술로서 수요 증가
온라인 쇼핑이 일상화됨에 따라 사용자의 의류 착용 모습을 둘러볼 수 있도록
동작을 인식하는 기술이 개발되어 실제 백화점 등에 설치되었으며 가정용으로
개발이 되면 보다 높은 광고 효과과 반품율 저하 등의 경제적 효과 기대
1.2 학습
1) 기계학습/딥러닝
-> 기술 정의
-> 컴퓨터가 학습할 수 있도록 하는 알고리즘으로서 데이터 평가 및 훈련
데이터를 통한 학습 기반 기술
기계학습의 핵심은 표현과 일반화에 있으며 각각 데이터 평가 및 아직 알 수
없는 데이터에 대한 처리를 뜻함
* 기계학습을 통해서 수신한 e메일이 스팸메일인지의 여부를 구분하도록 훈련 가능
1959년 아서 사무엘은 기계학습을 ‘컴퓨터에게 배울 수 있는 능력, 즉 코드로
정의하지 않은 동작을 실행하는 능력에 대한 연구 분야’라고 정의
입.출력 데이터 기반 함수 학습 방식, 데이터를 무리 짓고 일관되게 해석하는 방식,
행동에 따른 보상으로 올바른 행동을 학습하는 방식 등 다양한 알고리즘 존재
-> 기술 현황
-> 기계학습의 다양한 알고리즘 중 핵심적인 기법은 딥러닝, 랜덤 포레스트,
일반화 선형 모델(GLM) 등
딥러닝(Deep Learning): 데이터의 고수준 패턴을 복합적인 다계층 네트워크로
모델링하는 방법으로, 어려운 문제를 해결할 잠재력을 지님
랜덤 포레스트: 널리 사용되는 총체적 학습 방법으로, 다수의 의사결정 트리를
학습한 다음 평균을 구해 예측을 산출해 일반화 가능한 솔루션을 제공하고
데이터의 불규칙 잡음을 필터링
일반화 선형 모델(GLM): 다양한 가능성 분산과 연결 함수 지원으로 더
효과적으로 데이터를 모델링할 수 있도록 하며, 전통적인 통계와 가장 발전된
머신러닝의 조합
-> 기계학습 분야는 딥러닝을 중심으로 급격히 발전 중
구글은 `11년 첫 머신러닝 시스템으로 디스트빌리프(DistBelief)를 개발
* 구글 약 50개 팀과 모회사 알파벳에서 검색, 음성검색, 광고, 구글 포토, 구글 맵스,
스트리트뷰, 번역, 유튜브 등 실제 서비스에 디스트빌리프의 딥러닝 뉴럴 네트워크 적용
`15년 구글은 두 번째 머신러닝 시스템 텐서플로(TensorFlow)*를 오픈 소스로 공개
* 모바일 환경은 물론 64비트 리눅스, OS X의 데스크탑이나 서버 시스템의 여러 개의
CPU와 GPU에서 구동됨
Microsoft는 `14년 딥러닝 알고리즘을 이용한 양자컴퓨팅 연구 성과 발표
신경회로 정보처리 시스템 컨퍼런스에도 딥러닝 관련 논문 발표가 증가 추세
* 특히 계층 및 네트워크 구조, 학습 알고리즘, 시각화에 의한 학습 결과의 이해,
CNN과 기존 방법을 결합한 인식 시스템 분야의 논문이 다수 발표됨
-> 기계학습을 구현할 수 있는 무료 소프트웨어 및 오픈소스 라이브러리는
싸이킷, 쇼군, Mlpack, 어코드 등이 있음
싸이킷은 파이썬으로 구현한 기계학습 라이브러리로 다양한 애플리케이션에서
쉽게 도입할 수 있으며 폭넓은 라이브러리를 보유
쇼군(Shogun)은 범용, 전용 언어에 대한 각종 인터페이스를 지원하는 오래된
기계학습 라이브러리로 `99년 개발됐으며, C++, 자바, 파이썬, C#, 루비, R Lua,
Octave, Matlab에서도 이용 가능
Mlpack이 C++ 기반으로 `11년 개발됨
어코드(Accord)는 이미지와 음성을 처리하는 기계학습 알고리즘 라이브러리
Python, Matlab, C++, Java, Lua 등 프로그래밍 언어별 딥러닝 라이브러리 존재
-> 기술 영향
-> (경제 측면) 다양한 분야에 인공지능 기술이 적용됨으로써 기존에 없던
새로운 시장과 수익 창출
구글, 마이크로소프트, 페이스북, 지멘스, 캐스피다, 크리테오, 아마존, 엔비디아
등의 선진 기업들은 기계학습 기술을 인터넷 서비스, 생산 공정, 우편자동화,
의료, 보안, 광고, 배송, 지능형자동차 등 다양한 분야에 적용하여 수익 창출
* 핀테크 기업 Zest Finance는 7만 개의 변수에 대한 데이터를 수집하고 10개의
기계학습 알고리즘을 이용해 개인의 신용도를 분석
* 미국 소상공인 대출회사 Kabbage는 Data Context Engine 시스템을 이용해 대출자의
각종 데이터(배송, 회계, 소셜미디어, 전자상거래 이력, 결제 등)를 분석하고 이를 활용해
7분 만에 간편한 대출 제공
-> (사회·문화·윤리 측면) 의료, 제조, 자율주행차 등에 적용되어 산업
혁신을 일으키고 새로운 제품과 서비스 개발
(의료) 의료영상 분할, 영상 정합, 컴퓨터 보조 진단 시스템, 내용기반 검색에
기계학습 적용
* 신경망, 유전자 알고리즘 등을 이용
(제조) 생산성 향상과 고질 불량 개선을 통해 비용절감·생산성 향상 등 혁신
* 독일의 엘리베이터 업체 티센크루프(ThyssenKrupp)는 머신러닝 기술을 활용해 엘리베이터
관련 데이터를 수집·분석하고 유지보수 방안을 학습시킴으로써 이상 징후와 고장 예측
(자율주행차) 운전의 수많은 상황을 학습시켜 자동차가 사람의 조종 없이
스스로 움직이고 신호를 파악하며 운전하는 법을 터득
* 2005년 Grand Challenge에서 Stanford팀이 기계학습 기법을 활용한 무인자동차
운전 기술로 우승
* 엔비디아는 CES 2015에서 슈퍼컴퓨터가 탑재된 인공지능으로 자동차를 제어하는
자율운전기술 발표
-> 콘텐츠 분야와의 관련성
-> 컴퓨터가 사람과 같이 데이터를 학습할 수 있도록 하는 본 기술은 알파고와
같은 게임뿐 아니라 음악 및 출판 등 창작 분야에 적용 가능성이 높음
사람이 듣기에 좋은 새로운 음악을 만들어 내거나 맥락을 이해하여 소설 등을
창작할 수 있는 창작 알고리즘에 대한 기술 수요가 증가하고 있으며 인공지능
기술 전문가들에 의해 매우 중요하고 개발이 시급한 기술로 평가됨
그림을 그리거나 음악을 작곡하는 기술은 현재도 지속적으로 연구 중이며
기술적 수준이 높아지면 대중이 저렴한 비용으로 듣기 좋은 음악과 아름다운
그림 등 예술작품을 쉽게 접할 수 있을 것으로 기대
1.3 추론
1) 지식표현 및 추론 기술
-> 기술 정의
-> 지식을 컴퓨터와 사람이 동시에 이해할 수 있는 형태로 나타내고 이미
알고 있는 사실로부터 새로운 사실을 논리적으로 유도하는 기술
지식표현은 합목적적, 추론의 효율성, 지식 획득의 용이성, 저장의 간결성과
표현의 정확성, 다양성 등을 갖추어야 함
* 획득한 지식을 효율적이고 효과적으로 표현하는 지식표현은 전문가 시스템의 성패를 좌우
* 지식표현 방법으로는 특징 공간, 의미망, 결정트리, 상태전이 그래프, 프레임, 수식,
절차적 표현, 유추표현 등이 있음
온톨로지는 논리 규칙, 프레임 그리고 시맨틱 네트워크 등의 개념을 모두
통합한 대표적인 지식표현 체계로 사람들 간의 합의를 이룬 개념의 타입이나
사용상의 제약조건들을 명시적으로 정의하여 컴퓨터는 온톨로지로 표현된
개념을 이해하고 지식처리 가능
* 온톨로지는 시맨틱 웹을 구현할 수 있는 도구로서, 지식개념을 의미적으로 연결할 수
있으며 RDF, OWL, SWRL 등의 언어를 이용해 표현
추론은 인공지능과 일반 소프트웨어를 구분하는 AI의 핵심
-> 기술 현황
-> 지식표현의 발전 과정과 연구흐름은 형식논리, 문제해결, 기억과정,
언어이해
17세기 사고 작용을 형식적인 표현으로 바꾸고 계산 장치를 이용해 추론
수행하려는 아이디어 등장
1650년 영국의 철학자 토마스 홉은 산술과 마찬가지로 생각이라는 규칙에 기반한
계산 절차를 제안하였으며, 철학자 및 미적분학 창시자인 라이프니치는 ‘모든
진리를 계산이라는 형식으로 환원할 수 있는 일반적인 방법’에 대해 언급
1854년 영국의 수학자 조지 부울은 ‘논리와 확률에 대한 수학적 이론의 기초가
되는 사고의 법칙에 관한 연구’라는 책을 출판
* 이진논리의 기초가 되는 획기적인 내용이며 책의 목적은 ‘추론을 행하는 마음의
작용에 대한 원리의 탐구’라고 밝힘
20세기 초반 두 철학자 러셀과 화이트헤드는 수학 원리를 출판하여 논리 체계와
수학의 중요한 부분을 논리학의 언어로 환원
1970년대는 지식표현에 관한 이론과 방법의 연구가 가장 활발
1980년대에 전문가 시스템의 사용 경험을 통하여 지식의 통합적인 표현과 보다
유연한 지식 표현의 중요성이 대두
* 현재 인공지능의 중요한 연구 영역을 차지
-> 기술 영향
-> (경제 측면) 시맨틱 검색·소셜 네트워크 분석 등에 활용되어 검색 시간을
절감하고 지식 베이스와 추론 엔진을 통한 전문가 시스템을 구성하여
다양한 산업에서 비용 절감 가능
ICT 산업과 지능형 지식산업 확대 및 신시장 창출 가능
* 글로벌 기업 대비 저비용 고효과의 인공지능 기반 지식처리 SW의 산업계 확산
의료, 법률, 금융, 기업/공공 정책 등의 문제 해결과 의사결정 지원을 통한
고품질, 저위험의 산업조성과 경제적 소모비용을 절감
제조업 분야에서 자동차 제품설계에 전문가 시스템 도입하여 효율성 향상 가능
* 온톨로지 기반의 퍼지 추론을 이용해 프로세스 통제와 생산관리, 시스템 관리 등
디지털 전문가 시스템 도입 가능
-> (사회·문화·윤리 측면) 정보검색, 유비쿼터스 컴퓨팅, 전자상거래, 재난
분야 등에 활용
90년대 초 분산된 환경에서 에이전트들이 상호작용을 통한 의미 있는 문제
해결을 위해 서로 공유할 수 있는 기본 지식 기반이 필요하다는 것을 인식하여
일종의 온톨로지라 할 수 있는 개념 계층도(concept hierarchy) 등을 이용
* 미 국방연구처의 DAML-OIL은 대표적인 온톨로지 표현 언어 및 형식
한국한의학연구원은 한의학 지식의 표준화와 대중화를 위해 복잡한 한의학
용어를 사람이 의도하는 대로 컴퓨터가 이해할 수 있는 한의학 온톨로지를 구축
* 이번에 구축된 온톨로지는 한의과대학에서 다루어지는 지식을 대상으로 약재, 처방,
침구경혈, 병증 간의 관계 7만여 건의 정보를 포함하고 있으며 한중일의 대표 약재
800여개에 대한 효능, 치료 정보 및 독성 정보 등을 수록
* 독일에서도 의료와 건강관리 데이터를 구조화하고 데이터간의 의미를 명확히
표현하기 위해 XML과 토픽맵을 이용하여 보다 실용적이고 유용한 정보시스템을 개발
재난전조정보 관리체계 구축을 통한 인적재난 피해를 저감시킬 수 있으며 재난
관련 정보 분석을 바탕으로 의사결정체계를 구축시킬 수 있음
* 연립주택, 의료시설, 관람 및 전시 시설 등의 다중 이용 건축물과 교량, 터널 등의
도로시설, 지하차도, 수상 안전시설 같은 시설물 분야까지 사용 가능
* 경영 분야에서 지식표현 및 추론 기술 적용으로 경영과 업무 수행의 효율성을 높일
수 있음
* 정보보안 분야의 보안 위험 등급과 대응 조치 사항에 관한 온톨로지 구축으로 사이버
범죄 예방과 대응에 도움
행정 분야에서 국가 간의 합의 도출과 각 정부 내의 용어 번역, 조직 네트워크를
위한 국가 행정적 용어의 원활한 사용
* ADNOM 프로젝트: 많은 유럽의 모바일 기기 사용자가, 개인이 속한 나라의
정부부서가 제공하는 서비스 이용을 원하지만 국가 조직 간의 차이, 사용하는 용어,
명명법 구조의 차이 등으로 어려움을 겪었고 이를 해결하기 위해 유럽연합의 재정적
지원과 CEN의 지휘, 감독 하에 ADNOM(Administrative Nomenclature)이라는 프로젝트
시작(토픽맵은 ADNOM에서 위의 문제를 해결하는 주요 기술로 활용)
* ON-TOP 프로젝트: ON-TOP 프로젝트는 네덜란드 지자체를 위한 소프트웨어와 기초
구조를 통합하기 위해 정보를 주제 중심적으로 조직화하는 프로젝트
-> 콘텐츠 분야와의 관련성
-> 사람과 컴퓨터가 이해할 수 있는 방식으로 지식을 표현하고 이를 기반으로
새로운 사실을 유추하는 본 기술은 영화나 음악 등 사용자 추천 기반의
다양한 콘텐츠 분야에서 적용 가능성이 높음
특성과 성향이 전부 다른 사용자 개개인에게 맞춤형 서비스를 제공하여
만족도를 높일 수 있는 다양한 콘텐츠 분야에서 본 기술에 대한 수요가 높음
사용자의 취향을 고려하여 새로운 콘텐츠를 추천해주는 본 기술은 이미 영화나
음악 분야에서 적용되고 있으며, 점차 적용 산업이 확대될 것으로 기대
2. 심층 분석 대상 기술의 콘텐츠 분야 적용 타당성
-> 심층 분석 대상 기술의 연구개발 타당성
-> 심층 분석한 6개 기술 모두 기술성숙도가 어느 정도 높은 단계에
도달하였으며(2.4~3.3단계) 해외와의 기술격차도 크지 않아(2.2~3.8년)
국내에서 해당 기술을 활용한 연구개발을 추진할 필요성과 타당성 존재
-> 또한 전문가 의견 수렴 결과, 인공지능 기술이 우리 생활에 활용되었을 때
경제적, 사회·문화·윤리적 측면에서 기술이 긍정적인 영향을 미칠 것으로 조사
-> 콘텐츠 분야에 대한 인공지능 기술 융합의 높은 중요도
-> ETRI에서 문화·관광 분야에서의 인공지능 기술 중요도를 조사한 결과 타
산업 분야*에 비하여 6개의 심층 분석 대상 기술의 중요도가 대체로 높은
것으로 나타남
* 10대 융합산업: 1. 문화·관광, 2. 의료, 3. 금융, 4. 교육, 5. 교통, 6. 도시,
7. 스마트홈, 8. 농업, 9. 에너지, 10. 전통산업
-> 심층 분석 대상 기술 적용이 기대되는 콘텐츠 장르 종합 정리
-> 기술 심층 분석 결과를 종합하여 기술 적용 효과가 높을 것으로 예측되는
장르 도출
-> 기술-장르 매칭 결과를 반영하여 제V장에서 국내·외 사례조사 실시
*출처 한국콘텐츠진흥원 연구기관: (주)창의컨설팅*