지능형 콘텐츠 기술 발전전략 연구
콘텐츠 분야에 인공지능 기술을 활용한 국내·외 사례
1. 국내·외 사례조사 개요
- 사례조사 목적
- 콘텐츠 산업에서 실제 활용 및 연구가 진행되고 있는 선진 사례를
조사·분석함으로써 지능형 콘텐츠 유망사업 발굴에 활용
- 사례조사 대상 선정
- 제Ⅳ장에서 조사한 6개 기술 분야 각각에 대해 해당 기술을 활용한 콘텐츠
서비스를 제공하고 있거나 관련 연구를 진행 중인 기업·기관 중 총 15개
기업·기관을 조사 대상으로 선정
* 각 기술 분야별 국내와 해외 사례를 포함
* 15개 中 2개는 AI 기술 간 융합을 통해 개발된 연관 기술인 VR/AR 활용 사례조사
- 조사 방법 및 내용
- (조사 방법) 국내·외 기업, 기관의 AI 기술 활용 사례를 문헌을 통해
조사/분석하고, 국내의 경우 심층 연구가 필요한 사례에 대해 방문 및
서면인터뷰 수행
- (조사 내용) 콘텐츠의 개요와 AI 기술의 적용 현황, 관련 기술과 서비스의
시장 형성 및 확대 가능성, 기반 데이터 확보 가능성, 경제적·사회적
파급효과, 관련 정책 현황 면에서 다각도로 조사 실시
2. 국내·외 활용사례 조사/분석
2.1 자연어 처리 기술
-> NLP 공개 플랫폼을 통해 말뭉치 등의 기반 데이터를 공유함으로써 국내 생태계
구성을 지원하여 유망 콘텐츠 기업들의 NLP 기술 활용 콘텐츠 개발 집중을 유도
1) 오토메이티드 인사이츠 - 워드스미스
- 콘텐츠 개요
- 미국의 뉴스 통신사 AP가 `14년 오토메이티드 인사이츠(Automated Insights)
사(社)와 제휴해 기업 실적 발표 기사를 인공지능 프로그램인
‘워드스미스’를
통해 작성하여 제공
--워드스미스는 데이터를 분석해 자동으로 문장화를 해주는 플랫폼으로서 분기
실적이 공시되면 해당 데이터를 받아 자동으로 기사를 생산하며 기업의 사업
소개나 향후 전망 등도 기사에 포함 가능
--온라인 경제 매체의 공시 담당 기자들이 하던 역할을 자동화한 것으로 분기에
3,000개의 기업 실적 기사를 작성
* 우리나라에서도 경제지 파이낸셜 뉴스가 서울대 이준환 교수팀(프로야구 경기 결과를
바탕으로 자동으로 스포츠 기사를 작성하는 프로젝트 진행)의 도움을 받아 올해부터
소프트웨어를 이용한 증권 시황 기사를 발표
- AI 기술 적용 현황
- 워드스미스는 정보를 취합하고 데이터를 분석하여 빠른 시간 내에 기사를
작성 가능
--숫자만 나열된 데이터를 바탕으로 자동 분석을 실시하여 사람이 이해하기 쉬운
문장을 자동 생성하는 변환 엔진을 보유하고 있으며 선택한 데이터들로
만들어진 기사를 사람들이 관심을 가지고 볼 것인지 예측도 가능
--또한 같은 데이터를 가지고도 바라보는 시각을 선택할 수 있고, 추가적인
사실도 덧붙여서 문장 구성 가능
--사람들은 글을 쓸 때 자신만의 언어나 말투로 글을 적어가기 때문에 글의
분위기에 따라 누구의 글인지 알 수 있는데, 워드스미스도 자신의 방식으로
글을 쓰는 것이 가능
- 워드스미스의 기사 작성은 인터넷과 통신 기술의 발달에 따른 빅데이터가
만들어졌기 때문에 가능한 일로서, 빅데이터를 추출하고 정리해 분석할 수
있는 인공지능 기술의 발달에 따라 등장
-- 분석한 데이터를 논리적 순서로 연결하고, 인간의 언어를 학습하여 기계어를
자연어로 바꾸는 자연어 처리 과정을 거쳐 완전한 기사의 형식을 갖춤
- 사업 지원 타당성
- (시장 형성 및 확대 가능성) 워드스미스와 같은 로봇기자는 많은 데이터의
정리와 분석이 필요하면서도 빠른 기사 작성이 필요한 금융, 스포츠,
날씨와 같은 분야뿐만 아니라 자연어 처리가 필요한 각 분야에 활용 가능
-- 시장조사와 같이 데이터를 이용해 작성하는 보고서를 인공지능으로 작성 가능
* 인간의 통찰력과 창의력이 상대적으로 덜 필요한 분야의 보고서를 인공지능이
작성하면 인간은 인간의 언어로 작성된 보고서를 읽고 빠르게 의사결정에 활용 가능
-- 기업의 콜센터 업무에 활용하여 콜센터 상담에 걸리는 시간 단축 가능
* 일본 미즈호 은행은 `14년부터 ‘미즈호 다이렉트’ 등 고객문의가 많은 콜센터 업무에
IBM의 인공지능 로봇 ‘왓슨’을 이용하여 대응 매뉴얼을 학습시켜 적절한 회답을
표시하도록 하였으며 왓슨 도입 이후 응답 시간이 평균 1분 정도로 단축
* 일본 간포생명보험은 왓슨을 도입하여 과거 지불 사례나 의학·법률에 관한 지식을
학습시켜 보험금 지불 심사업무에 활용
-- 영업·마케팅 분야에서도 인공지능 로봇을 도입하면 제품에 대한 방대한
지식을 활용해 마케팅 효과 향상이 가능
* 일본 소프트뱅크의 ‘페퍼’는 현재 휴대전화 매장에서 접객 서비스를 하고 있으며
왓슨을 탑재하면 방대한 데이터를 바탕으로 상대의 요구에 맞춰 상세한 설명과
제안을 할 수 있게 될 것으로 예상
- (데이터 확보 가능성) 인공지능 기사 작성을 위한 기반 데이터는 자연어
처리를 위한 말뭉치와 정보 전달을 위한 근거 데이터 수집을 통해 확보
-- (자연어 생성) 수많은 말뭉치 데이터(신문, 잡지, 보고서 등에서 추출한 다양한
문장들)를 자동으로 학습하여 통계적·경험적 인공지능 기법으로 자연어를 처리
--(근거 데이터) 표준화된 데이터를 실시간 수집하고 통계적 방법론을 통해
데이터에서 가치 있는 뉴스거리를 찾아내어 기사의 주제와 관점을 설정
* 날씨, 증권, 스포츠 등의 분야는 표준화된 데이터가 풍부한 영역으로 데이터의
형태도 비교적 깨끗하기 때문에 데이터 수집과 처리가 수월
* (스포츠 기사 예시) 의미 있는 정보를 추출하기 위해 통계적 일탈 지표를 확인하여
최소치나 최고치, 혹은 전 경기 대비 큰 변화를 보인 변수를 계산하여 뉴스 가치를
지닌 데이터로 분류하는 알고리즘을 사용
- 경제적·사회적 영향
- 기사 및 보고서 작성뿐만 아니라 인간의 삶 전반에 활용 가능하며 그에
따른 연관 콘텐츠 산업의 동반 성장과 신시장 창출이 가능할 것으로 기대
-- 검색하려는 의도나 상황에 맞추어 결과의 순서를 정해주거나, 질문에 대한
응답자로 가장 적절한 사람을 추천해주는 등의 검색 솔루션에 활용 가능
* 자연어 사용자 인터페이스 기술을 이용하여 질문에 답하는 동작을 수행하는 구글의
개인비서 ‘구글 나우’는 사용자의 검색 습관을 기반으로 그들이 원할 것으로 보이는
정보를 찾아 제공
* 검색 기술을 통해 전문적인 지식에의 접근과 관리가 수월해진다면 자신의 경험이나
학습을 통한 지식 체계를 확장하여 보다 높은 서비스를 제공할 수 있게 되어 전반적인
삶의 질 향상 가능
-- 자연어 대화형 서비스를 제공하는 시장의 출현과 음성 인식 정확도 개선을 위한
자동 음성 인식(ASR) 기술이 진보할 것으로 예상
- 재난재해나 긴급한 사안에 대한 빠른 속보 전송이 가능하고, 개인에게
맞춤화된 방식의 효율적인 정보 전달이 가능할 것으로 예상-- ‘LA타임스’의 개발자 슈벤크가 개발한 ‘퀘이크봇’(Quakebot)은 진도 3.0
이상의 지진이 발생하면 자동으로 작동하여 기사를 작성하고 전송
* 기본 문장 구조가 규격화되어 있기 때문에 적절한 위치에 정확한 데이터만 배치하면
간단한 발문이 생성되는 방식으로, 지진파 데이터를 지속적으로 수집하다가 일정
수준 이상의 수치가 감지되면 자동으로 기사를 작성하며 제목도 동시에 추출
* 사람보다 빨리 재난 정보를 송고할 수 있다는 장점이 있으며, 실제로 `14년 3월
LA에서 강도 4.4의 지진이 발생했을 때, LA타임스는 8분 만에 속보 제공
-- 미국의 유서 깊은 잡지 ‘애틀랜틱(the Atlantic)’이 만든 경제 전문 온라인 매체
‘쿼츠(Quartz)’가 최근 모바일 어플리케이션을 출시
* 문자메시지를 주고받는 방식으로 뉴스를 전달하는 참신한 접근법을 택하였으며 마치
시사박사 친구가 문자로 뉴스에 대해 재미있게 설명해 주는 느낌을 제공
* 각각의 사용자에 맞는 맞춤형 기사를 보내주는 일도 가능하며 좋아할 만한 주제의
기사뿐 아니라 기사를 전하는 시간대, 알림을 주는 방식, 톡의 말투까지도 세밀하게
개인화 가능
2) 유튜브(YouTube)
- 콘텐츠 개요
- 유튜브는 구글의 AI 기반 번역 기술을 활용하여 영상의 목소리를 인식하고
다른 나라 언어로 번역하여 자막으로 제공
-- AI 개발 자회사 딥마인드(DeepMind)를 통해 머신러닝 알고리즘을 구글 번역기에
적용하여 데이터가 쌓일수록 머신러닝(학습)을 통해 고도화된 결과물을 제공
-- 음성을 인식하고 자연어 처리 과정을 거쳐 번역하여 자동으로 자막을 생성
* 기존에는 콘텐츠 제공자가 스크립트를 일일이 작성·번역하고, 몇 분 몇 초에 해당
자막이 표시 되어야 하는지 타임코드도 작성해야 했으나 자동 번역 및 자막 생성
기능이 이러한 수고를 덜어줄 것으로 기대
- AI 기술 적용 현황
-- 자연어 번역의 퀼리티를 높이기 위한 빅데이터 기반의 Corpus(말뭉치)
수집과 머신러닝(Machine Learning)을 이용해 번역품질을 개선
-- (자동 자막) 유튜브에 업로드된 영상 속 음성을 구글의 음성인식 기술이
인식하여 자동으로 문자화하여 자막을 생성
* 스크립트 작성의 번거로움이 제거되었으며, 특히 청각장애인들도 영상을 감상하고
이해할 수 있도록 도움
-- (자동 자막 번역) 생성된 자막과 음성을 자연어 처리 기술을 통해 세계 50개국
언어로 자동 변환
-- (오토 타이밍) 음성에 맞춰 스크립트의 타임코드를 일일이 작성할 필요 없이
영상·음성인식 기술을 통해 해당 스크립트가 보여야 할 정확한 시점에 자동 배치
- 사업 지원 타당성
- (시장 형성 및 확대 가능성) 국내 콘텐츠의 글로벌 시장 진출이 수월해지고
통·번역 시장과 교육산업까지 기술 적용 확대 가능
-- 언어로 인한 장벽이 낮아지면 다양한 개성과 아이디어를 갖춘 국내 창작자들이
더 많은 글로벌 시청층에 다가갈 수 있을 것으로 기대
-- 빅데이터 기반 Corpus(말뭉치) 수집과 머신러닝 기술이 결합하여 더욱 정교한
통·번역 솔루션에 활용되어 영화 “설국열차”의 ‘첨단 통역기’와 같은
실시간 통역기술의 상용화가 가능해지고 통·번역 시장의 확대 예상
* (마이크로소프트) ‘스카이프 트랜스레이터(Skype Translator)’는 비디오-음성 대화를 할
때 대화자의 음성을 다른 나라 언어로 실시간 통역
* (네이버) AI 기술을 바탕으로 한국어, 일본어, 중국어, 영어 등 4개 언어를 자동으로
통역해주는 어플리케이션 ‘파파고(Papago)’를 출시하였으며, 원하는 텍스트를
입력하거나 말하거나 사진으로 찍어 입력하면 원하는 외국어로 실시간 동시 통·번역
* (한국전자통신연구원) 한컴인터프리와 공동 개발한 자동 통역 서비스 어플리케이션
‘지니톡’은 5개국(영어, 중국어, 일본어, 스페인어, 프랑스어) 언어 통역 서비스와 29개국
언어 번역 서비스를 제공 중
-- 듣고 말하는 노출시간이 부족한 비영어권 국가의 영어교육 문제점을 해결 가능
* 국내 기업인 피턴에듀케이션이 개발한 ‘A.I. Tutor’는 말로 지시하면 그에 맞는 대답을
하므로 실시간으로 전 세계의 발음을 습득해 효과적인 영어교육 툴로 이용 가능
-- 한국을 방문하는 각국의 외국인들에게 언어의 편의성을 제공하여 관광 인구의
확대를 통해 국내 경제 활성화 기대
* `14년 구글에 인수된 Quest Visual의 Word Lens 서비스는 카메라에 번역하고자 하는
텍스트를 비추면 원하는 언어로 실시간 번역해주는 서비스를 통해 여행자들의 언어
장벽을 없애주고 여행의 편의를 제공
-- (데이터 확보 가능성) 집단 지성 격인 ‘크라우드 소싱’을 활용해 얻은
번역본을 학습하도록 하여 인공지능 번역 능력을 고도화
-- 유튜브 파트너중 하나인 ‘테드(TED)’는 자발적으로 자막 번역을 제공하는
2만여 명의 도움을 받아 100개 이상의 언어로 수천 개 동영상을 번역하는
작업을 진행 중
* 11개 언어로 2,000개 동영상에 대한 자막·제목 번역 등이 진행되면서 동영상의 평균
시청 비중이 기존 20%에서 35%까지 증가
-- 입력된 수많은 통·번역 데이터를 학습하여 통계적·경험적 인공지능 기법으로
자연어 번역을 처리
- 경제적·사회적 영향
- 실시간 통·번역 기능은 언어 장벽의 붕괴를 통해 영상 크리에이터들에게
전 세계로 시장을 넓힐 수 있는 새로운 기회가 될 전망
-- 실제 사용 언어 인구수는 크리에이터들의 수익으로 직접 연결됨
* `15년 유튜브에서 돈을 가장 많이 번 스타는 비디오 게임 해설자 ‘퓨디파이(PewDiePie)’로,
미국 포브스에 따르면 그가 유튜브에서 벌어들인 액수는 1,200만 달러, 우리 돈으로 약
135억 원에 달함
* 퓨디파이 외에도 수많은 유튜브 스타들이 영어권을 무대로 매해 수십억 원의 수익을
창출 중이며, 구글 인공지능 번역으로 유튜브의 번역 서비스가 더욱 고도화됨으로써
전 세계가 하나로 묶인다면 한국에서도 ‘퓨디파이’와 같은 스타가 나올 수 있을
것으로 기대
-- 국내 애니메이션 업계에서도 글로벌 시장 진출을 위해 유튜브를 중요한
플랫폼으로 활용 중
* 뽀로로의 공식 채널의 시청 건수는 15억 건에 달하며 구독자 수는 130만 명, `16년
1월 기준 뽀로로의 유튜브 시청 건수 중 절반이 해외에서 발생하였으며, 타요 시청
건수의 85%가 해외 유튜브 사용자
* 국내의 경쟁력 있는 애니메이션 콘텐츠를 세계 시장으로 진출시키기 위해 더욱
다양한 언어로 빠르게 제공할 수 있다면 애니메이션 자체 콘텐츠뿐만 아니라 캐릭터,
출판 등 연관 산업의 동반성장도 가능할 것으로 기대
-- 해외 한류 팬들이 우리나라 제작자들이 제공하는 무수한 콘텐츠를 자국어로
이용함으로써 우리 문화를 더 깊이 이해하고 한류에 빠져들 수 있음
3) 와이즈넛
- 콘텐츠 개요
- 인공지능 기반 빅데이터 분석과 수집, 검색SW 전문기업 와이즈넛은
`03년부터 형태소 분석기를 개발하고 개량하는 등 꾸준히 자연어 처리
기술을 축적
-- 자언어처리 기술을 통해 감성분석, 급상승 키워드 집계를 통한 이슈 분석,
비정형 데이터를 통한 트렌드 분석, 사내 의사결정을 위한 정보 분석 등
빅데이터 분야에서 다양한 솔루션을 제공
- AI 기술 적용 현황
- 인공지능 기술의 핵심인 고도화된 언어처리 기술과 데이터마이닝 기술,
빅데이터 분석 기술 등에 대한 지속적 연구 진행
-- 자체 개발한 형태소 분석기를 통해 자연어 처리 기술을 고도화
- 자연어 처리, 머신러닝, 문맥인식 등 인공지능 기술을 빅데이터 분석에
활용
-- SNS, 게시판, 블로그 등 온라인 환경의 빅데이터 수집을 통해 의미 분석을
수행하여 의미 있는 정보를 추출
- 사업 지원 타당성
- (시장 형성 및 확대 가능성) 자연어를 활용·처리하는 분야로의 확장이
예상되며 인공지능 시스템과의 대화와 필요한 정보 습득이 더욱 용이해질
것으로 기대
-- 웹상의 인공지능 기반 자동 질의응답에 활용 가능
* 단순 질의응답을 수행하는 업무에 활용되면 인간보다 빠르고 정확하게 사용자가
원하는 대답을 찾아내어 효율적으로 전달해줄 수 있을 것으로 기대
-- 빅데이터의 고속 색인과 저장이 가능해지고, 데이터의 통계적·수학적 분석을
통해 새로운 정보를 도출하는 지식 마이닝 분야에 활용 가능할 것으로 예상
* 포탈 사용자의 질문에 대해 기존에는 해당 키워드가 포함된 문서와 페이지의 리스트를
제공해주었지만, 자연어 처리 기술을 활용한 시맨틱 웹 서비스의 구현을 통해 다양한
데이터 간의 의미요소를 연결하여 지능적으로 판단함으로써 검색 결과를 인간의 언어로
제공 가능
- (데이터 확보 가능성) 웹문서, SNS 등 온라인상에서 필요로 하는 정보를
대량으로 수집하여 분석에 활용
- 경제적·사회적 영향
- 출판 및 시나리오 등의 분야에 활용되어 스토리의 도용까지 확인 가능하게
되면 표절 등의 방지에 활용되어 투명한 콘텐츠 유통이 가능
-- 실제 와이즈넛이 출시한 ‘와이즈 레퍼리’는 논문, 리포트, 자기소개서나
추천서 등 문서의 모사도를 분석하여 유사도를 검출하는 검색 솔루션으로서,
원본 문서와 비교 문서 사이에 어떤 부분을 얼마나 표절했는지 여부를 제공
- 전 산업에서 보다 큰 부가가치를 창출을 위한 기반으로서, 정보가
넘쳐나는 ‘빅데이터’ 시대에 사용자가 원하는 검색 결과만을 제공하여
업무 및 검색 효율성 향상 가능
-- 키워드 검색이나 검색광고 솔루션 등에 자연어 처리 기술을 적용하여 사용자의
검색 의도와 목적에 맞는 보다 정확도 높은 결과를 제공2.2 영상/이미지 인식 기술
-> 영상인식 기술에 활용되는 기반 데이터 확보를 위한 플랫폼 지원이 요구되며, 무
작위로 수집하는 공공 영상 정보에 대해 개인정보처리 문제 대처 방안 필요
1) 서울대학교 - 영상 자막 자동 생성
- 콘텐츠 개요
- 서울대 컴퓨터공학부와 인지과학연구소 장병탁 교수 연구팀이 만화영화를
보고 그림과 언어가 연합된 개념을 습득하며 스스로 지능을 향상시키는
프로그램을 개발
-- 연구팀은 이 프로그램에 뽀로로 만화영화 1,232분 분량의 183개 에피소드를
스캔하였으며 실험 결과 뇌 신경망을 닮은 연상메모리 구조가 장면과 대사 간
의미적 관계와 시간적 줄거리를 학습
-- 그림을 통해 연상 작용으로 추론하여 영상의 내용을 파악하고 대응되는 언어
대사를 생성
- AI 기술 적용 현황
- 실제 실험에서 기계에 뽀로로 만화영화 183편을 머신러닝으로 학습시켜
프로그램이 영상에 나오는 자막을 통해 해당 영상의 내용을 파악
-- 만화영화의 시각과 그림, 언어 등을 함께 조합해서 개념을 스스로 학습하고
스토리를 학습한 다음 새로운 화면이 주어지면 기존 학습된 이미지와 대조하여
내용을 추론하는 방식
* 사고 작용의 기반에 깔려 있는 뇌를 약간 모사한 연상메모리 구조이며 이를 딥
네트워크, 딥 하이퍼넷 또는 개념 신경망이라고 함
* 어린 아이들이 영어 동영상을 보면서 영어를 배워가는 과정을 본떠 기계에 구현
-- 뽀로로에 있는 스토리나 혹은 여러 그림과 언어가 조합된 개념들의 망을 계속
학습한 다음 추론하여, 문장을 주면 장면을 생성하고, 반대로 장면을 주면
문장을 생성
- 사업 지원 타당성
- (시장 형성 및 확대 가능성) 비정형 영상 데이터를 인식하고 내용과 상황을
파악하여 인간의 언어로 해석해낼 수 있는 검색 분야, 광고 및 마케팅,
치안 등 다양한 분야로 확장 가능
-- 구글에서 연구하고 있는 것과 같이 사진 등의 영상을 인식하고 자동으로 태그를
달아 분류하는 검색 시장에 활용 가능
* 사진 데이터만 가지고 내용을 파악하여 사용자가 원하는 검색 결과를 골라 제공
* 유해한 사진 콘텐츠를 자동 파악하여 필터링
-- 어떤 장소나 장면, 사물 등의 사진을 찍어 입력하면 프로그램이 해당 사진
영상을 인식하고 관련 정보를 제공해주는 LOD 기술 분야와 동반 성장 가능
-- 학습을 통해 수많은 비정형 영상 데이터를 인식할 수 있게 되면 내용을
파악하고 특이점 등을 추려내어 활용 가능
* 마트 내 손님의 동선과 행동, 대화 등을 분석하여 즉시 마케팅에 활용
* 범죄 지역의 CCTV 카메라가 범죄 발생 시 관련 정보와 내용을 빠르게 작성하여
경찰서에 전송
* 영화 등의 촬영 단계에서 영상인식 및 촬영 기술을 탑재한 드론이 촬영에 필요한
장면과 배경을 직접 찾아내 원하는 장면만 촬영 가능
-- 교육 분야 등에서 피교육자의 학습 능률 향상에 활용 가능
* 영상과 학습된 지식을 기반으로 외국어 등을 가르치는 개인 교사 역할을 할 수
있으며 영상인식으로 피교육자의 행동도 학습함으로써 학습능률 극대화도 가능
- (데이터 확보 가능성) 만화, 영화, 드라마, CCTV 등 다양한 분야의 동영상
및 온라인의 수많은 사진과 영상 DB를 활용하여 딥러닝
- 경제적·사회적 영향
- 온라인상에서 영상물의 투명한 콘텐츠 유통이 가능
-- 영상의 내용을 파악하여 온라인상에서 저작권이 걸린 영상의 공유를 제한
* 불법 성인물, 사생활 침해의 우려가 있는 영상 등의 유통도 제한 가능
-- 영상의 내용을 이해하고 자막을 생성하거나 줄거리를 요약하고, 사용자의
취향에 맞는 영상 콘텐츠를 추천 가능
2) 구글 - 영상 속 사물 인식
- 콘텐츠 개요
- 구글은 드라마나 영화 속 소품이 무엇인지 알려주는 ‘자동 영상
사물인식’ 기술을 개발
-- 영상에 등장한 사물 정보를 알려주면, 사물을 검색하거나 구매를 유도하는
방향으로 사용자를 유도 가능하여 광고 및 마케팅 분야에 활용
* ‘자동 영상 사물인식’ 기술을 활용하면 사용자가 영상을 보는 동안 다른 행위를 하는
것을 방지하고 영상 속 상품에 대한 관심 유도 가능
-- 구글이 연구·개발 중인 스마트 안경 ‘구글 글래스’와 융합되면 실시간으로
거리에서 펼쳐지는 사물의 정보를 얻을 수 있으며 검색과 소비, 광고가 늘어날
것으로 예상
- AI 기술 적용 현황
- 구글은 유튜브에서 수천만 개의 동영상을 수집하고 이들에서 각각 한 장씩
이미지를 랜덤하게 추출하여 엔진의 학습에 사용
-- 보유하고 있는 수천만 장의 이미지에 대해 지역적 신경망을 구성하여 비감독
학습을 수행하고 이러한 학습과정을 한 단계씩 쌓아올려 전체 멀티
레이어(Multi-Layer) 네트워크를 구성
* 태그되지 않은 데이터로만 학습을 수행하였음에도 불구하고 테스트 영상에 대해
81.7%의 인식 성능을 보임
-- 기술의 핵심 개념은 포괄적인 특징을 한데 엮어 사물을 정의하는 ‘특징
벡터’로서, 사물이 가진 다양한 특징을 종합해 영상 속 사물이 무엇인지
파악하며, 특히 색깔이나 움직임, 모양 등이 모두 포함
* 고양이가 나온 동영상에서 구글의 특징 벡터 기술은 고양이의 귀의 특징을 잡아낼 수
있고, 고양이의 움직임이나 체구, 무늬 등을 파악해 영상에 등장한 사물이
‘고양이’라고 정의
* 같은 방식으로 네 바퀴가 달린 매끈한 검정색 물체를 자동차로 인식하거나, 두 발로
서 있는 형태를 보고 사람이라고 판단
- 사업 지원 타당성
- (시장 형성 및 확대 가능성) 영상처리 기술을 적용 가능한 광고, 검색, 자율
주행차를 비롯한 각 산업 분야에서 효율성을 향상시킬 수 있을 것으로 기대
-- IDC는 영상처리 세계시장 규모를 `15년 약 765억 달러에서 `17년 약 1,090억
달러로 예상
-- (광고) 드라마나 영화 속 주인공이 착용한 상품에 대한 정보를 알려줌으로써
광고 및 마케팅 분야에 효과적으로 활용 가능
* 상품에 대한 브랜드명, 가격 정보, 가까운 매장의 재고 여부 등을 알려주고 클릭 한
번으로 상품을 구매할 수 있는 편의성 제공
-- (검색) LOD 기술과 결합하여 이미지를 찍어서 검색하는 것만으로 관련 정보를
쉽게 습득 가능
-- (자율주행차) 뛰어난 영상인식 능력이 자율 주행 자동차에 적용되면 더욱
안전성을 높일 수 있을 것으로 기대
* `16년 3월 고속도로를 주행 중이던 테슬라 자율주행차가 좌회전 중이던 흰색
트레일러를 인식하지 못해 브레이크를 잡지 못하고 그대로 충돌하면서 운전자가
사망하는 사고 발생
- (데이터 확보 가능성) 수십억 명에 달하는 서비스 사용자를 이용해
텍스트와 이미지, 동영상, 음성 등 방대한 정보를 확보
-- 구글은 자체 검색엔진을 통해 이미 수천만 장의 이미지를 보유하고 있으며,
세계 1위 동영상 사이트인 유튜브를 인수함과 동시에 수천만 개의 동영상
데이터를 확보
* 이를 통해 소프트웨어를 더 인간답게 생각할 수 있는 서비스로 개발하기 위해 꾸준히
연구 진행 중
- 경제적·사회적 영향
- 범죄 예방을 위해 폭력이나 범죄행위 등의 검출에 활용하여 안전한 사회
구현이 가능할 것으로 기대
-- 감시영상 등에 적용되어 영상 속 움직임의 특이 정보를 분석하거나 등장하는
사람의 얼굴을 범죄자 데이터와 비교하여 검출해내는 등에 활용 가능
- 영상 데이터를 활용하여 보다 정확도 높고 유용한 LOD(Linked Open Data)
구현 가능
-- 검색어 입력조차 하지 않아도 원하는 정보에 대한 사진을 업로드하여 관련
정보를 수집 가능
- 글로벌 영상 콘텐츠 시장의 확대
-- 자연어 처리 및 음성인식 기술 등과 결합하여 동영상 콘텐츠에 대해 자동 자막
생성이 가능해져 언어에 구애받지 않는 글로벌 영상 콘텐츠 시장의 확대 예상
2.3 음성/음향 인식 기술
-> 전 산업에 활용 가능한 기반 기술인만큼 약소 콘텐츠 기업들이 기반 기술을
쉽게 활용하여 콘텐츠 개발에 집중할 수 있도록 기술 공유·활용 지원 필요
1) SK텔레콤 - 누구(NUGU)
- 콘텐츠 개요
- SKT는 누구와도 대화가 가능하며 온라인 콘텐츠도 쉽게 연결해줄 수 있는
실생활 인공지능 플랫폼 기반 음성인식 서비스 ‘누구(NUGU)’ 개발
-- ‘누구(NUGU)’는 사용자 언어의 문장 형태를 알아듣는 음성인식 및 자연어
처리, 스스로 학습을 통해 진화하는 딥러닝 등 인공지능 기술을 바탕으로
다양한 서비스 제공
* 조명, 제습기, 플러그, TV, 공기청정기 등 가전기기 제어를 위한 스마트홈 서비스
* 날씨, 날짜/요일, 타이머, 수면예약, 개인일정 등 생활 편의를 위한 서비스
* 음악추천 및 자동재생 등 음악 스트리밍 관련 서비스
-- SKT는 아마존의 ‘알렉사’, 마이크로소프트의 ‘코타나’ 등 기존 인공지능
기반 음성인식 서비스와의 차별화 전략 추구
* 해외 경쟁기업들의 인공지능 음성인식 서비스에서 제공하지 않는 최초의 한국어
음성인식이 가능한 서비스 제공
* 목소리 톤, 억양, 사투리 파악이 가능할 정도로 높은 수준의 음성 인식률 제공
* 차량용 IoT, 신체 부착형 IoT, 휴머노이드 로봇, 내비게이션, 구연동화 낭독, 인터넷
쇼핑 등 다양한 서비스와의 접목 계획
* T맵을 통한 실시간 빠른 경로 안내, T전화를 통한 자동 전화 연결 등 자사 대표
플랫폼과의 연동을 바탕으로 인공지능 서비스 제공 계획
- AI 기술 적용 현황
- 기존 단순 음성인식 기능이 자연어 처리 기술과 접목되어 인공지능 기반
음성인식 시스템으로 진화
-- 누구(NUGU)는 음성 입·출력이 가능한 전용 스마트 기기를 통해 사용자의
목소리가 입력되고, 자연어 처리 기술이 적용된 인공지능 플랫폼이 언어를 인식
-- 사용자의 음성이 입력된 후 음성인식, 의미 분석, 검색(사용자가 원하는 대답을
찾는 과정), 언어생성, 음성합성 과정을 거쳐 최종적으로 음성 출력
* 출처: 다이퀘스트(http://blog.diquest.com/216) 이미지를 재구성
-- 인공지능 기반 음성인식 원리를 바탕으로 스마트홈 서비스, 생활 편의 서비스,
음악 스트리밍 관련 서비스 등을 제공
* “팅커벨, 야구장에 갈 계획인데, 내일 날씨 어때?”, “아리아, 가을에 어울리는 노래
틀어줘” 등 질문에 답변 제공
-- 딥러닝 기술을 바탕으로 사용자의 지속적인 대화 내용이 쌓여 더욱 정밀한
음성인식이 가능한 성장형 인공지능 기술 적용
-- 고객의 이용이 많아질수록 인공지능 플랫폼이 이해할 수 있는 단어와 문장이
대폭 증대함으로써 음성 인식률이 획기적으로 증가하는 시스템
-- 입력된 사용자의 질문은 문제분석, 의도이해, 해답추론, 해답생성 등 과정을
통해 질의 서비스를 제공하며, 이때 인공두뇌는 지속적으로 각 단계를 인식하고
내용을 저장함으로써 자가 학습 및 성장 진행
- 사업 지원 타당성
- (시장 형성 및 확대 가능성) 자가 학습을 통해 인식률이 증가하는 딥러닝의
장점을 바탕으로 생활·가전뿐만 아니라 교육, 콜센터 등 다양한 분야에서
시장형성 및 확대가 가능할 것으로 예상
-- 아마존의 ‘에코’, ‘알렉사’는 음성인식 기술과 스피커를 결합해 음악을
들려주고, 뉴스, 교통상황, 날씨 등 실생활을 위한 정보 제공
* 아마존은 ‘알렉사’의 API(Alexa Voice Service API)를 개방하고, 알렉사 펀드(Alexa
Fund)를 통해 다양한 써드파티 제조사들을 모집하는 중
* 아마존의 ‘알렉사’, 마이크로소프트의 ‘코타나’, SKT의 ‘누구’ 등 인공지능이 실생활에
접목되는 서비스가 증가함에 따라 생활·가전 분야에서 인공지능 시장 확대 예상
-- 국내 인공지능 개발 기업인 아카스터디는 인공지능 엔진 뮤즈(Muse)를 탑재한
영어교육 로봇 뮤지오(Musio) 개발을 통해 기존 대화 내용의 학습을 바탕으로 한
영어 교육 특화 서비스 제공
* 이미 미국의 투자회사 포메이션8, SAT 온라인 교육업체인 Shmoop 등 다수
기업으로부터 투자 유치
* 아카스터디는 세계적인 크라우드 펀딩 플랫폼 인디고고(Indiegogo)를 통해 5만 달러
규모의 펀딩을 시작(`15.6)하였고, 목표액 200% 이상의 성과 달성
* 이에 따라 향후 교육 시장에서도 인공지능이 크게 활용될 것으로 예상
-- 빅데이터 전문 기업인 마인즈랩은 음성인식에 인공지능을 결합하여 콜센터
상담 자동분석 서비스 개발
* 상담원과 고객의 통화 내용을 그대로 문자에 옮기는 동시에 핵심 내용의 자동 탐지
및 분류가 가능
* 현재 국내 이동통신사·금융사 등 다수 기업이 마인즈랩 시스템을 콜센터에 적용하여
활용중이며, 미국 진출을 바탕으로 영어 상담센터 콜 분석 서비스 개시 예정
* `16년 8월, 네이버 투자 펀드 10억 원, 벤처캐피탈 및 대기업 통신사로부터 60억
원의 투자 유치
- (데이터 확보 가능성) 딥러닝 기술의 특성은 학습형 인공지능 방식으로서
이용자·이용률이 증가함에 따라 방대한 데이터 습득이 가능하며, 이는
다양한 산업에도 적용 가능
-- SKT는 고객과 개발자 누구나 참여하여 새로운 경험을 공유하기 위해 가상회사인
‘누구나 주식회사’를 설립함으로서 학습형 인공지능의 성장을 도모
* 일반 사용자들이 ‘누구’를 사용하면서 더 많은 아이디어를 제안할 수 있도록 하는
집단지성을 이용
-- 데이터 확보를 위해 고객들에게 다양한 무료 서비스를 제공함으로써 인공지능
생태계 여건을 마련할 계획
- 경제적·사회적 영향
- 대화형 로봇 등에 적용되어 독거노인 등의 1인 가구의 외로움을 달래주고,
생활을 보조해주어 전 국민이 보다 질 높은 삶 영위 가능
-- 독거노인의 건강에 문제가 발생할 경우 이를 파악하여 관계 기관에 신고하거나
지인들에게 알려주어 불의의 사고를 예방
- 1인 가구의 증가가 막을 수 없는 사회적 현상이 되고 있는 상황에서
주인의 목소리를 알아듣고 말동무가 되어주며, 음성만으로 필요한 작업을
대신 해줄 수 있는 개인 비서 제품 시장의 확대 예상
- 차량 제어에 활용되면 사람이 운전 중에 집중력을 흩트리지 않고 운전
외의 다른 기능 제어가 가능해져 안전성 확보가 가능
* 교통 사망사고의 70%가 운전 중 주의력 분산에 의해 발생
* 차량에 대화가 가능한 시스템을 설치하여 운전자와 계속 대화를 함으로써 졸음운전
방지도 가능
2) 스터디맥스·시원스쿨 - 스피킹맥스·시원스쿨맥스
- 콘텐츠 개요
- 영어 e-러닝 전문기업 스터디맥스와 시원스쿨은 원어민의 표준 음성과
학습자의 음성을 실시간으로 비교·분석해주는 음성분석 시스템을 제공
-- 실제 현지인들이 주로 쓰는 영어 표현을 학습자가 직접 따라하면 학습자와
원어민의 음성을 그래프로 시각화시켜 즉각적인 피드백 제공
-- 학습자 고유의 음성을 파악해 원어민의 발음과 비교·분석하고 학습자가
정확한 발음을 낼 때까지 반복적인 훈련을 유도
* 시원스쿨맥스의 경우 2,000여 개의 동영상을 보고, 듣고, 따라하면서 학습자의 발음
문제점을 파악해주며 실전에서의 다양한 발음과 스피드에 적응 가능하도록 훈련
-- 학습자가 학습적 성취를 이룰 때마다 다양한 보상을 제공함으로써 좀 더 학습에
몰입도를 가지고 지속적으로 진행할 수 있는 요소를 제공
-- ETRI도 ‘자연어 대화 인터페이스 기술’을 이용해 컴퓨터와 영어로 대화할 수
있는 ‘지니튜터’ 서비스를 제공 중이며, 한국인의 영어 발음에 최적화되어
정확한 음성인식이 가능하고 틀리기 쉬운 발음과 문법에 대해 컴퓨터가 스스로
지적 가능
-- AI 기술 적용 현황
- 음성인식 엔진이 수많은 영어음성을 인식하고 학습하여 원어민들의 표준
발음과 억양, 학습자의 음성을 실시간으로 비교·분석
-- 시원스쿨맥스는 구글의 음성인식 기술을 사용하여 보다 정교하게 학습자의
발음과 억양을 인식하고 분석
-- 스피킹맥스는 로제타스톤의 음성인식 기술을 사용하여 학습자 고유의 음성을
파악하고, 학습자가 정확한 발음을 낼 때까지 반복적인 훈련을 유도
-- 다양한 영어 음성 데이터를 머신러닝을 통해 학습하여 일반적인 원어민들의
표준 발음과 억양을 추출하고, 이를 학습자의 발음 및 억양과 비교하여
그래프로 시각화
-사업 지원 타당성
- (시장 형성 및 확대 가능성) 단순 음성인식 기술에서 나아가 화자의 발음,
억양, 말투 등을 분석할 수 있어 화자의 감정과 상태를 이해하는 분야에
활용이 가능할 것으로 기대
-- 학습자의 음성을 인식하고 이해하여 대화형 영어 교육 가능
-- 화자의 고유 정보를 바탕으로 발음, 억양의 분석을 통해 로그인 등 개인 식별에
활용 가능
-- 평소 말투 및 억양과 비교하여 화자의 건강·기분 상태 등을 파악하고 이를
의료, 특수 전문 분야, 개인 비서, 대화 상대 등으로 응용분야 확대 가능
* 애플의 음성 인식 서비스인 ‘시리(Siri)’는 사용자와 대화를 이해하면서 농담을 받아
주기도 하는 등 감성적인 커뮤니케이션을 구현
-- 지역별 사투리의 발음과 억양 차이를 분석하여 여러 개인비서 제품의 음성
인식률 제고 가능
-- 화자의 음성을 통해 외국인 여부를 파악하고 심리 상태 분석을 통해 보이스피싱
등의 범죄 예방에 활용 가능
-- 입력속도가 타자에 비해 빠르기 때문에 콜센터, 방송, 통·번역, 메모
어플리케이션 등 무한한 시장으로 응용 확장 가능
- (데이터 확보 가능성) 음성인식 영어교육 기업은 자체적으로 현지를
방문하여 실제 현지 원어민들의 영어 음성을 촬영·녹음
-- 머신러닝을 위한 기반 데이터로 영화나 드라마, 강연 등 동영상 콘텐츠를
활용하는 방법도 대안이 될 수 있음
-- 구글의 경우, 기계에 직접 말을 가르치는 것이 아니라 인간 음성의 파형을
통계적으로 분석해 현재 이용자가 의도하는 바를 유추해냄
* 충분한 이용자 기반과 인프라가 요구되는 방식
- 경제적·사회적 영향
- 음성인식은 가장 직관적인 인터페이스라는 점에서 향후 IT 산업 전 분야에
있어서 미래의 파급 효과가 엄청날 것으로 예상
-- 음성인식 기술이 컴퓨터의 마우스와 키보드 등 다른 수많은 입력장치들을
대신하고, 인간이 네트워크와 소통하는 방식 자체를 바꾸어 놓을 것으로 예상
-- 음성의 주파수, 억양, 발음 등의 세세한 분석을 통해 개인을 식별하는 용도로
사용되면 일상 금융 생활 등에서 지금보다 더욱 간편하게 본인을 인증할 수
있어 인증에 소요되는 불필요한 시간 낭비 제거 가능
* 이용자 음성으로 신원이나 감정, 심리 상태를 파악하여 본인인증, 신용평가 활용
서비스 등 제공 가능
-- 신체 활동이 어려운 중증 장애인들을 위한 보조 장치로서 활용되면 장애인들이
보다 살기 좋은 아름다운 사회 구현이 가능
-- TV나 내비게이션, 가전기기, 홈네트워킹, 금융 서비스 등 다양한 분야에 가장
적용률이 높은 기술로 예상
-- 기업 입장에서도 음성인식 기술을 활용함으로써 고객 저변을 IT 기기 소외
계층으로 확장 가능할 것으로 예상
출처 한국콘텐츠진흥원 / 연구기관: (주)창의컨설팅
'콘텐츠' 카테고리의 다른 글
1. 국내 콘텐츠 산업 결산 및 전망 (0) | 2017.03.28 |
---|---|
방송 콘텐츠의 해외 유통 현황과 개선방안 (0) | 2017.03.27 |
2. 지능형 콘텐츠 기술 발전전략 (0) | 2017.03.27 |
1.지능형 콘텐츠 기술 발전전략 (0) | 2017.03.25 |
지능형 콘텐츠 기술 발전전략 연구(인공지능의 콘텐츠 분야 적용 필요성 및 활용 가능성, 콘텐츠 관련 인공지능 기술 분석 및 적용 타당성) (0) | 2017.03.23 |