본문 바로가기

콘텐츠

지능형 콘텐츠 기술 발전전략 연구(콘텐츠 분야에 인공지능 기술을 활용한 국내·외 사례)

지능형 콘텐츠 기술 발전전략 연구 

 

 

콘텐츠 분야에 인공지능 기술을 활용한 국내·외 사례

 

1. 국내·외 사례조사 개요

- 사례조사 목적

- 콘텐츠 산업에서 실제 활용 및 연구가 진행되고 있는 선진 사례를

조사·분석함으로써 지능형 콘텐츠 유망사업 발굴에 활용

- 사례조사 대상 선정

- 제Ⅳ장에서 조사한 6개 기술 분야 각각에 대해 해당 기술을 활용한 콘텐츠

서비스를 제공하고 있거나 관련 연구를 진행 중인 기업·기관 중 총 15

기업·기관을 조사 대상으로 선정

* 각 기술 분야별 국내와 해외 사례를 포함

* 15 2개는 AI 기술 간 융합을 통해 개발된 연관 기술인 VR/AR 활용 사례조사

- 조사 방법 및 내용

- (조사 방법) 국내·외 기업, 기관의 AI 기술 활용 사례를 문헌을 통해

조사/분석하고, 국내의 경우 심층 연구가 필요한 사례에 대해 방문 및

서면인터뷰 수행

- (조사 내용) 콘텐츠의 개요와 AI 기술의 적용 현황, 관련 기술과 서비스의

시장 형성 및 확대 가능성, 기반 데이터 확보 가능성, 경제적·사회적

파급효과, 관련 정책 현황 면에서 다각도로 조사 실시

2. 국내·외 활용사례 조사/분석

2.1 자연어 처리 기술

-> NLP 공개 플랫폼을 통해 말뭉치 등의 기반 데이터를 공유함으로써 국내 생태계

구성을 지원하여 유망 콘텐츠 기업들의 NLP 기술 활용 콘텐츠 개발 집중을 유도

1) 오토메이티드 인사이츠 - 워드스미스

- 콘텐츠 개요

- 미국의 뉴스 통신사 AP `14년 오토메이티드 인사이츠(Automated Insights)

()와 제휴해 기업 실적 발표 기사를 인공지능 프로그램인

‘워드스미스’를

통해 작성하여 제공

--워드스미스는 데이터를 분석해 자동으로 문장화를 해주는 플랫폼으로서 분기

실적이 공시되면 해당 데이터를 받아 자동으로 기사를 생산하며 기업의 사업

소개나 향후 전망 등도 기사에 포함 가능

--온라인 경제 매체의 공시 담당 기자들이 하던 역할을 자동화한 것으로 분기에

3,000개의 기업 실적 기사를 작성

* 우리나라에서도 경제지 파이낸셜 뉴스가 서울대 이준환 교수팀(프로야구 경기 결과를

바탕으로 자동으로 스포츠 기사를 작성하는 프로젝트 진행)의 도움을 받아 올해부터

소프트웨어를 이용한 증권 시황 기사를 발표

- AI 기술 적용 현황

- 워드스미스는 정보를 취합하고 데이터를 분석하여 빠른 시간 내에 기사를

작성 가능

--숫자만 나열된 데이터를 바탕으로 자동 분석을 실시하여 사람이 이해하기 쉬운

문장을 자동 생성하는 변환 엔진을 보유하고 있으며 선택한 데이터들로

만들어진 기사를 사람들이 관심을 가지고 볼 것인지 예측도 가능

--또한 같은 데이터를 가지고도 바라보는 시각을 선택할 수 있고, 추가적인

사실도 덧붙여서 문장 구성 가능

--사람들은 글을 쓸 때 자신만의 언어나 말투로 글을 적어가기 때문에 글의

분위기에 따라 누구의 글인지 알 수 있는데, 워드스미스도 자신의 방식으로

글을 쓰는 것이 가능

- 워드스미스의 기사 작성은 인터넷과 통신 기술의 발달에 따른 빅데이터가

만들어졌기 때문에 가능한 일로서, 빅데이터를 추출하고 정리해 분석할 수

있는 인공지능 기술의 발달에 따라 등장

-- 분석한 데이터를 논리적 순서로 연결하고, 인간의 언어를 학습하여 기계어를

자연어로 바꾸는 자연어 처리 과정을 거쳐 완전한 기사의 형식을 갖춤

- 사업 지원 타당성

- (시장 형성 및 확대 가능성) 워드스미스와 같은 로봇기자는 많은 데이터의

정리와 분석이 필요하면서도 빠른 기사 작성이 필요한 금융, 스포츠,

날씨와 같은 분야뿐만 아니라 자연어 처리가 필요한 각 분야에 활용 가능

-- 시장조사와 같이 데이터를 이용해 작성하는 보고서를 인공지능으로 작성 가능

* 인간의 통찰력과 창의력이 상대적으로 덜 필요한 분야의 보고서를 인공지능이

작성하면 인간은 인간의 언어로 작성된 보고서를 읽고 빠르게 의사결정에 활용 가능

-- 기업의 콜센터 업무에 활용하여 콜센터 상담에 걸리는 시간 단축 가능

* 일본 미즈호 은행은 `14년부터 ‘미즈호 다이렉트’ 등 고객문의가 많은 콜센터 업무에

IBM의 인공지능 로봇 ‘왓슨’을 이용하여 대응 매뉴얼을 학습시켜 적절한 회답을

표시하도록 하였으며 왓슨 도입 이후 응답 시간이 평균 1분 정도로 단축

* 일본 간포생명보험은 왓슨을 도입하여 과거 지불 사례나 의학·법률에 관한 지식을

학습시켜 보험금 지불 심사업무에 활용

-- 영업·마케팅 분야에서도 인공지능 로봇을 도입하면 제품에 대한 방대한

지식을 활용해 마케팅 효과 향상이 가능

* 일본 소프트뱅크의 ‘페퍼’는 현재 휴대전화 매장에서 접객 서비스를 하고 있으며

왓슨을 탑재하면 방대한 데이터를 바탕으로 상대의 요구에 맞춰 상세한 설명과

제안을 할 수 있게 될 것으로 예상

- (데이터 확보 가능성) 인공지능 기사 작성을 위한 기반 데이터는 자연어

처리를 위한 말뭉치와 정보 전달을 위한 근거 데이터 수집을 통해 확보

-- (자연어 생성) 수많은 말뭉치 데이터(신문, 잡지, 보고서 등에서 추출한 다양한

문장들)를 자동으로 학습하여 통계적·경험적 인공지능 기법으로 자연어를 처리

--(근거 데이터) 표준화된 데이터를 실시간 수집하고 통계적 방법론을 통해

데이터에서 가치 있는 뉴스거리를 찾아내어 기사의 주제와 관점을 설정

* 날씨, 증권, 스포츠 등의 분야는 표준화된 데이터가 풍부한 영역으로 데이터의

형태도 비교적 깨끗하기 때문에 데이터 수집과 처리가 수월

* (스포츠 기사 예시) 의미 있는 정보를 추출하기 위해 통계적 일탈 지표를 확인하여

최소치나 최고치, 혹은 전 경기 대비 큰 변화를 보인 변수를 계산하여 뉴스 가치를

지닌 데이터로 분류하는 알고리즘을 사용

- 경제적·사회적 영향

- 기사 및 보고서 작성뿐만 아니라 인간의 삶 전반에 활용 가능하며 그에

따른 연관 콘텐츠 산업의 동반 성장과 신시장 창출이 가능할 것으로 기대

-- 검색하려는 의도나 상황에 맞추어 결과의 순서를 정해주거나, 질문에 대한

응답자로 가장 적절한 사람을 추천해주는 등의 검색 솔루션에 활용 가능

* 자연어 사용자 인터페이스 기술을 이용하여 질문에 답하는 동작을 수행하는 구글의

개인비서 ‘구글 나우’는 사용자의 검색 습관을 기반으로 그들이 원할 것으로 보이는

정보를 찾아 제공

* 검색 기술을 통해 전문적인 지식에의 접근과 관리가 수월해진다면 자신의 경험이나

학습을 통한 지식 체계를 확장하여 보다 높은 서비스를 제공할 수 있게 되어 전반적인

삶의 질 향상 가능

-- 자연어 대화형 서비스를 제공하는 시장의 출현과 음성 인식 정확도 개선을 위한

자동 음성 인식(ASR) 기술이 진보할 것으로 예상

- 재난재해나 긴급한 사안에 대한 빠른 속보 전송이 가능하고, 개인에게

맞춤화된 방식의 효율적인 정보 전달이 가능할 것으로 예상-- LA타임스’의 개발자 슈벤크가 개발한 ‘퀘이크봇’(Quakebot)은 진도 3.0

이상의 지진이 발생하면 자동으로 작동하여 기사를 작성하고 전송

* 기본 문장 구조가 규격화되어 있기 때문에 적절한 위치에 정확한 데이터만 배치하면

간단한 발문이 생성되는 방식으로, 지진파 데이터를 지속적으로 수집하다가 일정

수준 이상의 수치가 감지되면 자동으로 기사를 작성하며 제목도 동시에 추출

* 사람보다 빨리 재난 정보를 송고할 수 있다는 장점이 있으며, 실제로 `14 3

LA에서 강도 4.4의 지진이 발생했을 때, LA타임스는 8분 만에 속보 제공

-- 미국의 유서 깊은 잡지 ‘애틀랜틱(the Atlantic)’이 만든 경제 전문 온라인 매체

‘쿼츠(Quartz)’가 최근 모바일 어플리케이션을 출시

* 문자메시지를 주고받는 방식으로 뉴스를 전달하는 참신한 접근법을 택하였으며 마치

시사박사 친구가 문자로 뉴스에 대해 재미있게 설명해 주는 느낌을 제공

* 각각의 사용자에 맞는 맞춤형 기사를 보내주는 일도 가능하며 좋아할 만한 주제의

기사뿐 아니라 기사를 전하는 시간대, 알림을 주는 방식, 톡의 말투까지도 세밀하게

개인화 가능

2) 유튜브(YouTube)

- 콘텐츠 개요

- 유튜브는 구글의 AI 기반 번역 기술을 활용하여 영상의 목소리를 인식하고

다른 나라 언어로 번역하여 자막으로 제공

-- AI 개발 자회사 딥마인드(DeepMind)를 통해 머신러닝 알고리즘을 구글 번역기에

적용하여 데이터가 쌓일수록 머신러닝(학습)을 통해 고도화된 결과물을 제공

-- 음성을 인식하고 자연어 처리 과정을 거쳐 번역하여 자동으로 자막을 생성

* 기존에는 콘텐츠 제공자가 스크립트를 일일이 작성·번역하고, 몇 분 몇 초에 해당

자막이 표시 되어야 하는지 타임코드도 작성해야 했으나 자동 번역 및 자막 생성

기능이 이러한 수고를 덜어줄 것으로 기대

- AI 기술 적용 현황

-- 자연어 번역의 퀼리티를 높이기 위한 빅데이터 기반의 Corpus(말뭉치)

수집과 머신러닝(Machine Learning)을 이용해 번역품질을 개선

-- (자동 자막) 유튜브에 업로드된 영상 속 음성을 구글의 음성인식 기술이

인식하여 자동으로 문자화하여 자막을 생성

* 스크립트 작성의 번거로움이 제거되었으며, 특히 청각장애인들도 영상을 감상하고

이해할 수 있도록 도움

-- (자동 자막 번역) 생성된 자막과 음성을 자연어 처리 기술을 통해 세계 50개국

언어로 자동 변환

-- (오토 타이밍) 음성에 맞춰 스크립트의 타임코드를 일일이 작성할 필요 없이

영상·음성인식 기술을 통해 해당 스크립트가 보여야 할 정확한 시점에 자동 배치

- 사업 지원 타당성

- (시장 형성 및 확대 가능성) 국내 콘텐츠의 글로벌 시장 진출이 수월해지고

통·번역 시장과 교육산업까지 기술 적용 확대 가능

-- 언어로 인한 장벽이 낮아지면 다양한 개성과 아이디어를 갖춘 국내 창작자들이

더 많은 글로벌 시청층에 다가갈 수 있을 것으로 기대

-- 빅데이터 기반 Corpus(말뭉치) 수집과 머신러닝 기술이 결합하여 더욱 정교한

통·번역 솔루션에 활용되어 영화 “설국열차”의 ‘첨단 통역기’와 같은

실시간 통역기술의 상용화가 가능해지고 통·번역 시장의 확대 예상

* (마이크로소프트) ‘스카이프 트랜스레이터(Skype Translator)’는 비디오-음성 대화를 할

때 대화자의 음성을 다른 나라 언어로 실시간 통역

* (네이버) AI 기술을 바탕으로 한국어, 일본어, 중국어, 영어 등 4개 언어를 자동으로

통역해주는 어플리케이션 ‘파파고(Papago)’를 출시하였으며, 원하는 텍스트를

입력하거나 말하거나 사진으로 찍어 입력하면 원하는 외국어로 실시간 동시 통·번역

* (한국전자통신연구원) 한컴인터프리와 공동 개발한 자동 통역 서비스 어플리케이션

‘지니톡’은 5개국(영어, 중국어, 일본어, 스페인어, 프랑스어) 언어 통역 서비스와 29개국

언어 번역 서비스를 제공 중

-- 듣고 말하는 노출시간이 부족한 비영어권 국가의 영어교육 문제점을 해결 가능

* 국내 기업인 피턴에듀케이션이 개발한 ‘A.I. Tutor’는 말로 지시하면 그에 맞는 대답을

하므로 실시간으로 전 세계의 발음을 습득해 효과적인 영어교육 툴로 이용 가능

-- 한국을 방문하는 각국의 외국인들에게 언어의 편의성을 제공하여 관광 인구의

확대를 통해 국내 경제 활성화 기대

* `14년 구글에 인수된 Quest Visual Word Lens 서비스는 카메라에 번역하고자 하는

텍스트를 비추면 원하는 언어로 실시간 번역해주는 서비스를 통해 여행자들의 언어

장벽을 없애주고 여행의 편의를 제공

-- (데이터 확보 가능성) 집단 지성 격인 ‘크라우드 소싱’을 활용해 얻은

번역본을 학습하도록 하여 인공지능 번역 능력을 고도화

-- 유튜브 파트너중 하나인 ‘테드(TED)’는 자발적으로 자막 번역을 제공하는

2만여 명의 도움을 받아 100개 이상의 언어로 수천 개 동영상을 번역하는

작업을 진행 중

* 11개 언어로 2,000개 동영상에 대한 자막·제목 번역 등이 진행되면서 동영상의 평균

시청 비중이 기존 20%에서 35%까지 증가

-- 입력된 수많은 통·번역 데이터를 학습하여 통계적·경험적 인공지능 기법으로

자연어 번역을 처리

- 경제적·사회적 영향

- 실시간 통·번역 기능은 언어 장벽의 붕괴를 통해 영상 크리에이터들에게

전 세계로 시장을 넓힐 수 있는 새로운 기회가 될 전망

-- 실제 사용 언어 인구수는 크리에이터들의 수익으로 직접 연결됨

* `15년 유튜브에서 돈을 가장 많이 번 스타는 비디오 게임 해설자 ‘퓨디파이(PewDiePie)’로,

미국 포브스에 따르면 그가 유튜브에서 벌어들인 액수는 1,200만 달러, 우리 돈으로 약

135억 원에 달함

* 퓨디파이 외에도 수많은 유튜브 스타들이 영어권을 무대로 매해 수십억 원의 수익을

창출 중이며, 구글 인공지능 번역으로 유튜브의 번역 서비스가 더욱 고도화됨으로써

전 세계가 하나로 묶인다면 한국에서도 ‘퓨디파이’와 같은 스타가 나올 수 있을

것으로 기대

-- 국내 애니메이션 업계에서도 글로벌 시장 진출을 위해 유튜브를 중요한

플랫폼으로 활용 중

* 뽀로로의 공식 채널의 시청 건수는 15억 건에 달하며 구독자 수는 130만 명, `16

1월 기준 뽀로로의 유튜브 시청 건수 중 절반이 해외에서 발생하였으며, 타요 시청

건수의 85%가 해외 유튜브 사용자

* 국내의 경쟁력 있는 애니메이션 콘텐츠를 세계 시장으로 진출시키기 위해 더욱

다양한 언어로 빠르게 제공할 수 있다면 애니메이션 자체 콘텐츠뿐만 아니라 캐릭터,

출판 등 연관 산업의 동반성장도 가능할 것으로 기대

-- 해외 한류 팬들이 우리나라 제작자들이 제공하는 무수한 콘텐츠를 자국어로

이용함으로써 우리 문화를 더 깊이 이해하고 한류에 빠져들 수 있음

3) 와이즈넛

- 콘텐츠 개요

- 인공지능 기반 빅데이터 분석과 수집, 검색SW 전문기업 와이즈넛은

`03년부터 형태소 분석기를 개발하고 개량하는 등 꾸준히 자연어 처리

기술을 축적

-- 자언어처리 기술을 통해 감성분석, 급상승 키워드 집계를 통한 이슈 분석,

비정형 데이터를 통한 트렌드 분석, 사내 의사결정을 위한 정보 분석 등

빅데이터 분야에서 다양한 솔루션을 제공

- AI 기술 적용 현황

- 인공지능 기술의 핵심인 고도화된 언어처리 기술과 데이터마이닝 기술,

빅데이터 분석 기술 등에 대한 지속적 연구 진행

-- 자체 개발한 형태소 분석기를 통해 자연어 처리 기술을 고도화

- 자연어 처리, 머신러닝, 문맥인식 등 인공지능 기술을 빅데이터 분석에

활용

-- SNS, 게시판, 블로그 등 온라인 환경의 빅데이터 수집을 통해 의미 분석을

수행하여 의미 있는 정보를 추출

- 사업 지원 타당성

- (시장 형성 및 확대 가능성) 자연어를 활용·처리하는 분야로의 확장이

예상되며 인공지능 시스템과의 대화와 필요한 정보 습득이 더욱 용이해질

것으로 기대

-- 웹상의 인공지능 기반 자동 질의응답에 활용 가능

* 단순 질의응답을 수행하는 업무에 활용되면 인간보다 빠르고 정확하게 사용자가

원하는 대답을 찾아내어 효율적으로 전달해줄 수 있을 것으로 기대

-- 빅데이터의 고속 색인과 저장이 가능해지고, 데이터의 통계적·수학적 분석을

통해 새로운 정보를 도출하는 지식 마이닝 분야에 활용 가능할 것으로 예상

* 포탈 사용자의 질문에 대해 기존에는 해당 키워드가 포함된 문서와 페이지의 리스트를

제공해주었지만, 자연어 처리 기술을 활용한 시맨틱 웹 서비스의 구현을 통해 다양한

데이터 간의 의미요소를 연결하여 지능적으로 판단함으로써 검색 결과를 인간의 언어로

제공 가능

- (데이터 확보 가능성) 웹문서, SNS 등 온라인상에서 필요로 하는 정보를

대량으로 수집하여 분석에 활용

- 경제적·사회적 영향

- 출판 및 시나리오 등의 분야에 활용되어 스토리의 도용까지 확인 가능하게

되면 표절 등의 방지에 활용되어 투명한 콘텐츠 유통이 가능

-- 실제 와이즈넛이 출시한 ‘와이즈 레퍼리’는 논문, 리포트, 자기소개서나

추천서 등 문서의 모사도를 분석하여 유사도를 검출하는 검색 솔루션으로서,

원본 문서와 비교 문서 사이에 어떤 부분을 얼마나 표절했는지 여부를 제공

- 전 산업에서 보다 큰 부가가치를 창출을 위한 기반으로서, 정보가

넘쳐나는 ‘빅데이터’ 시대에 사용자가 원하는 검색 결과만을 제공하여

업무 및 검색 효율성 향상 가능

-- 키워드 검색이나 검색광고 솔루션 등에 자연어 처리 기술을 적용하여 사용자의

검색 의도와 목적에 맞는 보다 정확도 높은 결과를 제공2.2 영상/이미지 인식 기술

-> 영상인식 기술에 활용되는 기반 데이터 확보를 위한 플랫폼 지원이 요구되며,

작위로 수집하는 공공 영상 정보에 대해 개인정보처리 문제 대처 방안 필요

1) 서울대학교 - 영상 자막 자동 생성

- 콘텐츠 개요

- 서울대 컴퓨터공학부와 인지과학연구소 장병탁 교수 연구팀이 만화영화를

보고 그림과 언어가 연합된 개념을 습득하며 스스로 지능을 향상시키는

프로그램을 개발

-- 연구팀은 이 프로그램에 뽀로로 만화영화 1,232분 분량의 183개 에피소드를

스캔하였으며 실험 결과 뇌 신경망을 닮은 연상메모리 구조가 장면과 대사 간

의미적 관계와 시간적 줄거리를 학습

-- 그림을 통해 연상 작용으로 추론하여 영상의 내용을 파악하고 대응되는 언어

대사를 생성

- AI 기술 적용 현황

- 실제 실험에서 기계에 뽀로로 만화영화 183편을 머신러닝으로 학습시켜

프로그램이 영상에 나오는 자막을 통해 해당 영상의 내용을 파악

-- 만화영화의 시각과 그림, 언어 등을 함께 조합해서 개념을 스스로 학습하고

스토리를 학습한 다음 새로운 화면이 주어지면 기존 학습된 이미지와 대조하여

내용을 추론하는 방식

* 사고 작용의 기반에 깔려 있는 뇌를 약간 모사한 연상메모리 구조이며 이를 딥

네트워크, 딥 하이퍼넷 또는 개념 신경망이라고 함

* 어린 아이들이 영어 동영상을 보면서 영어를 배워가는 과정을 본떠 기계에 구현

-- 뽀로로에 있는 스토리나 혹은 여러 그림과 언어가 조합된 개념들의 망을 계속

학습한 다음 추론하여, 문장을 주면 장면을 생성하고, 반대로 장면을 주면

문장을 생성

- 사업 지원 타당성

- (시장 형성 및 확대 가능성) 비정형 영상 데이터를 인식하고 내용과 상황을

파악하여 인간의 언어로 해석해낼 수 있는 검색 분야, 광고 및 마케팅,

치안 등 다양한 분야로 확장 가능

-- 구글에서 연구하고 있는 것과 같이 사진 등의 영상을 인식하고 자동으로 태그를

달아 분류하는 검색 시장에 활용 가능

* 사진 데이터만 가지고 내용을 파악하여 사용자가 원하는 검색 결과를 골라 제공

* 유해한 사진 콘텐츠를 자동 파악하여 필터링

-- 어떤 장소나 장면, 사물 등의 사진을 찍어 입력하면 프로그램이 해당 사진

영상을 인식하고 관련 정보를 제공해주는 LOD 기술 분야와 동반 성장 가능

-- 학습을 통해 수많은 비정형 영상 데이터를 인식할 수 있게 되면 내용을

파악하고 특이점 등을 추려내어 활용 가능

* 마트 내 손님의 동선과 행동, 대화 등을 분석하여 즉시 마케팅에 활용

* 범죄 지역의 CCTV 카메라가 범죄 발생 시 관련 정보와 내용을 빠르게 작성하여

경찰서에 전송

* 영화 등의 촬영 단계에서 영상인식 및 촬영 기술을 탑재한 드론이 촬영에 필요한

장면과 배경을 직접 찾아내 원하는 장면만 촬영 가능

-- 교육 분야 등에서 피교육자의 학습 능률 향상에 활용 가능

* 영상과 학습된 지식을 기반으로 외국어 등을 가르치는 개인 교사 역할을 할 수

있으며 영상인식으로 피교육자의 행동도 학습함으로써 학습능률 극대화도 가능

- (데이터 확보 가능성) 만화, 영화, 드라마, CCTV 등 다양한 분야의 동영상

및 온라인의 수많은 사진과 영상 DB를 활용하여 딥러닝

- 경제적·사회적 영향

- 온라인상에서 영상물의 투명한 콘텐츠 유통이 가능

-- 영상의 내용을 파악하여 온라인상에서 저작권이 걸린 영상의 공유를 제한

* 불법 성인물, 사생활 침해의 우려가 있는 영상 등의 유통도 제한 가능

-- 영상의 내용을 이해하고 자막을 생성하거나 줄거리를 요약하고, 사용자의

취향에 맞는 영상 콘텐츠를 추천 가능

2) 구글 - 영상 속 사물 인식

- 콘텐츠 개요

- 구글은 드라마나 영화 속 소품이 무엇인지 알려주는 ‘자동 영상

사물인식’ 기술을 개발

-- 영상에 등장한 사물 정보를 알려주면, 사물을 검색하거나 구매를 유도하는

방향으로 사용자를 유도 가능하여 광고 및 마케팅 분야에 활용

* ‘자동 영상 사물인식’ 기술을 활용하면 사용자가 영상을 보는 동안 다른 행위를 하는

것을 방지하고 영상 속 상품에 대한 관심 유도 가능

-- 구글이 연구·개발 중인 스마트 안경 ‘구글 글래스’와 융합되면 실시간으로

거리에서 펼쳐지는 사물의 정보를 얻을 수 있으며 검색과 소비, 광고가 늘어날

것으로 예상

- AI 기술 적용 현황

- 구글은 유튜브에서 수천만 개의 동영상을 수집하고 이들에서 각각 한 장씩

이미지를 랜덤하게 추출하여 엔진의 학습에 사용

-- 보유하고 있는 수천만 장의 이미지에 대해 지역적 신경망을 구성하여 비감독

학습을 수행하고 이러한 학습과정을 한 단계씩 쌓아올려 전체 멀티

레이어(Multi-Layer) 네트워크를 구성

* 태그되지 않은 데이터로만 학습을 수행하였음에도 불구하고 테스트 영상에 대해

81.7%의 인식 성능을 보임

-- 기술의 핵심 개념은 포괄적인 특징을 한데 엮어 사물을 정의하는 ‘특징

벡터’로서, 사물이 가진 다양한 특징을 종합해 영상 속 사물이 무엇인지

파악하며, 특히 색깔이나 움직임, 모양 등이 모두 포함

* 고양이가 나온 동영상에서 구글의 특징 벡터 기술은 고양이의 귀의 특징을 잡아낼 수

있고, 고양이의 움직임이나 체구, 무늬 등을 파악해 영상에 등장한 사물이

‘고양이’라고 정의

* 같은 방식으로 네 바퀴가 달린 매끈한 검정색 물체를 자동차로 인식하거나, 두 발로

서 있는 형태를 보고 사람이라고 판단

- 사업 지원 타당성

- (시장 형성 및 확대 가능성) 영상처리 기술을 적용 가능한 광고, 검색, 자율

주행차를 비롯한 각 산업 분야에서 효율성을 향상시킬 수 있을 것으로 기대

-- IDC는 영상처리 세계시장 규모를 `15년 약 765억 달러에서 `17년 약 1,090

달러로 예상

-- (광고) 드라마나 영화 속 주인공이 착용한 상품에 대한 정보를 알려줌으로써

광고 및 마케팅 분야에 효과적으로 활용 가능

* 상품에 대한 브랜드명, 가격 정보, 가까운 매장의 재고 여부 등을 알려주고 클릭 한

번으로 상품을 구매할 수 있는 편의성 제공

-- (검색) LOD 기술과 결합하여 이미지를 찍어서 검색하는 것만으로 관련 정보를

쉽게 습득 가능

-- (자율주행차) 뛰어난 영상인식 능력이 자율 주행 자동차에 적용되면 더욱

안전성을 높일 수 있을 것으로 기대

* `16 3월 고속도로를 주행 중이던 테슬라 자율주행차가 좌회전 중이던 흰색

트레일러를 인식하지 못해 브레이크를 잡지 못하고 그대로 충돌하면서 운전자가

사망하는 사고 발생

- (데이터 확보 가능성) 수십억 명에 달하는 서비스 사용자를 이용해

텍스트와 이미지, 동영상, 음성 등 방대한 정보를 확보

-- 구글은 자체 검색엔진을 통해 이미 수천만 장의 이미지를 보유하고 있으며,

세계 1위 동영상 사이트인 유튜브를 인수함과 동시에 수천만 개의 동영상

데이터를 확보

* 이를 통해 소프트웨어를 더 인간답게 생각할 수 있는 서비스로 개발하기 위해 꾸준히

연구 진행 중

- 경제적·사회적 영향

- 범죄 예방을 위해 폭력이나 범죄행위 등의 검출에 활용하여 안전한 사회

구현이 가능할 것으로 기대

-- 감시영상 등에 적용되어 영상 속 움직임의 특이 정보를 분석하거나 등장하는

사람의 얼굴을 범죄자 데이터와 비교하여 검출해내는 등에 활용 가능

- 영상 데이터를 활용하여 보다 정확도 높고 유용한 LOD(Linked Open Data)

구현 가능

-- 검색어 입력조차 하지 않아도 원하는 정보에 대한 사진을 업로드하여 관련

정보를 수집 가능

- 글로벌 영상 콘텐츠 시장의 확대

-- 자연어 처리 및 음성인식 기술 등과 결합하여 동영상 콘텐츠에 대해 자동 자막

생성이 가능해져 언어에 구애받지 않는 글로벌 영상 콘텐츠 시장의 확대 예상

2.3 음성/음향 인식 기술

-> 전 산업에 활용 가능한 기반 기술인만큼 약소 콘텐츠 기업들이 기반 기술을

쉽게 활용하여 콘텐츠 개발에 집중할 수 있도록 기술 공유·활용 지원 필요

1) SK텔레콤 - 누구(NUGU)

- 콘텐츠 개요

- SKT는 누구와도 대화가 가능하며 온라인 콘텐츠도 쉽게 연결해줄 수 있는

실생활 인공지능 플랫폼 기반 음성인식 서비스 ‘누구(NUGU)’ 개발

-- ‘누구(NUGU)’는 사용자 언어의 문장 형태를 알아듣는 음성인식 및 자연어

처리, 스스로 학습을 통해 진화하는 딥러닝 등 인공지능 기술을 바탕으로

다양한 서비스 제공

* 조명, 제습기, 플러그, TV, 공기청정기 등 가전기기 제어를 위한 스마트홈 서비스

* 날씨, 날짜/요일, 타이머, 수면예약, 개인일정 등 생활 편의를 위한 서비스

* 음악추천 및 자동재생 등 음악 스트리밍 관련 서비스

-- SKT는 아마존의 ‘알렉사’, 마이크로소프트의 ‘코타나’ 등 기존 인공지능

기반 음성인식 서비스와의 차별화 전략 추구

* 해외 경쟁기업들의 인공지능 음성인식 서비스에서 제공하지 않는 최초의 한국어

음성인식이 가능한 서비스 제공

* 목소리 톤, 억양, 사투리 파악이 가능할 정도로 높은 수준의 음성 인식률 제공

* 차량용 IoT, 신체 부착형 IoT, 휴머노이드 로봇, 내비게이션, 구연동화 낭독, 인터넷

쇼핑 등 다양한 서비스와의 접목 계획

* T맵을 통한 실시간 빠른 경로 안내, T전화를 통한 자동 전화 연결 등 자사 대표

플랫폼과의 연동을 바탕으로 인공지능 서비스 제공 계획

- AI 기술 적용 현황

- 기존 단순 음성인식 기능이 자연어 처리 기술과 접목되어 인공지능 기반

음성인식 시스템으로 진화

-- 누구(NUGU)는 음성 입·출력이 가능한 전용 스마트 기기를 통해 사용자의

목소리가 입력되고, 자연어 처리 기술이 적용된 인공지능 플랫폼이 언어를 인식

-- 사용자의 음성이 입력된 후 음성인식, 의미 분석, 검색(사용자가 원하는 대답을

찾는 과정), 언어생성, 음성합성 과정을 거쳐 최종적으로 음성 출력

* 출처: 다이퀘스트(http://blog.diquest.com/216) 이미지를 재구성

 

-- 인공지능 기반 음성인식 원리를 바탕으로 스마트홈 서비스, 생활 편의 서비스,

음악 스트리밍 관련 서비스 등을 제공

* “팅커벨, 야구장에 갈 계획인데, 내일 날씨 어때?, “아리아, 가을에 어울리는 노래

틀어줘” 등 질문에 답변 제공

-- 딥러닝 기술을 바탕으로 사용자의 지속적인 대화 내용이 쌓여 더욱 정밀한

음성인식이 가능한 성장형 인공지능 기술 적용

-- 고객의 이용이 많아질수록 인공지능 플랫폼이 이해할 수 있는 단어와 문장이

대폭 증대함으로써 음성 인식률이 획기적으로 증가하는 시스템

-- 입력된 사용자의 질문은 문제분석, 의도이해, 해답추론, 해답생성 등 과정을

통해 질의 서비스를 제공하며, 이때 인공두뇌는 지속적으로 각 단계를 인식하고

내용을 저장함으로써 자가 학습 및 성장 진행

- 사업 지원 타당성

- (시장 형성 및 확대 가능성) 자가 학습을 통해 인식률이 증가하는 딥러닝의

장점을 바탕으로 생활·가전뿐만 아니라 교육, 콜센터 등 다양한 분야에서

시장형성 및 확대가 가능할 것으로 예상

-- 아마존의 ‘에코’, ‘알렉사’는 음성인식 기술과 스피커를 결합해 음악을

들려주고, 뉴스, 교통상황, 날씨 등 실생활을 위한 정보 제공

* 아마존은 ‘알렉사’의 API(Alexa Voice Service API)를 개방하고, 알렉사 펀드(Alexa

Fund)를 통해 다양한 써드파티 제조사들을 모집하는 중

* 아마존의 ‘알렉사’, 마이크로소프트의 ‘코타나’, SKT의 ‘누구’ 등 인공지능이 실생활에

접목되는 서비스가 증가함에 따라 생활·가전 분야에서 인공지능 시장 확대 예상

-- 국내 인공지능 개발 기업인 아카스터디는 인공지능 엔진 뮤즈(Muse)를 탑재한

영어교육 로봇 뮤지오(Musio) 개발을 통해 기존 대화 내용의 학습을 바탕으로 한

영어 교육 특화 서비스 제공

* 이미 미국의 투자회사 포메이션8, SAT 온라인 교육업체인 Shmoop 등 다수

기업으로부터 투자 유치

* 아카스터디는 세계적인 크라우드 펀딩 플랫폼 인디고고(Indiegogo)를 통해 5만 달러

규모의 펀딩을 시작(`15.6)하였고, 목표액 200% 이상의 성과 달성

* 이에 따라 향후 교육 시장에서도 인공지능이 크게 활용될 것으로 예상

-- 빅데이터 전문 기업인 마인즈랩은 음성인식에 인공지능을 결합하여 콜센터

상담 자동분석 서비스 개발

* 상담원과 고객의 통화 내용을 그대로 문자에 옮기는 동시에 핵심 내용의 자동 탐지

및 분류가 가능

* 현재 국내 이동통신사·금융사 등 다수 기업이 마인즈랩 시스템을 콜센터에 적용하여

활용중이며, 미국 진출을 바탕으로 영어 상담센터 콜 분석 서비스 개시 예정

* `16 8, 네이버 투자 펀드 10억 원, 벤처캐피탈 및 대기업 통신사로부터 60

원의 투자 유치

- (데이터 확보 가능성) 딥러닝 기술의 특성은 학습형 인공지능 방식으로서

이용자·이용률이 증가함에 따라 방대한 데이터 습득이 가능하며, 이는

다양한 산업에도 적용 가능

-- SKT는 고객과 개발자 누구나 참여하여 새로운 경험을 공유하기 위해 가상회사인

‘누구나 주식회사’를 설립함으로서 학습형 인공지능의 성장을 도모

* 일반 사용자들이 ‘누구’를 사용하면서 더 많은 아이디어를 제안할 수 있도록 하는

집단지성을 이용

-- 데이터 확보를 위해 고객들에게 다양한 무료 서비스를 제공함으로써 인공지능

생태계 여건을 마련할 계획

- 경제적·사회적 영향

- 대화형 로봇 등에 적용되어 독거노인 등의 1인 가구의 외로움을 달래주고,

생활을 보조해주어 전 국민이 보다 질 높은 삶 영위 가능

-- 독거노인의 건강에 문제가 발생할 경우 이를 파악하여 관계 기관에 신고하거나

지인들에게 알려주어 불의의 사고를 예방

- 1인 가구의 증가가 막을 수 없는 사회적 현상이 되고 있는 상황에서

주인의 목소리를 알아듣고 말동무가 되어주며, 음성만으로 필요한 작업을

대신 해줄 수 있는 개인 비서 제품 시장의 확대 예상

- 차량 제어에 활용되면 사람이 운전 중에 집중력을 흩트리지 않고 운전

외의 다른 기능 제어가 가능해져 안전성 확보가 가능

* 교통 사망사고의 70%가 운전 중 주의력 분산에 의해 발생

* 차량에 대화가 가능한 시스템을 설치하여 운전자와 계속 대화를 함으로써 졸음운전

방지도 가능

2) 스터디맥스·시원스쿨 - 스피킹맥스·시원스쿨맥스

- 콘텐츠 개요

- 영어 e-러닝 전문기업 스터디맥스와 시원스쿨은 원어민의 표준 음성과

학습자의 음성을 실시간으로 비교·분석해주는 음성분석 시스템을 제공

-- 실제 현지인들이 주로 쓰는 영어 표현을 학습자가 직접 따라하면 학습자와

원어민의 음성을 그래프로 시각화시켜 즉각적인 피드백 제공

-- 학습자 고유의 음성을 파악해 원어민의 발음과 비교·분석하고 학습자가

정확한 발음을 낼 때까지 반복적인 훈련을 유도

* 시원스쿨맥스의 경우 2,000여 개의 동영상을 보고, 듣고, 따라하면서 학습자의 발음

문제점을 파악해주며 실전에서의 다양한 발음과 스피드에 적응 가능하도록 훈련

-- 학습자가 학습적 성취를 이룰 때마다 다양한 보상을 제공함으로써 좀 더 학습에

몰입도를 가지고 지속적으로 진행할 수 있는 요소를 제공

-- ETRI도 ‘자연어 대화 인터페이스 기술’을 이용해 컴퓨터와 영어로 대화할 수

있는 ‘지니튜터’ 서비스를 제공 중이며, 한국인의 영어 발음에 최적화되어

정확한 음성인식이 가능하고 틀리기 쉬운 발음과 문법에 대해 컴퓨터가 스스로

지적 가능

-- AI 기술 적용 현황

- 음성인식 엔진이 수많은 영어음성을 인식하고 학습하여 원어민들의 표준

발음과 억양, 학습자의 음성을 실시간으로 비교·분석

-- 시원스쿨맥스는 구글의 음성인식 기술을 사용하여 보다 정교하게 학습자의

발음과 억양을 인식하고 분석

-- 스피킹맥스는 로제타스톤의 음성인식 기술을 사용하여 학습자 고유의 음성을

파악하고, 학습자가 정확한 발음을 낼 때까지 반복적인 훈련을 유도

-- 다양한 영어 음성 데이터를 머신러닝을 통해 학습하여 일반적인 원어민들의

표준 발음과 억양을 추출하고, 이를 학습자의 발음 및 억양과 비교하여

그래프로 시각화

-사업 지원 타당성

- (시장 형성 및 확대 가능성) 단순 음성인식 기술에서 나아가 화자의 발음,

억양, 말투 등을 분석할 수 있어 화자의 감정과 상태를 이해하는 분야에

활용이 가능할 것으로 기대

-- 학습자의 음성을 인식하고 이해하여 대화형 영어 교육 가능

-- 화자의 고유 정보를 바탕으로 발음, 억양의 분석을 통해 로그인 등 개인 식별에

활용 가능

-- 평소 말투 및 억양과 비교하여 화자의 건강·기분 상태 등을 파악하고 이를

의료, 특수 전문 분야, 개인 비서, 대화 상대 등으로 응용분야 확대 가능

* 애플의 음성 인식 서비스인 ‘시리(Siri)’는 사용자와 대화를 이해하면서 농담을 받아

주기도 하는 등 감성적인 커뮤니케이션을 구현

-- 지역별 사투리의 발음과 억양 차이를 분석하여 여러 개인비서 제품의 음성

인식률 제고 가능

-- 화자의 음성을 통해 외국인 여부를 파악하고 심리 상태 분석을 통해 보이스피싱

등의 범죄 예방에 활용 가능

-- 입력속도가 타자에 비해 빠르기 때문에 콜센터, 방송, 통·번역, 메모

어플리케이션 등 무한한 시장으로 응용 확장 가능

- (데이터 확보 가능성) 음성인식 영어교육 기업은 자체적으로 현지를

방문하여 실제 현지 원어민들의 영어 음성을 촬영·녹음

-- 머신러닝을 위한 기반 데이터로 영화나 드라마, 강연 등 동영상 콘텐츠를

활용하는 방법도 대안이 될 수 있음

-- 구글의 경우, 기계에 직접 말을 가르치는 것이 아니라 인간 음성의 파형을

통계적으로 분석해 현재 이용자가 의도하는 바를 유추해냄

* 충분한 이용자 기반과 인프라가 요구되는 방식

- 경제적·사회적 영향

- 음성인식은 가장 직관적인 인터페이스라는 점에서 향후 IT 산업 전 분야에

있어서 미래의 파급 효과가 엄청날 것으로 예상

-- 음성인식 기술이 컴퓨터의 마우스와 키보드 등 다른 수많은 입력장치들을

대신하고, 인간이 네트워크와 소통하는 방식 자체를 바꾸어 놓을 것으로 예상

-- 음성의 주파수, 억양, 발음 등의 세세한 분석을 통해 개인을 식별하는 용도로

사용되면 일상 금융 생활 등에서 지금보다 더욱 간편하게 본인을 인증할 수

있어 인증에 소요되는 불필요한 시간 낭비 제거 가능

* 이용자 음성으로 신원이나 감정, 심리 상태를 파악하여 본인인증, 신용평가 활용

서비스 등 제공 가능

-- 신체 활동이 어려운 중증 장애인들을 위한 보조 장치로서 활용되면 장애인들이

보다 살기 좋은 아름다운 사회 구현이 가능

-- TV나 내비게이션, 가전기기, 홈네트워킹, 금융 서비스 등 다양한 분야에 가장

적용률이 높은 기술로 예상

-- 기업 입장에서도 음성인식 기술을 활용함으로써 고객 저변을 IT 기기 소외

계층으로 확장 가능할 것으로 예상

 

출처 한국콘텐츠진흥원 / 연구기관: (주)창의컨설팅