본문 바로가기
윤's/┗ 전자 / 모바일

잡스의 마지막 유산 - 음성인식 서비스 Siri

by cfono1 2011. 10. 10.
잡스가 지구를 떠났다. 잡스는 사용자에게 기술을 강요하는 것이 아니라 사용자가 필요로 하는 것에 적절한 기술을 제공하여 사용자 경험이라는 최종 결과물을 만들어 내는 것에 탁월한 능력자였다. 그러던 그가 세상을 떠났다. 그것도 제품 발표회 바로 다음날 말이다. 참으로 극적이다.

 
그가 지구를 떠나기 전 마지막 제품 발표회에선 아이폰 4S가 소개되었는데 여기에 재밌는 기능이 하나 추가되어 있다. 바로 음성인식 기술을 바탕으로 한 Siri다. 

 
이야기를 시작하기에 앞서 아래의 삼성경제연구소 보고서를 읽어보길 바란다. 

20110901 - 음성인식 기술의 재발견.pdf

 
기기 발전의 역사는 인간의 한계를 극복하느냐와 인간을 얼마나 닮느냐 두 가지 역사로 볼 수 있다. 자동차, 항공기 등은 인간의 한계를 얼마나 극복하여 더 멀리 더 높이 가느냐의 문제로 볼 수 있다. 최근의 스마트폰은 두 번째 즉 인간을 얼마나 닮느냐의 관점으로 볼 수 있다. 스마트폰을 비롯하여 피처폰도 왜 렌즈가 달리기 시작했을까? 그것은 인간의 시각이라는 감각을 닮기 위함이다. 다른 사람과 정보 및 경험을 공유하기 위해서 우리는 렌즈라는 부품이 추가되기 전까지 오직 문자로만 공유되었다. 하지만 렌즈라는 부품이 추가되면서 기기는 사용자가 보는 것을 데이터로 옮겨 기기의 언어로 저장할 수 있게 되었고 스마트폰에 이르러서는 온라인 접속이 더 강화되면서 폭넓은 공유가 가능하게 되었다. 몸이 1,000냥이면 눈이 900냥이라는 말이 있듯 렌즈는 단순히 부품이라는 의미를 넘어 인간이 시각이라는 감각에 다가가고자 하는 기기 발전의 연장선에서 보아야 한다. 

관련 글 - iPad로 살펴보는 온라인 세상 - 전자기기의 렌즈는 무엇인가?(링크)

이번 애플의 새로운 서비스 Siri 또한 그런 생각의 연장선에서 보아야 한다. 말하고 듣는 행위 즉, 대화라는 게 가능해지려면 청각과 혀(맛을 느끼는 것이 아닌 언어를 위한 기능)의 기능을 구현해야 한다. 이는 인간의 언어능력을 가져오는 것으로 이 기능이 완성되면 인간의 정보 교환을 위한 영역인 시청각 영역이 모두 완성되는 것이다.  

보고서에서는 4개의 영역에서 활용될 것으로 기대하고 있다. 
1. 기능이 다양한 기기를 조작할 때 사용된다.
2. 이동 및 작업 중에 정보를 입력할 때 활용된다.
3. 개인별 서비스 제공에 적합하다.
4. 실시간 정보 처리에 유용하다.
특히 2, 3의 영역이 가장 기대되는 부분인데 다음과 같은 이유에서다.

< 아이폰 4S 소개 동영상. 특히 Siri의 소개에 주목하자 >


2. 이동 및 작업 중에 정보를 입력할 때 활용된다 - 이 부분은 자동차에서 극적인 활용이 가능하다. 운동하다 스마트폰을 사용해 문자를 보내는 것은 치명적인 결과를 가져다주지 않는다. 그러나 운전하는 경우라면 음주운전만큼 위험한 결과를 가져다줄 수 있다. 집중력이 분산되는 것은 물론이고 전방을 주시해야 하는 운전자의 시야를 뺏어가기 때문이다. 하지만 Siri는 운전자의 시야를 뺏지 않고서도 사용자가 원하는 것을 할 수 있게 해준다. 

< 인간과 전자기기가 만나는 3개의 영역 >
관련 글 - LG전자 앱스토어 전략 - 인간의 생활과 접하는 전자기기 3개의 영역(링크)
 
+ 이건 나의 추측인데 Siri의 이러한 극적인 기능 덕분에 애플의 제품 라인업에 변화가 올 수도 있지 않을까 싶다. 이런 음성 인식 기능을 애플이 자동차 회사와 공유하지는 않을 것이다(이 말은 자동차 회사에 제공되어 처음부터 설치되어 나오지 않을 것이라는 뜻이다. 마치 아우디의 인포테인먼트 MMI처럼 말이다). 결국, 하나의 디바이스로 제공되어야 할 터인데 아이폰은 자동차에서 내비게이션이나 인포테인먼트로 쓰기에는 좀 작다. 휴대성을 고려하면서도 다양한 정보를 보기에는 7인치 영역대가 적절하다. 애플이 Siri의 능력을 바탕으로 자동차 영역을 노린다면 7인치 아이패드가 가능하리라 본다. 그렇게 되면 휴대기기 영역에서는 아이폰, 자동차 영역에서는 7인치 아이패드, 가전기기 영역에서는 9.7인치 아이패드로 대응할 수 있을 것이다.

3. 개인별 서비스 제공에 적합하다 - 여기선 두 개의 영역으로 분류할 수 있는데 하나는 번역 서비스이고 또 하나는 집이라는 공간에서의 서비스다. Siri는 수많은 언어 데이터를 비교함으로써 사용자의 말이 의도하는 것과 유사한 것을 찾아가는 논리다. 그러므로 사용하는 사람이 많아질수록 표본 데이터는 많아지고 서비스는 정교해진다. 영어권에서 서비스를 키우고 한국어 서비스를 각자 키운다. 그다음 이것을 연결하면 영어 번역서비스라는 새로운 시장이 열린다. 독일어 서비스를 예로 들어보자.

독일어 번역 서비스는 한국어와 독일어를 모두 아는 사람이 있어야 가능했다. 하지만 Siri가 독일어 서비스와 한국어 서비스가 된다면 너무나 쉽게 풀린다. 독일어 서비스와 영어 서비스를 연결한다(영어는 정보 기록의 중심 언어로서 영어를 중심으로 하는 번역서비스는 매우 활발하다). 영어 서비스와 한국어 서비스를 연결한다. 그다음에 영어를 중심으로 연결하면 자연스럽게 독일어와 한국어 서비스가 완성된다. D(독일어) = E(영어)이고 E(영어) = K(한국어)이면 D(독일어) = K(한국어)가 완성되는 것이다. 이 공식을 바탕으로 Siri는 영어를 중심으로 하는 포르투갈어, 일어, 중국어 등 다양한 번역 서비스의 중심에 설 수 있다.

집이라는 공간에서의 서비스는 무척 다양한 쓰임새가 있을 수 있겠지만 내가 생각하는 가장 뚜렷한 부분은 바로 보안에서다. Siri(애플 TV를 통해서든 아이패드를 통해서든)가 집에 설치된 마이크를 통해 사용자의 위급한 순간을 인식하고 이에 대응하는 조치를 취하는 것이다. 가령 집안에 강도 또는 성폭행범이 침입했을 때 사용자가 지르는 비명이 매우 특수한 상황 또는 위급한 상황임을 인지하여 112에 자동 신고하고 (네트워크화 된 가전을 통해)로봇 청소기를 비명이 발생한 곳으로 이동시켜 상황을 전파하는 시스템을 만들 수도 있다.   

 < 로봇 청소기의 렌즈는 청소 외에도 다양한 용도로 쓰일 수 있다. 렌즈는 또 하나의 눈이다 >


이렇듯 음성인식 서비스 Siri는 단순한 서비스가 아니다. 애플이 사용자에게 새로운 가능성을 제시하며 다른 서비스의 기반이 되었던 모션 인식 기술만큼이나 모든 서비스의 근본이 될 수 있는 기술이다. 이제 애플의 스마트 기기들은 렌즈를 통해서 인간의 시각을, 동작 인식 센서를 통해서 인간의 움직임을, 그리고 Siri를 통해서 인간의 말하기와 듣기 능력을 갖출 수 있게 되었다. 잡스가 남겨준 이 유산들은 더 인간에 가까운 서비스를 위한 디딤돌로 영원히 기억될 것이다. 



* 이미지는 구글 검색을 활용했습니다