[TECH meets DESIGN] 자율주행 로봇 ‘스폿’, 이제는 말재주도 제법

-보스턴 다이내믹스의 하드웨어와 챗GPT의 소프트웨어의 결합
-데이터 분석 통한 가상 캐릭터·화법 구축할 줄 알아

다양한 직종에 종사하는 사람들의 인격과 목소리를 흉내 내며 인간과 자유자재로 소통할수 있는 자율주행 인공지능 로봇이 우리 주변에 함께 할 날이 성큼 더 다가왔다.

챗GPT 플랫폼을 사용해 본 사용자라면 누구나 느꼈을 테지만, 챗GPT의 답변은 언제나 명료하고 교양 있고 설득력 있어서 진실과 허위를 구분하기 어렵다.

최근 자율주행 로봇 기술 기업인 보스턴 다이내믹스(Boston Dynamics)가 10월 26일 이 업체의 공식 유튜브 채널의 ‘Making Chat (ro)Bots’ 에피소드에서 한 영상을 공개했다.

이 영상에서 맷 클링겐스미스(Matt Klingensmith) 보스턴 다이내믹스 수석 소프트웨어 개발자는 최신판 말하는 4족 보행 로봇 ‘스폿(Spot)’과 대화를 나누며 현대 인공지능 로봇 기술이 어디까지 왔는지를 보여줬다.

이번 보스턴 다이내믹스가 선보인 말할 줄 아는 로봇 ‘스폿’의 직업은 투어가이드다.

보스턴 다이내믹스의 AI 가이드봇 '팬시 버틀러'. 멋드러진 억양과 재치있는 말투로 기계-인간 사이의 심리적 격차를 잊게 만든다. Image courtesy: Boston Dynamics=YouTube

기존 보스턴 다이내믹스의 시그니처 군사용 4족 ‘스폿 클래식’ 로봇 모델을 개선한 하드웨어에 챗GPT 인공지능 언어 생성 소프트웨어를 장착한 로보틱스(robotics)와 생성형 인공지능(generative AI) 기술의 융합체라 하겠다.

인간의 말투와 인격을 시뮬레이션 할 줄 아는 2023년판 스폿은 데이터베이스에 입력돼있는 방대한 분량의 데이터를 인간의 프롬프트에 따라 분석·처리한 후 스스로 시를 짓기도 하고, 그림을 그리거나, 인간과 대화를 주고받을 줄 아는 자율이동 생성 AI 챗봇이다.

또, 실제 인간끼리 대화를 나눌 때 교감되는 보디랭귀지도 제한적이나마 사용할 줄 안다. 가령, ‘ㄱ’ 자로 꺾이도록 디자인된 머리 부분은 목 아랫부분에서 360도 회전하면서 대화 내용과 맥락에 따라 펴졌다 접혔다 하면서 대화 중 시시각각 변화하는 인간의 표정을 시뮬레이션하는 효과를 낸다.

스폿이 선보인 첫 캐릭터는 영국 발음으로 말하는 투어가이드 ‘팬시 버틀러’다. 정중하고 우아한 영국식 억양으로 문학 작품에서 따 온 듯한 어투로 대화를 이끌어 나갈 줄 아는 팬시 버틀러 투어가이드는 유머와 위트 섞인 영국식 농담도 할 줄 안다. 그의 언어적 화술과 자신감 있는 목소리에 심취하다가는 스폿이 생성 AI로 텍스트를 뿜어내는 로봇이라는 사실을 잠깐 망각할지도 모른다.

또, 사용자의 제어 콘솔의 명령과 프롬프트에 따라 스폿은 1920년 살았을 깐깐한 고고학자의 성격과 목소리로 화하기도 하고, 중세 셰익스피어 시대 영국에서 타임머신을 타고 도착한 극장 배우로 변신해 마치 시를 읊조리듯 말하기도 한다.

머리의 얼굴 부분에 콧수염을 붙이고 모자를 쓴 스폿. 인간이 외출하기 전 캐릭터 혹은 가면을 쓰고 공적 페르소나로 치장하고 꾸미듯, AI 로봇 또한 기능과 역할에 맞는 외모 치장을 가해 공감대를 형성해 기계에 대한 불안감이나 공포심을 줄일 수 있다. Image courtesy: Boston Dynamics=YouTube — 인간이 외출하기 전 캐릭터 혹은 가면을 쓰고 공적 페르소나로 치장하고 꾸미듯, AI 로봇 또한 기능과 역할에 맞는 외모 치장을 가해 공감대를 형성해 기계에 대한 불안감이나 공포심을 줄일 수 있다. Image courtesy: Boston Dynamics=YouTube

스폿의 대화 능력은 챗GPT 플랫폼 작동 원리와 동일하다.

가령, 사용자가 “스폿, 너는 19세기에서 온 고고학자야”라고 음성 프롬프트를 입력하면, 스폿의 AI 소프트웨어는 데이터베이스 속에 저장돼있는 자료, 문헌, 문학작품 등을 실시간으로 검색 처리한 후 자율적으로 캐릭터를 형성해 그에 어울린다고 판단된 내용을 음성으로 출력한다.

인간이 챗GPT를 비롯한 언어 생성 AI와 소통하면서 가장 놀라는 순간은 인간 만이 할 수 있다 믿었던 철학적이고 형이상학적인 문장 구사력을 AI가 출력해 낼 때다. 물론 기계가 스스로 사고(thinking)한 것이 아닌 종합된 데이터의 출력 결과다.

예를 들어, 미국인 발음을 한 ‘조시(Josh)’라는 투어가이드 캐릭터는 존재의 허무함을 논한다든가 방문객을 조롱하는 말투로 대화하는 냉소적인 젊은 미국 남성 캐릭터를 형성해 연구진을 놀라게 했다.

머리의 얼굴 부분에 콧수염을 붙이고 모자를 쓴 스폿. Image courtesy: Boston Dynamics=YouTube

이번 투어가이드 스폿 프로토타입은 챗GPT가 데이터와 알고리즘으로 어휘(특히 현 단계에서 영어 만 가능)와 문화(시대적, 지리적) 간을 결부시켜 처리할 수 있는 AI 마인드의 수평적 연관적 사고(lateral associative thinking, 단, 엄밀한 의미의 사고력은 아니다)의 잠재력을 입증한 실험이라고 클링겐스미스 수석은 결론짓는다.

문제는 AI의 최근 테크계에서는 챗GTP를 위시로 한 생성 AI 언어가 영어에 국한돼 있다는 비판이 나오기 시작했다.

한편, 언어학계는 AI 기술을 빌어 모국어로 더 이상 사용되지 않아 사라진 사어((死語)를 되살리는 프로젝트를 통해 로컬 언어의 빅 테이터화 작업을 해오고 있다.

언제가 될지는 모르지만 우리는 미술관에 가면 조선 후기시대 서울 말씨로 이야기하는 챗봇 가이드의 안내를 들으며 신윤복의 미인도를 감상할 수 있는 날이 올 것을 기대해 볼 만하다.