top of page
< Back

Prompt2Videogame: 더빙의 오래된 미래

10

GG Vol. 

23. 2. 10.

그것은 운명의데스티니  


2018년에 출시한 〈갓 오브 워〉와 그 후속작 〈갓 오브 워 라그나로크〉는 흠잡을 데 없는 높은 완성도로 명성이 높다. 장점들을 열거하면 끝이 없겠지만, 특히 크레토스와 그의 아들 아트레우스를 둘러싼 캐릭터 서사는 이 시리즈가 어째서 그저 ‘손맛이 찰진’ 훌륭한 액션 게임에 머무를 수 없는지 명확히 드러낸다. 이와 같이 감정적 울림이 큰 서사를 만들어 내기 위해서는 당연하게도 좋은 글이 뒷받침되어야 한다. 그런데 갓 오브 워 시리즈처럼 대규모 예산이 투여된 트리플 A 게임들은 그에 못지않게 성우들의 연기 또한 큰 변수로 작용한다. 계속해서 Boy!를 외쳐대는 크레토스의 낮게 깔리는 걸걸한 목소리를 통해 우리는 그가 어떤 유형의 캐릭터인지 단번에 파악할 수 있다.1) 이를 증명이라도 하듯, 두 게임 모두에서 크레토스의 목소리를 담당했던 배우 크리스토퍼 저지Christopher Judge는 얼마 전에 열린 ‘더 게임 어워드 2022’에서 연기상을 받았다. 하지만 그가 시상식에서 예의 그 Boy!를 시전하는 순간, (〈갓 오브 워〉를 무척 즐겁게 플레이했음에도) 나는 약간의 위화감을 느낄 수밖에 없었다. 왜냐하면 크리스토퍼는 크레토스와 전혀 닮지 않았을 뿐 아니라 인종도 달랐기 때문이다. 그럼에도 그 목소리는 내가 기억하는 스파르타 출신 상남자의 것이 틀림없었다. 


미디어 철학자 곽영빈이 지적하듯 “상업적으로 유통되는 거의 대부분의 영상들 속에서 우리가 보고 듣는 이미지와 사운드의 조응correspondence은, 대개 이처럼 ‘사실’이 아니라 스크린에 띄워진 이미지를 중심으로 우리가 사운드에 투사하는 ‘기대’에 부합하는 것일 뿐이다.”2) 즉, 크레토스의 캐릭터가 크리스토퍼 저지의 목소리를 가져야 할 필연적인 이유는 없지만, 우리는 수염이 덥수룩하게 자란 이 노회한 전쟁의 신에게서 바로 그와 같은 목소리를 기대한다. 이처럼 사운드의 ‘주체’와 사운드 사이의 자의적인 관계를 시각적인 정보에 의지한 기대를 투사하는 방식으로, 마치 필연적인 관계인양 유도하는 역학은 스크린 바깥에서도 흔하게 찾아볼 수 있다. 예를 들어, 누군가를 보고 목소리가 진짜 ‘깬다’라고 말할 때, 우리는 그 사람의 외모에 꼭 들어맞는 다른 어떤 ‘최적화된’ 목소리가 이미 존재하는 듯이 상정하고 있는 것이다. 그렇다고 개개인들의 목소리가 그러한 암묵적인 기대에 부합해야 한다는 넌센스적인 주장을 할 수는 없는 노릇이다. 그런데 이러한 기대는 차치하고라도, 몸과 목소리의 관계는 정말 자의적이기만 한 것일까? 그 답은 여전히 불분명하다. 다만 이와 관련한 한 흥미로운 연구를 살펴볼 필요가 있다. 


2019년 MIT의 컴퓨터 공학, AI 랩(CSAIL)은 자신들이 새로 개발한 AI 모델 Speech2Face3)에 대한 논문을 발표했다. 이름이 암시하듯이 이 모델을 기반으로 ‘훈련’된 알고리즘은 짧은 분량의 목소리 데이터 만으로도 그 사람의 얼굴을 ‘예측’해낼 수 있다. 그렇게 만들어진 이미지들은 때로는 실제 목소리들의 주인들과 놀랄 만큼 흡사한 모습을 보여준다. 연구자들이 이러한 결과를 만들어 내기 위한 사용한 방법은 최근 거의 모든 인공지능 분야에서 사용되는 딥러닝의 방법론 중 하나인 자기주도학습(Self-supervised learning)인데, 여기서 유념해야 할 점은 잘 알려진 지도학습(Supervised learning)과는 달리 이 방식은 데이터를 일일이 레이블링하는 작업이 필요치 않다는 것이다. 이에 따라 Speech2Face 모델은 자신이 받아먹은(?) 대량의 데이터(수백만 개의 유튜브 비디오 세그먼트들) 속에서, 서로 대응하는 각각의 목소리와 얼굴이 가지는 어떤 공통된 상관관계를 스스로 ‘발굴’해낸다. 물론 이 모델을 창시한 연구자들조차 그 ‘상관관계’가 정확히 어떤 식으로 구조화되어 있는지 혹은 이 관계가 상관관계를 넘어선 인과관계인지 단언할 수 없는 상황에서, 이 결과가 목소리와 몸 사이의 자의성을 필연성으로 바꾸었다고 이야기한다면 과장 섞인 거짓말이 될 것이다. 하지만 만약 (설령 우리가 그것이 정확히 어떠한 관계인지 끝내 알 수 없더라도) Speech2Face가 앞으로도 끊임없이 보완되어서 정말로 실제 얼굴과 거의 동일한 이미지들을 일관되게 예측해 낸다면 어떨까. 그때에도 우리는 목소리와 몸의 연결이 완전히 랜덤 하다고 자신 있게 이야기할 수 있을까? 


* Speech2Cartoon의 예시 

더 나아가서 이 가능성은 다시 스크린 안으로 스며든다. Speech2Face의 연구자들은 직접 그들의 페이퍼4) 말미에서, 이 모델은 실사 이미지뿐 아니라 (안드로이드폰의 Gboard와 같이 매우 간단한 키보드 앱을 이용해서) 특정한 목소리에 ‘적합한’ 이모지emoji를 만들어 내는 방식(Speech2Cartoon)으로 응용이 가능하다고 밝힌다. 그렇다면 점점 더 실사 이미지와 구분이 되지 않는 불쾌한 골짜기를 향해 달려가고 있는 게임 캐릭터들의 얼굴 역시 목소리를 통해 예측된 이미지를 바탕으로 디자인할 수 있을 것이다. 즉, Speech2Videogame은 사실 매우 가까운 미래가 아닐까. 그리고 이 과정을 전제한다면, (여전히 블랙박스로 괄호 쳐져 있지만) 매우 정제된 수준의 목소리-얼굴 상관관계를 이용해서 역순으로 Videogame2Speech를 구성하는 일 또한 당연히 가능하다.5) 게임 캐릭터(앞으로 이 캐릭터를 데스티니라고 부르도록 하자)의 외양에 걸맞은 목소리를 추측해 내는 것이다. 여기에 ‘자연스러운’ 목소리를 만들어 주는 생성모델Generative AI의 도움까지 받는다면 어색한 기계음의 뉘앙스마저 지워버릴 수 있을 것이다. 이때, 폴리곤으로 빚어진 데스티니는 비로소 ‘그럴싸한’ 목소리의 자의성으로부터 벗어난다.  그 목소리는 비록 우리가 기대한 음색과 톤은 아닐지 모르지만, (바로 우리 자신과 마찬가지로) 유사 필연적인 상관관계를 통해 이어진 그녀만의 것이다. 그녀의 목소리는 어떤 배우도 흉내 낼 수 없는 고유한 파장을 갖게 될 것이다. 이렇듯, 목소리는 ‘운명적’이다.



순수게임사운드 비판


그렇다면 데스티니의 목소리를 더빙이라고 이야기할 수 있을까? 이에 대한 답은 언뜻 생각하면 간단해 보인다. 더빙은 (가장 건조하게 이야기하면) 포스트 프로덕션 과정에서 기존 사운드에 새로운 사운드를 믹싱 하는 것을 의미한다. 따라서 그것이 인간 배우의 목소리인지 아니면 알고리즘이 생성해 낸 목소리인지, 혹은 캐릭터와 목소리의 관계가 자의적인지 필연적인지는 중요하지 않다. 관건이 되는 것은 그 목소리가 앞서 언급한 간결한 정의에 들어맞는지의 여부다. 문제는 이 정의가 특정한 대립쌍들을 매우 명확하게 부각한다는 사실이다. ‘포스트’ 프로덕션 과정은 프로덕션 과정 이후이기 때문에 프로덕션 과정을 전제한다. 새로운 사운드는 기존 사운드에 대응하는 말이다. 후시녹음은 동시녹음의 대척점에 위치한다. 다만 게임 개발에는 (영화와 달리) 동시녹음 과정이 없다. 게임에 들어가는 모든 사운드는 ‘포스트 프로덕션 과정’에서 ‘기존 사운드’ 없이 믹싱 된다. 결국 우리는 게임 매체에서는 모든 게임에 들어가는 모든 사운드가 더빙된 것이라고 이야기해야 한다.6) 그러나 이 결론은 게임 더빙에 대해 실질적으로 아무것도 말해주지 않는 방식으로 단어를 빈 껍데기로 만들어 버린다. 여기서 캐릭터들이 내뱉는 대사들만으로 더빙을 한정 짓는 인위적인 범위 조절을 시도해 볼 수도 있다. 하지만 이내 ‘모든 대사들은 더빙되었다’라는 식으로 똑같은 함정에 빠진다.  


이쯤 되면 ‘게임 더빙’은 범위range의 대상이 아니라 범주category의 대상이라는 것이 명확해진다. 그리고 그것의 범주를 알기(혹은 새롭게 만들어 내기) 위해서는 다른 매체와 구별되는 게임 더빙의 특수성을 더 들여다봐야 한다. 게임의 (더빙된) 사운드는 무엇보다도 디지털 오브젝트로서의 성격을 강하게 갖는다. 이는 기술철학자 Yuk Hui가 주장하는 광의의 개념으로서 뿐 아니라, 실제적으로 게임 엔진이 서로 다른 맥락에 따라서 모아둔 데이터셋의 집합을 지칭하는 말이 오브젝트라는 의미에서 그렇다.7) 많은 경우 사운드 데이터는 다른 오브젝트들에 귀속되어서, 플레이어의 상호작용과 같은 ‘의미 있는’ 트리거를 기다린다. 〈갓 오브 워〉에서 종종 등장하는 ‘종 3개 빨리 치기’ 퍼즐을 생각해 보자. 여기서 플레이어가 리바이어던 도끼를 날려서 종 하나를 맞추는 한 동작만으로도 이미 많은 트리거가 활성화된다. 먼저 도끼를 날리면서 크레토스가 내뱉는 기합은 크레토스의 캐릭터 오브젝트에서 나온다. 도끼 오브젝트는 날아가면서 또 특유의 사운드를 실행한다. 도끼 오브젝트와 충돌한 종 오브젝트 역시 마찬가지다. 그 후 다시 크레토스에게로 날아온 도끼가 그의 손에 감기는 순간 또 다른 사운드가 실행된다. 그렇다면 이 간단한 퍼즐을 끝내기 위해서 얼마나 더 많은 트리거가 발동되어야 하는지 짐작이 갈 것이다. 


* 게임 사운드의 확산 모양과 범위는 다양하게 설정 가능하다 

사운드 데이터는 다른 오브젝트에 속하지 않고 스스로 오브젝트가 될 수도 있다. 예를 들어, 전투가 시작될 때의 긴박한 배경음악은 갑자기 어디서 흘러나오는 것일까? 바람 소리 혹은 빗소리는? 길게 흐르는 하천의 물소리는? 이처럼 물리적 실체나 그 소리의 진원지가 명확하지 않은 경우에도, 플레이어 눈에 보이지 않을 뿐 오브젝트는 그 세계 내에 ‘물리적으로’ 존재한다. 이와 같은 사운드 시스템에서 사운드는 매우 구체적인 트리거의 조건과 범위를 지닌 채 게임 세계 곳곳에서 공간적인 위치를 점유한다. 이 배치는 일차적으로 플레이어의 인터페이스적 개입을 전제하지만, 종종 (플레이어와는 관계없이) 여러 오브젝트들의 루틴이 충돌하는 결과를 만들어 내는 식으로 예상치 못하게 풍부한(?) 사운드를 발동시키기도 한다.8) 결과적으로 일직선의 게임플레이를 채택한 아주 선형적인 게임에서조차 사운드는 (많은 경우의 수에 따라 조합하는 방식으로) 비선형적으로 작동한다. 이처럼 모듈화된 비선형적 사운드 조각들은 게임 사운드의 몇 가지 중요한 특징들을 위한 인프라적 토대가 된다.


그중 하나가 반복이다. 반복이라는 행위/상황(플레이어가 누르는 키, 캐릭터의 모션 등등)은 게임과 같은 프로그램 전반에 걸쳐서 광범위하게 벌어진다. 사운드 역시 예외는 아니다. 플레이어는 종종 자신도 의식하지 못하는 사이에 수많은 반복적인 사운드에 노출된다. 〈더 위쳐 3: 와일드 헌트〉의 본편과 두 확장팩을 전부 클리어하는 동안 우리가 듣게 되는 로취의 말발굽 소리는 횟수로 따지면 얼마나 될까? 일일이 세는 것이 무의미할 정도의 양일 것이다. 이러한 예는 수없이 많다. 게롤트가 약공격으로 휘두르는 칼소리는 몇 번이나 될까? 쿠엔 표식의 발동 사운드는? 


그런데 캐릭터의 ‘목소리’가 들리는 순간부터 우리는 반복을 좀 더 의식하게 된다. 게롤트의 유명한 방백(?)인 “Wind’s howling”은 바람이 심한 언덕 같은 곳에 가게 되면 혼잣말로 할 법한 대사이긴 하다. 그러나 매번 완전히 똑같은 톤과 페이스로 이 대사를 계속해서 읊는 그를 인식하는 순간, 우리는 이 문장이 어째서 인터넷 밈이 되었는지 이해할 수 있다. 혼잣말 정도가 아니라 더 나아가서 같은 대화를 그대로 반복한다는 것은 명백히 어색한 상황이다. 하지만 이 역시 게임에서는 그리 드문 일도 아니다. 〈디비니티: 오리지널 신 2〉의 메인 거점 중 하나인 드리프트우드 마을에는 여러 종류의 상인들이 모여 있는 큰 광장이 있다. 처음 이곳에 도착한 플레이어는 아마 많은 대화들과 외침들이 중첩되어서 만들어 내는 활기에 취할 것이다. 그런데 그 광장을 이후로도 최소 수십 번은 방문하게 된다면? 어느 순간 광장에서 들리는 모든 대사를 외워서 읊을 수 있을 뿐 아니라, 그 정확한 톤까지 머릿속에서 재생할 수 있게 된다.9) 반복되는 대사들은 종종 이처럼 밈으로 고착화되는 방식을 통해 기존 맥락에서 탈구되는데, 어쩌면 이 현상은 게임 사운드의 중핵을 그대로 재현하고 있는 것인지도 모른다.10) 


게임 사운드의 반복이 반복적인 트리거의 결과라면, 반대로 단 한 번도 트리거 되지 않는 사운드에 대해서도 생각해 볼 필요가 있다. 즉, 가능성에 머물 수 있음은 게임 사운드의 또 다른 중요한 특징이다. 위쳐 3에서 플레이어의 선택에 따라 결과가 완전히 달라지는 몇몇 중요한 사이드 퀘스트들과 멀티 엔딩들을 떠올려 보자. 100시간이 넘는 플레이 타임에도 불구하고, 플레이어는 아마도 몇몇 중요한 대화들은 구경도 못한 채 게임을 끝낼 것이다. 이 부분을 더 밀고 나간 것은 흥미롭게도 그 전작인 〈더 위쳐 2: 왕들의 암살자〉이다. 위쳐 2에서 플레이어의 선택은 메인 내러티브의 중대한 분기점을 촉발한다. 그에 따라 그다음 챕터는 크게 두 부분으로 나뉘는데, 선택에 따라 플레이어는 그중 하나만을 경험할 수 있다. 2회 차를 통해서 두 부분을 모두 경험해 본 바에 따르면, 이 두 가능성은 적어도 이 기나긴 챕터에서 완벽히 다른 2개의 평행세계를 구축한다. 하나를 선택함에 따라 경험이 불가능해지는 다른 하나는 그저 어떤 씁쓸한 결말이라든가 짧은 엔딩 같은 것이 아니라, 커다란 지역을 누비며 다양한 캐릭터들과 상호작용하는 디테일한 이야기와 모험이다. 물론 플레이어가 다른 쪽을 선택했기 때문에, 이 모든 풍부한 사운드는 가능성으로만 남는다. 


그런데 이와 같은 특징이 언제나 내러티브의 분기 과정에서 서브루틴으로서만 작동하는 것은 아니다. 〈디스아너드〉의 사례는 환원되지 않는 그 지점을 잘 포착해 낸다. 이 게임은 플레이어가 최대한 눈에 띄지 않는 스텔스 플레이를 하도록 종용하는 것으로 잘 알려져 있다. 실력과 운이 잘 맞아떨어진다면, 적들에게서 단 한 번의 의심조차 사지 않고 미션을 클리어하는 것이 가능하다. 혹은 반대로 완전히 난장판을 만들면서 모두를 죽이고 미션을 클리어할 수도 있다. 이 두 개의 극단적인 시나리오 사이에는 둘을 각기 다른 비율로 조합한 수많은 경우의 수가 존재한다. 이 경우의 수들은 메인 내러티브 분기와는 독립적으로, 전적으로 플레이어의 계속되는 작은 선택들에 따른 분기로 인해 발생한다. 그리고 각각의 시나리오는 모두 고유한 사운드 스케이프를 갖는다. 따라서 플레이어가 특정한 방식으로 한 미션을 클리어할 때, 실현되지 못하고 잠재적으로 존재했던 다수의 사운드 스케이프들은 저장 장치 속에서 분절된 사운드 데이터의 형태로 다시 잠든다. 



오래된 미래 


앞서 제기했던 질문은 다음과 같이 다시 물을 수 있다. 데스티니의 목소리는 (더빙된) 게임 사운드라고 이야기할 수 있을까? 너무나 명백한 답이 있는 것처럼 보임에도, 우리는 여기서 이 질문을 다시 뒤로 미뤄야 한다. 왜냐하면 나는 그녀의 목소리를 제외하고는 다른 그 어떤 것에 대해서도 아직 이야기하지 않았기 때문이다. 누군가는 그녀가 정말로 게임 캐릭터라면, 그 캐릭터가 어떻든 혹은 그 게임이 무엇이든 간에 앞서 서술한 게임 사운드의 특징들을 그대로 가져갈 수밖에 없는 것 아니냐고 반문할지 모른다. 데스티니가 기존의 방식대로 만들어질 게임에 속하는 캐릭터라면, 그 말은 일리가 있다. 하지만 그래야만 할 이유가 있을까? 그녀는 ‘고유의 목소리’까지 얻어낸 캐릭터가 아닌가. 그 목소리로 계속해서 같은 대사를 읊는다면, 그 광경은 좀 기괴하고 슬플 것이다.11) 더 다른 가능성을 상상해 보아야 한다. 때마침 (그녀에게는 다행히도) 게임 업계는 개발 프로세스의 엄청난 변화를 목전에 두고 있을지도 모른다는 기대에 휩싸여 있다. 


* 생성모델을 이용해서 게임 에셋들을 만들기 시작한 기업들  

실리콘 밸리의 유력한 벤처 투자 회사인 안드레센 호로위츠Adreessen Horrowitz는 생성모델Generative AI에 관한 최근의 보고서12)에서 게임 분야야말로 이 새로운 기술에 의해서 가장 근본적인 변화를 겪게 될 것이라고 이야기한다. (“There hasn’t been a technology this revolutionary for gaming since real-time 3D.”) 더빙을 포함해 게임에 들어가는 모든 에셋들은 달리(DALL·E), 미드저니, 스테이블 디퓨전, ChatGPT와 같은 생성모델에 의해서 이미 직/간접적으로 도움을 받고 있으며, 그 영향력은 점차 확대될 것이다. 종국에는 이 모든 것을 한꺼번에 처리할 수 있는 통합적인 솔루션의 등장을 암시하며 보고서는 끝을 맺는다. 과장되었다거나 혹은 먼 미래의 일이라고 치부할 의심 많은 독자들을 위해서 이 보고서는 친절하게도 아소보 스튜디오가 개발을 맡은 〈플라이트 시뮬레이터 2020〉의 사례를 든다. 잘 알다시피 이 시뮬레이션 게임의 맵은 (농담이 아니라) 지구 전체다. 이 정도 스케일의 맵을 만든다는 것도 상상이 잘 안 가지만, 비행기를 운전하면서 지상을 내려다보면 마치 특정 도시를 그대로 옮긴 듯한 디테일 함에 또 놀라게 된다. 이와 같은 맵을 기존의 방식대로 만들려고 했다면 아마 불가능한 스케줄 덕분에 개발을 시작하는 것 자체가 힘들었을 것이다. 답은 퍼블리셔인 마이크로소프트가 소유한 (위성사진을 포함한) 다양한 지리적 데이터에 있다.13) 그들은 2D 이미지를 실제와 같은 3D 모델링으로 바꿔주는 AI 모델을 이용해서, 엄청난 양의 지리 데이터로부터 말 그대로 ‘또 하나의 지구’를 만들어 냈다. 플라이트 시뮬레이터가 출시한 시점(2020년)과 여기에 쓰인 AI 모델이 본격적인 생성모델이 아니라는 것을 고려해 보면, 이는 시작에 불과하다. 


이러한 맥락을 품을 때, 우리는 비로소 데스티니의 ‘목소리’뿐 아니라 그 너머에 대해서도 이야기해 볼 수 있다. 1조 개의 파라미터(매개변수)를 가질 GPT-4(혹은 그것을 뛰어넘는 모델)에 연동된 데스티니는 플레이어와 어떤 대화를 하게 될까? 모르긴 몰라도 그녀는 앵무새처럼 똑같은 대사를 반복해서 중얼거리진 않을 것이다. 우리는 그녀가 말할 수 있었지만 하지 않은 ‘잠재적인 사운드’에 대해서도 알지 못할 것이다. 왜냐하면 미리 녹음을 했거나 혹은 기계적으로 만들어 놓은 사운드 데이터가 없기 때문이다. 그녀는 플레이어의 대답에 따라 반응이 3가지 정도로 나뉘는 고전적인 NPC처럼 행동하지 않을 것이다. 또한 우리 역시 우리의 선택에 따라서 대화의 분기가 한 10가지쯤 될 것이라고 쉽게 추측할 수도 없다. 그녀는 플레이어의 대답에 긴밀하게 반응하고 때로는 생각지도 못한 제안을 하며, 그에 따라 즉흥적으로 행동에 나설 것이다. 따라서 적어도 대사나 대화에 있어서 데스티니에게 기존 게임 사운드의 특성들을 적용하기는 힘들어 보인다. 그렇다면 관건은 그녀의 목소리가 더빙인지의 여부 따위가 아니라, 생성모델로 만들어질 (그녀가 속한) 게임의 ‘사운드 스케이프’를 그려 보는 것이 아닐까. 


좀 진부하지만 고전적인, 광활한 판타지 오픈월드 RPG의 세계를 상상해 보자. 규모에 걸맞게 수 백명의 캐릭터가 배정될 것이다. 그들 모두는 고유한 목소리를 할당받고, 역시 어마어마한 개수의 파라미터를 가진 AI 모델에 연동되어서 각기 특정한 ‘개성’을 갖는다. NPC끼리도 서로 자유롭게 상호작용이 가능할 것이다. 마치 이 영상14)이 보여주는 것처럼 대화를 전개한다면, 곧 대화의 홍수로 인해 로그 데이터는 기하급수적으로 늘기 시작할 것이다. 곧이어 전 세계의 플레이어들이 참여하기 시작하면서, 관계는 더욱 복잡해진다. 게임에는 점점 더 많은 트래픽이 몰리고, 폭발적으로 늘어나는 (음성을 포함한) 로그 데이터를 감당하지 못하게 된 게임사는 노로그no-logs 정책을 표명할 것이다. 이제 누구의 말도 기록되지 않는다. 그렇게 아주 오랜 시간이 흐른다. 어느 밤에, 플레이어는 데스티니와 그리고 다른 동료들과 모닥불 앞에 둘러앉아 이야기를 나눌 것이다. 데스티니는 마치 갑자기 생각났다는 듯이 음유시인처럼 서사시를 노래할지도 모른다. 모두가 이야기를 멈추고 조용히 경청할 것이다. 끝난 뒤에는 박수가 터져 나오고, 누군가는 휘파람을 불 것이다. 그녀의 서사시는 함께 있었던 동료들의 입을 통해 훨씬 더 오랜 시간 뒤까지 전해질지 모른다. 하지만 그녀의 ‘목소리’가 전해주는 억양과 분위기, 그리고 시의 특정한 운율은 그날 밤, 그곳에서 폴리곤의 대기 속으로 흩어질 것이다.


 


1) https://www.youtube.com/watch?v=Pobwy_es2uc Boy! 부분만을 따로 모아 편집한 몽타주 영상이다. 크레토스가 아들의 이름을 직접 부르지 않고 계속해서 Boy!라고 외치는 데에는 개발사 산타 모니카 스튜디오가 〈갓 오브 워〉 제작 중반까지도 아트레우스의 이름을 두고 고민을 했다는 어른의 사정(?)이 숨어 있다. 
2) 곽영빈 외, 『블레이드 러너 깊이 읽기』, (경기 파주: 프시케의숲, 2021), p.192.
3) https://speech2face.github.io/
4) https://arxiv.org/abs/1905.09773
5) 예상하다시피 Speech2Face의 논문이 발표된 이후에, Face2Speech를 구현하려는 다양한 시도들이 등장했다. 
6) 실제 배우들의 연기를 촬영하고 편집해서 게임 내에 녹여내는 몇몇 인터랙티브 무비 게임들은 예외가 될 것이다. 이 장르의 가장 독창적인 개발자로 평가받는 샘 발로우Sam Barlow의 대표작으로는 〈허스토리〉, 〈텔링 라이즈〉, 〈이모탈리티〉 등이 있다. 
7) 엔진에 따라 지칭하는 용어가 조금씩 다르다. 예를 들어, 언리얼 엔진에서는 오브젝트를 액터actor라고 부른다. 
8) 드물게 발생하지만, 〈데이즈 곤〉에서 프리커 호드가 약탈자 캠프를 덮치는 상황을 생각해 볼 수 있다. 플레이어는 덤불에 숨은 채로 느긋하게 그 ‘시끄러운’ 전투를 관람할 수 있다. 
9) https://www.reddit.com/r/DivinityOriginalSin/comments/ex0kic/driftwood_square_in_a_nutshell/ 그 대화들을 아무 맥락 없이 이어가는 것은 디비니티 레딧에서 하나의 밈/놀이로 자리 잡았다. 
10) 민속놀이 〈스타크래프트〉와 〈리그 오브 레전드〉의 많은 대사들과 용어들이 한국에서 현지화의 형태로 밈화 되는 것 역시 이러한 맥락으로 볼 수 있다. 
11) 호러 영화에서 자주 쓰이는 장치로, 등장인물이 (마치 로봇처럼) 같은 간격으로 계속 똑같은 대사를 중얼거리는 기믹을 떠올려 보자. 그 반대로 똑같은 말을 반복하도록 설정된 기계나 사물이 갑자기 등장인물의 말에 반응해서 특정한 대답을 하는 경우도 비슷한 효과를 갖는다. 
12) James Gwertzman and Jack Soslow, “The Generative AI Revolution in Games” Adreessen Horrowitz, 2022.11.17. https://a16z.com/2022/11/17/the-generative-ai-revolution-in-games/
13) 마이크로소프트는 Bing Maps를 소유하고 있다. 
14) Jack Soslow, “Two AIs talking to each other [Original]” YouTube 2021.04.13. https://www.youtube.com/watch?v=jz78fSnBG0s

Tags:

글이 맘에 드셨다면 ​공유해보세요.

이경혁.jpg

(작가)

잡다한 일을 하는 프리랜서입니다. 역시 잡다한 것에 관심이 많습니다. 게임에는 특히 관심이 더 많습니다.

이경혁.jpg

bottom of page