1. 개요
Binaural Room Impulse Response바이노럴 정보가 담긴 임펄스 응답을 통해, 헤드폰에서 스피커와 공학적으로 동일한, 혹은 매우 유사한 소리를 구현하는 기술이다. 단순히 비슷해 보이는 소리를 뿌리는 게 아니라, 음향학적으로 검증 가능하게 스피커의 소리를 재현할 수 있다는 점이 핵심이다.
2. 원리
인간은 본래 자연적으로 소리를 들으면, 양쪽 귀에서 전부 소리를 수음한다. 이 때 몇가지 단서를 추가적으로 확보하여 음원의 위치를 인지한다. 예를 들어, 머리 왼쪽에서 소리가 나온다면, 왼쪽 귀가 오른쪽 귀에 비해 음원에 더 가까우므로 음파가 왼쪽 귀에 먼저 도착한다. 이를 양이 시간차(ITD - Interaural Time Difference)라고 한다. 마찬가지의 원리로 가까운 귀에서 음압이 더 클 것이며, 이를 양이 음압차(ILD - Interaural Level Difference)라고 한다.인간의 뇌는 이런 공간 상의 차이들을 포착해 위치를 인지하는데에 활용하며, 이를 위한 뇌의 보정은 자신의 몸에 최적화되어 있다. 따라서 사람의 얼굴, 귀, 몸통이 특정 각도, 거리에서 소리를 듣는 특성을 주파수 응답의 형태로 나타난 것을 HRTF[1]라고 정의한다. 또한 HRTF를 임펄스 응답으로 나타낼 수 있는데 이는 HRIR[2]이라고 부른다.[3] BRIR은 HRIR에 방의 정보, 즉 반사음과 같은 정보까지 추가로 담은 것을 의미한다.
다른 한 편으로, 헤드폰은 HRTF를 만드는 상호작용 없이 귓바퀴 ~ 이도에서 고막까지 바로 소리를 전달하는 경향이 있다. 따라서 헤드폰에서 주파수 응답 상으로 플랫한 소리를 낼 경우, 실제로는 뇌가 생각하는 HRTF에 의거해 멋대로 보정되어 톤밸런스가 엉망이 된다.
이에 따라, 각 제조사는 사람의 보편적인 HRTF를 고려하며 자신들이 생각하는 톤밸런스를 자사제품에 녹여내곤 한다. 이 기준을 타겟 커브라고 한다. 하지만 이 방식으로도 ITD, ILD 등의 중요한 정보들이 누락되며, 따라서 부자연스러운 음향 경험을 하게 된다.[4]
따라서, 이 문제를 해결하려면 추가적인 조치가 필요하다. 크로스피드는 이를 위한 최소한의 조치로, 가상의 반대귀를 만들어주는 기술이라고 요약할 수 있다. 거기서 더 나아가 마이크를 실제로 귀에 꽃고 자신이 듣는 방식을 그대로 녹음하여 사용하는 방법이 있다. 이 방식이 BRIR을 구현하는 방법이다.
2.1. 측정
하나는 귀를 스캔하여 HRTF를 파악하고, 이를 보정해 듣는 방식이다. 애플 및 삼성의 공간화 오디오가 그 예시에 해당한다. 이 방식은 수학적으로 듣는 특성들이 공간적으로 전방위에 정렬되므로, 객체 기반 오디오나 헤드트래킹 구현에도 용이하다.하지만 현재 대부분의 스캔 방식은 이도 내부를 깊숙히 촬영할 수 없어 정확도가 많이 떨어진다. 그리고 반사음에 대한 복합적인 HRTF처리도 실이측정에 비해 많이 부족하기 때문에, 재현력이 더욱 떨어질 수 밖에 없다.[5]
Impulcifer의 측정 방법 설명
두 번째 방법으로, 실제 사람의 귀에 마이크를 장착하고, 특정 공간에서 다양한 방향의 스피커로 테스트 신호[6]를 재생하여 측정할 수 있다. 이 과정에서 인룸 스피커의 바이노럴 정보가 담긴 실이[7] 측정치가 확보되며, 이를 헤드폰의 실이 측정치로 보정하여 인룸 스피커를 거의 온전히 모사하는 임펼스 응답을 확보할 수 있다.[8] 이 때, 이도가 열려있냐 막혀있냐에 따라 측정치가 달라지고, 후보정 과정 역시 달라지게 된다.
측정은 가능한 한 조용하고 초기 반사음을 적절히 통제한[9] 환경에서 이루어지는 것이 좋으며, 측정 중 움직임은 반드시 최소화해야 좋은 결과를 얻을 수 있다. 또한 인룸 임펄스 응답은 진짜 공간의 응답에 비해 비교적 자유롭게 다릴 수 있지만[10], 이 역시 까다로운 과정인데다 손실을 피할 수 없으니 처음부터 정확하게 측정하는게 훨씬 좋다.
3. 활용
바이노럴 효과를 구현하는 과정에서 BRIR의 원리가 사용된다.스테레오 스피커나 서라운드를 모사하는 상용 음장이 많으며, 이들 역시 BRIR의 원리를 사용한다. 헤드폰용 돌비 애트모스, DTS : X, Windows Sonic 등이 대표적이다.
이들은 상대적으로 보편적인 HRIR과 리버브[11]를 사용하므로 사람에 따라 맞지 않을 수 있지만[12], 잘 맞는다면 복잡한 작업 없이 괜찮은 공간감을 느낄 수 있다. 이런 보편적인 특성 덕에, 저 음장들은 공간감이 필요한 다양한 방면에 쓰이고 있다.
하지만 안타깝게도 사람의 머리, 귀, 몸통은 서로 동일하지 않으며, 따라서 보편적인 HRTF, HRIR이 잘 맞지 않는 사람들이 제법 있다. 이런 사람들은 공간감 대신 왜곡을 느끼거나, 프론트가 프론트처럼 들리지 않고 부적절한 위치에서 들리는 등의 현상을 겪게 된다. 이런 현상이 생기는지 여부는 7.1채널 확인용 테스트 파일을 재생하거나 핑크 노이즈를 틀어 확인할 수 있다. 특히 핑크 노이즈는 음상의 머리 탈출 여부와 탈출 실패 원인[13]을 쉽게 파악할 수 있어 유용하다.
자신이 이런 케이스에 해당한다면, 어쩔 수 없이 BRIR을 직접 측정하고 구현해야 한다. 하지만 이 과정은 굉장히 까다롭다. 집에 스피커가 있어야 하고, 이도 깊숙히 집어넣을 수 있는 특이한 마이크도 있어야 하며, 이 마이크와의 연결을 지원하는 오디오 인터페이스도 있어야 한다. DAW를 통해 인룸 및 헤드폰의 실이 임펄스 응답을 녹음해야 하고, Impulcifer[14]를 통해 BRIR을 표현하는 컨볼루션으로 합성한 다음 Hesuvi[15]를 통해 구현해야 한다. 그나마도 저 프로그램들 덕에 많이 자동화된 것이며, Impulcifer와 같은 프로그램이 없다면 훨씬 많은 작업을 해야 했을 것이다.
[1] head related transfer function, 머리전달함수.[2] Head Related Impulse Response[3] HRTF와 HRIR은 서로 손실 없이 변환할 수 있다. 이는 마치 같은 음악을 악보와 녹음으로 표현할 수 있는 것과 비슷하다. 악보는 각 음의 높낮이를 한눈에 보여주고(HRTF), 녹음은 시간에 따른 소리의 변화를 그대로 담는다(HRIR). 둘 다 음악의 모든 정보를 담고 있지만, 표현 방식만 다를 뿐이다. 마찬가지로 HRTF는 각 주파수별로(주파수 도메인) 소리가 어떻게 들리는지를 보여주고, HRIR은 그 소리가 시간에 따라(시간 도메인) 어떻게 변하는지를 보여준다. 두 표현 방식은 결국 정확히 같은 음향 특성을 담고 있으며, 필요에 따라 서로 변환해서 사용할 수 있다.[4] 대표적으로 공간, 각도, 거리에 대한 인지를 할 수 없다.[5] 이 방식으로 작동하는 무료 프로그램은 mesh2hrtf, 유료로는 genelec auralID와 같은 것들이 있다.[6] 스피커나 헤드폰 측정에 쓰이는 것과 같다.[7] 실제 귀에서 측정했다는 의미로, 보통 이도 깊숙히 집어넣을 수 있는 특수한 마이크를 사용한다.[8] 헤드폰에 따라 극저음을 완벽히 재생할 수는 없는 경우가 많다. 설령 극저음 재생이 가능해 고막에 들어가는 응답이 완전히 동일해진다 해도, 아무래도 몸으로 느끼는 소리는 촉각의 영역인지라 구현할 수 없다.[9] 보통 통제되지 않은 초기 반사음은 음질에 해롭다. 후기 반사음은 크게 문제가 되지 않는 것과 대조적이다.[10] 양이간 시간차나 음압차, 톤 밸런스, 반사음 등등[11] 여기서는 공간의 잔향과 반사음을 의미한다.[12] 이는 더미헤드를 쓰는 경우가 많기 때문이기도 하다. 진짜 사람의 녹음도 맞기 힘든데 인조 머리인 더미헤드를 쓰면 더욱 정확도를 기대하기 어렵다.[13] 특히 선형 왜곡이 탈출의 실패 여부인지[14] 측정된 실이 응답을 처리하여 개인화된 BRIR을 생성하는 프로그램이다. 같은 역할을 하는 프로그램이 오직 이것만 있는 것은 아니지만, 무료라는 큰 이점이 있다.[15] EQ APO를 통해 BRIR 구현하는 프로그램이다. 상용 음장의 BRIR도 있지만 자체 측정된 BRIR도 쓸 수 있다.