최근 수정 시각 : 2023-03-10 17:41:48

사운덱스

1. 개요2. 변환 과정3. 장점

1. 개요

사운덱스 또는 Soundex는 유사한 발음을 가진 미국인의 이름을 검색하기 위해 색인화 하는 음성 알고리즘이다. 20세기 초 미국의 로버트 C. 러셀과 마거렛 킹 오델이 개발하였다.

사운덱스는 1글자의 알파벳과 3자리의 숫자로 구성되어 있으며, 사소한 철자의 차이가 있더라도 비슷하게 발음되는 이름들을 컴퓨터의 도움 없이 비교적 손쉽게 검색할 수 있어 20세기 미국 인구조사에서 널리 활용되었다.

2. 변환 과정

  • 먼저 이름의 첫 글자를 제외한 나머지 글자에서 모든 모음과 h, w, y를 삭제한다.
  • 첫 글자는 그대로 두고 나머지 철자는 발음이 유사한 자음끼리 분류된 다음 규칙에 따라 코드를 부여한다.
    알파벳 코드

    B, F, P, V 1

    C, G, J, K, Q, S, X, Z 2

    D, T 3

    L 4

    M, N 5

    R 6
  • 동일한 코드가 연속으로 두 번 이상 반복된다면 첫 번째 코드만 남기고 삭제한다. 단, 동일한 코드 사이에 생략된 모음이 있는 경우에는 삭제하지 않는다. 예를 들어 Merrinz 라는 이름을 위의 과정까지 진행하면 M6652 라는 코드가 만들어졌을 것이다. 이 때 6이 연속으로 두 번 반복되므로 앞의 6만 남기고 뒤의 6은 삭제하여 M652로 바꾸는 것이다. 하지만 Shimamoto와 같은 경우 S553으로 코드화가 되었을텐데 이때 앞의 5(m)와 뒤의 5(m) 사이에는 생략된 모음 a가 있기 때문에 이 경우에는 5가 연속으로 반복되어도 삭제하지 않는다.
  • 위의 과정으로 만들어진 코드의 숫자 부분이 3자리를 초과하면 앞의 세 자리만 남기고 뒷자리 숫자는 삭제한다. 3자리보다 짧으면 뒷자리에 0을 추가하여 세 자리로 만든다.

3. 장점

발음을 알지만 정확한 스펠링을 모르는 이름을 손쉽게 검색할 수 있다. 예를 들어 JonsonJohnson은 똑같은 발음으로 읽히지만 정확한 철자를 알지 못하면 한 번에 검색에 성공하지 못할 가능성이 있다. 하지만 이들의 성씨를 사운덱스로 코딩하면 모두 J525로 코딩되므로, 정확한 철자를 몰라도 Jonson과 Johnson을 한 번에 찾아낼 수 있으며 비슷한 발음의 Janssen 등과 같은 이름도 함께 찾을 수 있다.