최근 수정 시각 : 2024-01-04 08:29:34

지프의 법칙

1. 개요

1. 개요

Zipf's law
텍스트 중 어구별 빈출 순위와 빈도의 관계에서 k번째로 많은 어구의 빈도가 1번째로 많은 어구의 빈도의 1/k의 값이 되는 법칙.

언어학자 조지 킹슬리 지프가 제안한 법칙이다. 프랑스나 독일에서 먼저 법칙을 발견한 사례가 있지만 어쨌든 지프의 법칙이 기본 개념으로 자리 잡았다.

법칙이 생기는 원리는 불분명하나, 언어학을 넘어서 수많은 분야에서도 적용이 가능하다.

워낙 어려운 개념이라 예시를 들어도 꽤 난해한 편인데, 미국에서 진행된 언어학적 연구 결과 미국인들이 가장 많이 사용하는 단어는 1위가 the, 2위가 of, 3위가 and, 4위가 to였다고 한다. 여기에 지프의 법칙을 적용하면 한 권의 얇은 책에서 the가 100번 등장했다고 치자, of는 the의 1/2인 50번, and는 the의 1/3, to는 the의 1/4인 25번 등장한다는 것이다. 순위가 낮아 질수록 사용빈도는 조화급수적으로 떨어진다.

스페인에서 이뤄진 연구에서 3만 종류의 영어 문서에서 지프의 법칙을 적용해보니 40% 정도 일치율을 보여줬다. 이는 빈도가 적은 단어를 포함했기 때문이고 자주 나오는 빈도 단어를 더 줄이면 훨씬 높은 확률을 보여줬다고 한다.

파레토 법칙의 언어학 버전이라는 느낌으로 대강 이해하면 좋다.

분류