최근 수정 시각 : 2024-03-27 19:59:11

부산대학교 한국어 맞춤법 검사기


파일:부산대학교 시그니처 UI (흰색).svg
{{{#!wiki style="margin: 0 -10px -5px; min-height: 26px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px"
대학 정보
역사 상징 입시 학사제도
총학생회 마이피누 학부 대학원
캠퍼스
부산캠퍼스 양산캠퍼스 밀양캠퍼스 아미캠퍼스
기타 정보
출신 인물 미식축구부 주변 상권 사건사고
부속병원
사범대학 부설학교
}}}}}}}}}
<colbgcolor=#dedede><colcolor=#000> 한국어 맞춤법/문법 검사기
파일:부산대 맞춤법 검사기.png
종류 웹 앱
국가
[[대한민국|]][[틀:국기|]][[틀:국기|]]
언어 한국어
회원가입 비회원 사이트
소유 부산대학교 인공지능연구실
나라인포테크
개설 2001년 9월 18일
마지막 깁고 더함 2024년 03월 18일
바로가기 파일:홈페이지 아이콘.svg[1] | 파일:홈페이지 아이콘.svg[2]

1. 개요2. 역사
2.1. 개발 과정
3. 서비스4. 논란 및 사건사고
4.1. 타사 맞춤법 검사기와의 갈등 문제4.2. 웹 버전 해설 문제4.3. 무단 기계학습 크롤링 피해
5. 문제점
5.1. 잦은 서버 오류5.2. 과도한 언어순화로 인한 본말전도
6. 관련 문서

[clearfix]

1. 개요

한국어 맞춤법/문법 검사기부산대학교 인공지능연구실과 나라인포테크가 공동 개발한 한국어 맞춤법 검사기로, 대한민국에서 대중적으로 가장 널리 사용되는 맞춤법 검사기 가운데 하나이다.

2. 역사

부산대학교 전기컴퓨터공학부 권혁철 교수가 1991년부터 개발하기 시작했으며 한컴오피스 한글의 초창기 맞춤법 검사기에도 영향을 주었다. 2001년 9월 18일에 웹 서비스를 개시하였다. #

2.1. 개발 과정

출처(#)[주의]
  • [시제품]
    • 1990년 1월 개발 시작, 1990년 6월 1차 발표
      • 사전: 동아새국어사전 기반, 시스템: IBM PC AT(16비트기계)
  • [1판]
  • [2판]
    • 1995년 다수 어절 처리 기능 도입
    • 1996년 문체 오류 수정 규칙 도입
    • 1998년 문장 단위의 띄어쓰기 오류 수정, 구두점 오류 지원
    • 2000년 표준국어대사전[국립국어원]을 기본 사전으로 변경
    • 2001년 법원용 시스템 개발(전문분야시스템)
  • [3판]
    • 2003년 전면 수정과 재프로그램(프로그램단순화, 안정성증가)
    • 2004년~2005년 각종 순화용어 반영(행정순화용어포함), 동남아어, 네덜란드어 표기법 수용
    • 2007년 화합물 명명법을 대한화학회(IUPA에근거)의 표준으로 바꾸고, 일부(아밀라아제/아밀레이스 따위) 널리 쓰이는 것은 기존 표기와 대한화학회 표기 모두 허용하게 함.
  • [4판]
    • 2009년부터 특수 문자 포함 어절의 처리
    • 영어 맞춤법 기능 강화
    • Thread Safe하게 시스템 수정
    • 복합명사 띄어쓰기 일관성 유지 기능 구현
      • 띄어쓰기와 붙여쓰기를 모두 허용하는 복합명사는 띄어쓰기 형태를 혼용해서 쓰지 않도록 함.
    • 2012년 교육과정평가원, 국립국어원과 함께 교과서 검수용으로 시스템 공동 개발
      • 교과서에 포함된 용어 수록(국사, 음악, 공업 등 10개 교과)
  • [5판]
    • 새주소 체계를 반영함
    • 동사와 형용사에 따른 어미 활용 처리 강화
      • 예) 돈을집냐? (x) 돈을집느냐? (O)
    • 인명 처리 강화
      • 문서 내에서 인명으로 판단되면 미등록 단어라도 오류로 처리하지 않음
        • 예) 현수: 사전에 등록되지 않은 단어라서 분석할 수 없는 오류로 처리
        • 예) 현수 오빠: 뒤에 호칭이 오므로 인명으로 판단하여 문서 내에서 오류로 처리하지 않음
    • 2016년 맞춤법 검사 기능을 강/약으로 구분하여 사용자가 선택하게 함.
      • 외래어 표기, 직접화법, 순화용어 등
        • 예) 제도를 가지고 있는 (강한시스템) 제도를 두고 있는/제도를 채택하고 있는 (약한시스템) 교정하지 않음
    • 2016년 외국인 한국어 학습자의 오류 처리를 반영하여 구어체 검사 성능을 향상시킴
  • [5판 계속]
    • 2017년 국립국어원이 수정한 ‘외래어 지명 뒤의 접미사 표기’를 반영함
      • 외래어 뒤에서 띄어 썼던 가(街), 강(江), 산(山), 산맥(山脈), 섬, 성(城), 성(省), 시(市), 어(語), 왕(王), 인(人), 족(族), 주(州), 주(洲), 항(港), 해(海), 현(縣), 호(湖) 등을 붙여 쓰도록 함.
        • 예) 카리브해/건지섬/미시시피강/고사인탄산/가르다호/고츠산맥
    • 2017년 법원도서관과 함께 『법원맞춤법 자료집』과 『법률 제명 약칭 목록』 등에 근거하여 법률 문장 맞춤법 검사기를 개선함.
    • 2017년부터 (주)한글과 컴퓨터에 맞춤법 검사기를 재공급함.
      • 한컴오피스용과 패키지 제품 몇 가지에 한해 적용하는 조건으로 한국어 맞춤법 문법 검사기를 재공급함.

3. 서비스

서비스는 웹에 공개한 버전과 임베드용 검사기 엔진으로 나뉜다.

웹에 공개한 버전은, https://speller.cs.pusan.ac.krhttp://164.125.7.61/speller로 접속할 수 있다. 전자의 주소는 포털 사이트에서 제시하는 주소며, 종종 연결이 오래 걸리거나 접속이 불가능하는 경우가 발생한다. 이에 반해 후자의 주소는 원활하게 접속되고 의견 전송 기능도 정상적으로 작동하며, 뿐만 아니라 업데이트도 상대적으로 활발히 진행된다.

웹에 공개한 버전 이외에도 임베드용으로 검사기 엔진을 판매하고 있으며, 잡코리아, 사람인 등에서 사용되고 있다. 한컴오피스 한글도 2018 버전부터 자체 검사기를 버리고 부산대 검사기를 도입하였다. MS 워드용 플러그인도 있다.

4. 논란 및 사건사고

4.1. 타사 맞춤법 검사기와의 갈등 문제

네이버는 2010년부터, 카카오(기업)에서는 2014년부터 각각 자체적으로 맞춤법 검사기를 개발하여 API를 일반에 무료로 공개하고 있었다. 그러나 권혁철 교수는 네이버와 다음의 맞춤법 검사기가 부산대 맞춤법 검사기를 가지고 역공학을 통해 만들어진 것이라 주장하며 두 회사를 비판하였다.

카카오는 자체 데이터로 만들었으며 역공학은 없었다고 해명했으나, 권 교수의 입장을 감안해 2016년 8월 17일 API 공개를 중단했다. 네이버도 저작권 문제로 API 공개가 곤란하다는 입장이다.

4.2. 웹 버전 해설 문제

위 링크에서 사용할 수 있는 웹 버전의 경우 내부 데이터가 꼬였는지 엉뚱한 해설을 내놓는 경우가 있다. 다만 이 중 상당수는 기업에 판매되는 버전(이하 '임베드 버전')에는 수정되어 있다.
  • 대부분 슈의 → 대부분 수의
    • 웹 버전: 여기서 '만하다'는 의존 명사 '만'에 '하다'가 붙은 형태입니다. 따라서 '만하다'를 앞 어절과 떼는 것이 옳습니다.[4]
    • 임베드 버전: 가수 이름이나 음식 이름이면 바릅니다.
  • 젖어들고 → 젖어 들고
    • 웹 버전: 울음 소리를 흉내내신 말이라면 '히힝'이 바릅니다.
    • 임베드 버전: '들다'는 보조용언이 될 수 없습니다. 또 표준국어대사전\[국립국어원]도 합성어로 보지 않습니다.

@ 위 두 표현은 대치어는 문제 없으나 엉뚱한 해설 내용을 제시하고 있다.
  • ~한 동안에 → ~할 때에
    • 웹 버전: '윤간되다'라는 말은 없습니다. '윤간당하다'가 바른 표현입니다.[5]
    • 임베드 버전: 형용사이므로 연속한 시간을 뜻하는 '동안'보다는 '때'가 적합합니다.

@ 어찌 보면 위 두 사례와 비슷하다고 할 수 있으나 하필 잘못 걸린 단어가 단어인지라(...) 아래 '삼일한' 사건 때 다시 지적되었다.
* 엄창 → 엄청, 대단히, 아주, 매우, 개새끼, 엄마 창녀
* 웹 버전: 흔히 통신에서 말을 함부로 변형하거나, 띄어쓰기를 바르게 하지 않는 등 잘못 사용하는 경향이 있습니다. 바른 표현을 사용해야 합니다.
* 임베드 버전: (위와 동일)

@ 한 유저가 '엄청'의 오타를 냈다가 우연히 발견했다고 한다.

과거 영화 평론가 듀나를 저격하는 듯한 대체어가 제시되기도 했다.
  • 듀나 → EBSi, 무명 평론가
    • 웹 버전: '으하하'가 바른 의성어 형태입니다.
    • 임베드 버전: 단, '듀나'가 사람 이름이면 바릅니다.

첫 번째 대치어인 'EBSi'는 '듀\'의 대치어로 가능하겠으나[6] 두 번째 '무명 평론가'는 누가 봐도 명백한 저격성 멘트이다. 마치 놀리는 듯한 해설은 덤. 그래서 개발진 중에 듀나 안티가 있다는 의혹이 일기도 했다.

부적절한 혐오 용어를 과도하게 검진하기도 했는데, 일베 용어가 검사기에 잡힌 데다 대치어가 이를 풀어 쓰는 문장으로 제시되어 논란이 일기도 했다.
  • 삼일한 → 3일에 한 번 때려야 할 여자
    • 웹 버전: 속된 표현입니다.
    • 임베드 버전: 비속한 표현은 되도록 쓰지 말아야 합니다.

그런 단어가 쓰일 맥락이 아니라면 이 문자열은 주로 '작심삼일한 적이 많았습니다.'처럼 쓰이는 경우가 많다. 이렇게 엉뚱한 맥락에서 문자열의 일부가 잘못 해석되는 현상을 스컨소프 문제라고 한다. 스컨소프(Scunthorpe)는 축구 팬들에게는 스컨소프 유나이티드 FC로 알려진 영국의 마을 이름인데, 이름 철자에 cunt가 들어있어 욕설 필터링을 대충 하면 S****horpe가 되어 버린 데서 유래했다.[7] 이에 다음날인 8월 25일 웹 버전의 대치어와 설명이 아래와 같이 수정되었다.
  • 삼일한 → 여자
    • 웹 버전: 여성을 비하하는 뜻이 있으므로 되도록 쓰지 않아야 합니다. 그러나 맞춤법 검사기로서는 어쩔 수 없이 현재 이 단어가 쓰이는 뜻을 반영해서 최대한 중립적 관점에서 대치어를 제시합니다. 남을 비하하는 말은 되도록 쓰지 않아야 합니다.

4.3. 무단 기계학습 크롤링 피해

무료 서비스 해줬다가 AI 학습에 당한 부산대 "서버비 감당 안 돼" - YTN

기계학습을 위한 목적으로 의심되는 크롤링으로 과다한 서버비가 청구되어 피해를 본 적이 있다. 공식적인 입장에 따르면 특정 IP들에서 한달간 500만회 이상의 비정상적인 사용이 있었으며 사용량에 따라 과금되는 클라우드 서비스 특성상 매우 큰 서비스 사용료가 청구된 것으로 보인다.

[ 전문 펼치기 · 접기 ]
<알리는 글>

우리 검사기는 일반 사용자의 편의를 위해 현재 유료 클라우드를 사용하고 있습니다. 그런데 최근 우리 서비스를 이용한 특정 IP들에서 비정상적인 이용 패턴을 확인하였습니다. (거대 언어 모델의 학습을 위한 목적이 아닌지 의심이 됩니다.)
특정 IP에서 한 달간 500만 회 이상 검사기를 사용한 것으로 파악되었으며, 이에 따라 우리가 감당하기 어려운 비용이 청구되었습니다. 만약 이런 대용량의 데이터 처리가 계속된다면 서비스 속도가 느려져 일반 사용자들이 선의의 피해를 볼 수밖에 없습니다. 또한 클라우드 서비스 유지 비용이 예상보다 늘어나 현재와 같이 웹 검사기 서비스를 무료로 제공하기가 불가능해집니다.
우리 웹 검사기 서비스는 개인이나 학생에게 비상업적 용도로만 무료로 제공하는 서비스입니다. 따라서 이러한 문제에 대응하고 안정적인 서비스를 제공하기 위해, 서비스 이용 패턴을 꾸준히 점검하여 상업적 이용과 대규모 데이터 수집 목적의 이용을 제한하겠습니다. (개인이나 학생 사용자분들은 기존과 같이 계속 무료로 사용하실 수 있으니 염려하지 않으셔도 됩니다.)
만약 상업적 용도나 데이터 정제와 수집 등의 용도로 맞춤법 검사기를 활용하실 때는 회사로 문의해 주십시오. (051-907-2022)
앞으로도 우리는 한국어 맞춤법 문법 검사기를 사용하는 모든 분이 불편하지 않으시도록 최선을 다하겠습니다.
감사합니다.

5. 문제점

5.1. 잦은 서버 오류

2021년 말부터 사이트에 접속하는 데 시간이 오래 걸리거나, 아예 접속이 안 될 때가 잦아졌다.

5.2. 과도한 언어순화로 인한 본말전도

언어순화에 과도하게 중점을 둔 나머지 정작 본연의 기능인 맞춤법 교정은 제대로 하지 못하는 문제를 종종 발생시킨다는 단점도 있다.

예를 들어 문체가 만연체로 쓰여져 있을 경우 이를 간결체로 윤문할 것을 맞춤법 검사기가 권장하는 경향이 강하게 나타나며, 그 과정에서 오히려 맞춤법 오류가 발생되거나 문장이 조금 이상해지는 경우가 가끔 발생되기도 한다. 만연체를 간결체로 고친다는 명목 아래에서 과거형 문장을 무리하게 현재진행형 문장으로 고칠 것을 권장하는 경우가 대표적인 예로, 당연한 이야기이지만 이것은 제대로 된 윤문이라고 보기 어렵다. 맞춤법 검사기의 교정 결과를 곧이 곧대로 따를 경우 어지간한 문학적 표현은 거의 쓸 수가 없을 지경이 되어 버리기에(그러한 표현을 전부 틀린 표현이라고 지시하며 윤문할 것을 권장하기 때문이다), 소설가들이나 각본가들의 입장에서는 맞춤법 검사기 자체가 결과적으로 없느니만 못한 존재가 되어 버린다.

그뿐만 아니라 외래어한자어순우리말로 순화하여 적을 것을 권장하는 경향도 강하게 나타나고 있어서 올바른 맞춤법에 따라 외래어를 적었어도 되려 맞춤법 검사기가 이를 무시하고 다른 단어로 대체할 것을 권유하는 경우가 자주 생긴다. 자주 사용되지 않는 단어의 경우에는, 설령 통용 표기가 아닌 외래어 표기법에 따른 표기로 외래어를 적었더라도 다른 단어로 대체하라고 권유하는 경우가 많다. 이 때문에 만연체로 글을 적었거나 외래어를 많이 사용했을 경우에는 맞춤법 검사를 제대로 진행하기가 어렵게 되기도 하는데, 특히 외래어에 관련해서는 맞춤법 교정보다도 오히려 언어순화에 보다 중점을 두기에 정작 본연의 기능은 제대로 작동하지 않아서 맞춤법 교정이 잘 안 되는 문제가 나타나기도 한다.

또한 외래어만이 아니라 일부 한자어에 대해서도 순우리말로 순화할 것을 맞춤법 검사기가 지시하는 경우가 있어서, 이 때문에 한자어를 사용한 문장의 맞춤법 교정이 제대로 되지 않는 경우도 때때로 발생되기도 한다.

국립국어원보다도 더 깐깐한 기준으로 언어순화와 평이하고 간결한 문체의 사용을 사용자에게 지시하기 때문에 여러모로 맞춤법 검사기의 교정 결과를 곧이 곧대로 따르기가 힘들게 만들곤 하기 때문이다. 교정 결과를 곧이 곧대로 따르게 되면 간결하긴 하나 너무나 평이한 문체가 되어 버리고, 덤으로 어지간한 외래어나 일부 한자어는 거의 쓸 수가 없게 된다. 특히 확립된 법률용어, 행정용어를 사용자의 의도와 관계없이 멋대로 순화시켜버리는 것도 문제다. 물론 한국의 법률용어, 행정용어에 언어순화가 필요하다는 당위성 정도는 대다수가 공감할 것이다. 그러나 토씨 하나 차이에 효과가 달라질 수 있는 법률이나 행정같은 분야에서는, 결국 입법으로 용어가 공식 개정되기 전까지는 공무원인건 민원인이건 마음대로 용어를 바꾸어 쓰면 문제가 생길 수 있다.

2018 버전부터 부산대 검사기를 자체 검사기 대신 도입한 한컴오피스 한글에서 특히 부산대 검사기의 이러한 문제점으로 인해 문제가 발생하는 사례가 많이 들려오고 있는 상황이기도 하다. 한컴오피스 한글은 관공서와 관련된 업무에 사용되는 경우가 많은 프로그램이기 때문이다.

6. 관련 문서


[1] 일반적으로 포털에 검색하면 이 주소를 제시한다.[2] 부산대학교 우리말 배움터 페이지에서 제공하는 버전. 동작이 조금 다르다.[주의] 누르면 바로 다운로드되니 주의 바람.[4] 하지만 정작 '그럴만하다'처럼 이 해설이 뜰 만한 문장을 입력하면 아예 잡지 않는다.[5] 실제로 '윤간되다'를 입력하면 이 해설이 뜬다.[6] 정작 '듀냐'를 입력하면 '인식할 수 없는 단어'라고 뜬다.[7] 한편, 잡코리아 검사기 개발자는 이 문제를 해결하기 위해 '삼일한'이라는 문자열이 들어오면 그냥 지워 버리는 식으로 대응했는데, 이 로직이 웹페이지의 자바스크립트 코드에 들어있었고 한 유저가 이를 발견하면서 논란이 촉발되었다. 이후 잡코리아는 해명을 내고 2021년 8월 24일 19시경 코드를 수정했는데 해당 로직을 서버사이드 쪽으로 옮긴 것으로 추정된다.