OCR

[[컴퓨터공학\|'''컴퓨터 과학 및 공학 {{{#!wiki style="font-family: Times New Roman, serif; display: inline;"]]
{{{#!wiki style="margin: 0 -10px -5px; min-height:calc(1lh + 5px)" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -1px -11px; word-break: keep-all"	<colbgcolor=#1282d7,#1282d7><colcolor=#fff,#fff> 기반 학문	수학(이산수학 · 수리논리학 · 선형대수학 · 대수학(환론 · 범주론) · 정수론 · 해석학 · 미적분학 · 미분방정식) · 이론 컴퓨터 과학(튜링 머신 · 정보이론 · 재귀 이론) · 암호학 · 전자공학 · 언어학(음운론 · 형태론 · 통사론 · 의미론 · 화용론) · 인지과학
하드웨어	SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
시스템	컴퓨터 구조론 · 폰노이만 구조 · 마이크로아키텍처 · 논리 회로(논리 연산 · 카르노 맵 · 가산기 · 보수기 · 플립플롭) · FPGA · 하드웨어 가속 · 바이오스 · UEFI · ACPI · LinuxBoot · 운영체제(인터럽트 · 멀티태스킹 · 프로세스 스케줄링 · 뮤텍스 · 세마포어 · 데드락 · 식사하는 철학자 문제) · 네트워크(네트워크 포트) · 대역폭 · 와이파이 · gRPC · GPS · 임베디드 시스템 · 사물인터넷 · 슈퍼컴퓨터 · 양자 컴퓨터
소프트웨어	시간 복잡도(최적화) · 이진 탐색 · 난수생성 · 컴퓨터 언어 · 기계어 · 어셈블리어 · 프로그래밍 언어(타입 이론 · 어휘 분석 · 파싱 · 컴파일러(어셈블러 · JIT) · 인터프리터 · 링커 · 난해한 프로그래밍 언어) · 마크업 언어 · 프로그래밍 패러다임(절차적 프로그래밍 · 객체 지향 프로그래밍 · 함수형 프로그래밍) · 데이터베이스(DBMS · NoSQL) · 메타데이터 · 인코딩(유니코드 · MBCS) · 소프트웨어 개발 방법론(애자일 · 워터폴) · 디자인 패턴 · 행위자 모델 · 놀람 최소화 원칙 · 버전(버전 관리 시스템) · 프레임워크 · 라이브러리 · 모듈 · API · ABI
응용	인공지능 · 기계학습 · 인공신경망 · 딥러닝 · 자연어 처리(기계 번역 · 음성인식) · 컴퓨터 비전 · OCR · 빅데이터 · 컴퓨터 그래픽스 · OpenGL · EXIF · HCI · UI · UX · 컴퓨터 보안 · 해킹 · 리버스 엔지니어링 · 해시(SHA · salt · 브루트 포스 · 레인보우 테이블 · 암호화폐) · 디피-헬만 키 교환 · RSA 암호화 · ROT13 · 일회용 비밀번호

}}}}}}}}} ||

1. 개요2. 언어별 인식도3. 용도4. 예시5. 제품 및 플랫폼

1. 개요

光學文字認識(광학 문자 인식) / Optical Character Recognition(OCR)[1]

보통 컴퓨터가 2진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 보여 준다면, OCR은 그 반대로 인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환한다. 보통은 스캐너로 읽어들인 이미지 파일을 분석하여 텍스트나 워드 파일로 결과물을 내놓는다.

이미 존재하는 폰트와 대조하는 방식으로 이미지를 인식하므로, 적어도 300dpi 이상의 해상도에 필기체보단 정자로 또박또박 잘 쓴 글씨가 인식률이 더 높다. 물론 이전에 프린터로 인쇄했던 문서라면 가장 잘 인식된다.

2. 언어별 인식도

언어와 문자별로 은근히 인식도 차이가 있다. 그냥 한 줄로 쭉 쓰는 영어 및 서유럽 언어가 가장 연구가 진행되어 있어서 인식률이 매우 뛰어나다. 어지간한 영어 로마자 문서는 99.5% 제대로 인식된다고 보면 된다. 휘갈겨 쓴 필기체의 인식도도 뛰어난 편이다.

반면 한글, 한자 같은 문자는 모양이 복잡하기도 하고 연구 투자도 서양에 비해 미진한 편이기 때문에 더 높은 해상도로 스캔하거나 하지 않으면 오자율이 상당하다. 손으로 쓴 한글이 특수 문자로 변환되는 건 아주 흔하다. 또한 모양이 비슷한 글자가 있어서 결과물이 야민정음으로 나오는 경우도 있다. 특히 '관'을 '판'으로 인식하는 오류가 가장 심해서, "~에 판하여"로 검색하면 논문이 줄줄이 나온다.(구글 검색 결과) 실생활에 쓰이는 문서(이력서나 공문서)가 소설책같이 글자만 있는 것은 아니므로 안 그래도 떨어지는 인식률이 바닥을 달린다. 특히 표나 그림이 들어간 문서는 인식률이 최악이다. 한국의 오래된 행정 문서들이 수백 년 역사를 가진 미국보다 느리게 디지털화되고 있는 이유이기도 하다.

같은 한자라도, 비영어권 문자라도 일본어처럼 히라가나, 가타카나가 섞인 문면은 한글에 비해 훨씬 인식률이 높은 편이다. 글자 모양이 로마자만큼이나 단순한 데다 정형화되어 있어서 활자본 글자는 90% 이상 인식이 된다. ソ(so)와 ン(n), シ(shi)와 ツ(tsu) 정도만 빼면 웬만한 것들은 정확하다. 일본이 일본어 문헌을 컴퓨터로 표현하는 것을 연구한 역사는 꽤 유구했기도 해서 영어를 제외하면 일본어의 OCR 인식률이 가장 좋다. ソ와 ン, シ와 ツ를 문맥으로 자연스럽게 구분하기 위한 연구도 활발하다.

예전에 비해 인식률이 많이 올라간 상황이나 100% 믿지는 않는 것이 좋다. 원본 이미지는 보관하도록 하자.

OCR의 성능을 향상시키기 위해 OCR-A나 OCR-B 같은 전용 폰트도 만들어졌다. 여권의 기계 판독 영역에 사용되는 폰트가 OCR-B이다.

3. 용도

기본적으로 이 OCR이 가장 널리 사용되는 것이 무인 단속 장비이다. 이 때문에 한국 자동차 번호판에서는 (군용과 외교용 등의 특수한 경우를 제외하면) 모양이 비슷하거나 받침이 들어가는 복잡한 글자는 쓰지 않는다. 다른 나라도 마찬가지이긴 한데 일본, 중국처럼 한자 문화권인 곳은 번호판에 획수가 복잡한 한자를 쓰는 경우도 있어서 한국보다 정밀한 OCR 수준이 요구된다.

고문서를 디지털화할 때에도 사람이 타이핑하지는 않고 이렇게 OCR을 사용할 때가 많다. 애매한 단어의 경우에는 인력으로[2] 보완한다.

대한민국 여권에 로마자 이름을 적어 넣을 때도 1차적으로 OCR을 사용한다. 그래서 간혹 KIM이 KTM으로 잘못 적히거나 PARK이 RARK으로 잘못 적히는 문제가 생기기도 한다. 여권 발급 신청서를 OCR 뜬 뒤 공무원이 글자가 잘못 인식된 것을 미처 발견하지 못하고 여권 발급을 진행하면 저렇게 된다. 신용카드/체크카드 발급 시에도 종종 이런 오류가 발생한다.

모바일용 구글 번역에서는 OCR을 이용한 번역을 지원한다. 인식률은 매우 괜찮은 수준. 최근 OCR 앱이 나오면서 스마트폰으로 사진을 찍고, 바로 문서로 변환할 수 있게 되었다. 영어 원서는 어느 앱이나 인식률이 높다. 한글은 TextGrabber + Translator의 성능이 괜찮다. FineReader를 만든 ABBYY에서 만든 앱으로 가격은 11,000원이다. 몇 년 전 OCR을 생각하면 훌륭하지만, 오류가 많아서 손으로 일일이 수정해야 하는 것은 변함없다. 프랑스어나 독일어, 베트남어 등 다이어크리틱이 있는 언어는 Office Lens를 추천한다. 마이크로소프트에서 만들어 무료로 배포하는 앱으로, diacritic 인식률이 훌륭하다. 파파고 등에서는 이미지의 텍스트를 인식/번역하고, 기계 학습 기반의 인공지능으로 텍스트 영역을 편집해서 번역된 텍스트를 합성해 주는 서비스도 제공한다.

우체국에서도 OCR을 이용해 주소를 판독한다고 한다. 89년도부터 도입이 시작됐던 모양이다.

ICAO Doc 9303 문서의 MRZ를 인식할 때도 쓰인다.

4. 예시

1. 네이버 클라우드 플랫폼 OCR

OCRI 분야에서 가장 권위 있는 경진 대회인 'CDAR Robust Reading Competition'에서 4개 분야를 석권한 네이버 Clova OCR이 최근 네이버 클라우드 플랫폼 콘솔을 통해 서비스 이용 가능해졌다. 고가의 OCR 프로그램을 별도로 설치하여 사용하지 않아도 건별 3원이라는 저렴한 가격으로 이용 가능하다. 활자체의 경우 타사 대비 15% 이상 높은 인식률을 보이며, 필기체의 경우에도 2~3배 정도 높은 인식률을 보유한다. 네이버의 AI 기술을 활용하여 주요 비즈니스 활용에 최적화된 고성능 OCR 인식 모델을 적용시켰다. 문자 인식이 제공되는 언어는 한국어, 영어, 일본어이며, 필기체 인식은 한국어와 일본어가 지원된다. 또한 문서 레이아웃 분석 및 글자를 읽는 순서 방향을 추정하여 둥글게 곡선으로 배열되거나 기울어진 문자, 필기체 인식 등 고성능 AI 모델 바탕으로 높은 수준의 정확도를 제공한다. OCR 분야 가장 권위 있는 글로벌 챌린지 ICDAR2019 4개 분야에서 1위, CVPR 및 ICCV 국제 학회 논문 선정 등 독보적인 기술이 집약되어 있다.

2. ABBYY OCR

파일:external/www.download.com.vn/ABBYYFineReader11ORC3.jpg

OCR 프로그램 중 가장 성능이 좋다고 알려진 ABBYY FineReader 11. 2022년 5월 기준 ABBYY FineReader PDF 15라는 최신 버전 기준으로 1년 구독 라이선스의 가격은 139,900원이다.[3] 후지쯔 스냅스캔 시리즈 등 여러 회사의 문서 처리용 고속 스캐너 중에 번들로 넣어주는 모델이 있다. 문서를 스캔하면서 PDF 파일로 묶는데, 그때 OCR한 결과를 넣어서 검색 가능한 PDF로 만들어준다.

애플 iOS 16의 '지능형 기능'과, 삼성 갤럭시의 빅스비 이미지 분석 기능에 OCR 기능이 포함되어 있다.

3. Deepseek-OCR
충분한 사양의 장비만 있다면 외부 개입 없이도 집에서 OCR을 할 수 있다.
DeepSeek-OCR과 DeepSeek-OCR-2 등 오픈 소스로 공개된 AI 기반 파이프라인을 사용하면 된다.

5. 제품 및 플랫폼

유료

네이버 클라우드 플랫폼

Naver Cloud Platform 3원/건당(무료 제공 100회/월)
Template OCR: 템플릿이 있는 문서들의 반복적인 스캔을 진행할 경우 인식률을 획기적으로 높일 수 있다.
Document OCR: 많은 학습 데이터를 기반으로 CLOVA AI 기술을 적용하여 영수증/신용 카드/사업자 등록증/명함/신분증 등의 문서의 주요 Feature를 추출합니다.

ABBYY: 가장 성능이 좋은 것으로 알려져 있다. 이전까지는 영구 구매 방식이었으나 2022년 5월 현재 하단의 Acrobat 처럼 기간제 구독 방식으로 판매 방식이 바뀌었다.

FineReader PDF 15 Standard(개인용): 139,900원(1년 구독)
FineReader PDF 15 Corporate(기업용): 197,000원(1년 구독)[4]
FineReader PDF 15(해외 본사 판매 링크) [5]

Adobe

Adobe Acrobat Pro DC: $14.99(월) / ￦29,700(월)[6]

Nuance

Nuance OmniPage 18: $149.99
Nuance OmniPage Ultimate: $499.99

Readiris

READIRIS PDF 17: $49

Grooper

Grooper OCR: $499.99

한컴오피스

한OCR [7]

Bank-OCR

Bank-OCR

무료

Windows 10, 11 캡처 도구
구글 이미지 검색: 구글 검색창 오른쪽에 있는 이미지로 검색[8] 클릭. 점선으로 둘러싼 곳에 이미지를 드래그하거나 파일을 업로드. 업로드된 이미지 파일 밑에 3항목[9] 중 텍스트 항목 클릭. 업로드된 이미지 파일 클릭 후 드래그하여 텍스트를 선택.[10]

구글 드라이브: 구글 드라이브에 업로드한 파일[11]을 구글 문서로 변환. 인식률은 매우 괜찮은 수준. 크롬 브라우저에서 할 경우 인식률을 더 높일 수 있다.

ScanTexter: 맥북, 아이패드, 아이폰에서 사용 가능한 AI 번역 앱으로 사진, 동영상, PDF 문서 등 다양한 디지털 콘텐츠 내 문자를 자동 추출 하여 쉽게 번역할 수 있는 앱이다. #
네이버 웨일: 이미지의 마우스 오른쪽을 클릭. 이미지에 있는 글자 번역 클릭. 작은 파파고 번역 창에서 이미지에 있는 글자의 언어를 선택. 마우스로 영역을 지정. 작은 파파고 번역 창에 인식된 글자가 나오고 동시에 번역까지 나온다.
MORT: PC 화면을 캡처하여 주로 실시간으로 게임을 번역하기 위해 만들어진 OCR로 당연히 이미지 OCR로도 쓸 수 있다.
알PDF [12][13] 한 가지 팁이 있다면, OCR 처리에 있어 여러 언어를 지정할 수 있는데, 절대로 그렇게 하지 말고 한 가지 언어만 지정해서 해야 안정적이다. 2가지 이상의 언어를 선택하면 혼선이 빚어져서 거의 100% 튕긴다. 이후 패치를 거듭해서 좀 느리긴 하지만 다중 언어 인식도 이전에 비해선 원만히 이루어지나 OCR 처리를 하면 오류 때문에 페이지가 뒤집혀서 나오는 경우가 종종 있다.
Capture2Text: 마우스로 영역을 지정한 부분을 인식 가능한 OCR. 일본어 만화를 보기 위해 만들어졌으며, 클립보드로 출력을 지원해서, EZTrans XP(or 구글 번역), 아네모네 등과 조합해서 실시간으로 만화를 번역하며 볼 수 있다.
Capture2OCR: 마우스 영역 지정을 통해 이미지에서 텍스트를 뽑아 번역해 주는 OCR.
New OCR Free Online OCR
PDF24 Creator

모바일

구글 번역 앱.

구글 렌즈

ScanTexter 앱.
갤럭시 시리즈 휴대폰 기본 카메라 [14]
네이버 파파고
CamScanner
Adobe Scan
Office Lens
TextGrabber
vFlat
OCR Manga Reader: 위의 Capture2Text 제작자가 만든 Android용 만화 OCR. 만화를 보며 구글 번역과 연동해서 선택한 영역을 번역해서 볼 수 있다.

Adobe Acrobat Pro DC에서도 한국어 OCR을 지원해 준다.

[1] 광학 표시 판독(Optical Mark Recognition, OMR)과 구분해야 한다.[2] 한때 운용되었던 reCAPTCHA v1 등[3] ABBYY FineReader 12로 2016년 수능특강 물리2를 스캔한 모습

그러나 이처럼 한글과 수식이 섞인 문서를 인식하려고 하면 어김없이 깨지는 모습을 보인다. 사실 인식 후 문서의 양식을 유지해 준다거나 이미지 밑에 문자를 숨겨서 검색만 가능하게 해 준다거나 하는 부가 기능이 유용한 거지 인식 기능이 엄청나게 차이 나지는 않는다.[4] 개인용 기능에 문서 비교 기능과 매월 5,000 페이지의 OCR 자동화 기능이 추가되어 있다.[5] ABBYY 본사에서 직접 판매하는 해외 링크, 표기된 가격은 위의 국내 판매처와 동일하다. 다만 자국 통화 결제는 스팀처럼 이중 환전이 있을 수 있으니 주의. 해당 본사 판매처에서는 월 구독 방식도 지원한다.[6] 한번 구입하면 끝이 아니라, 매월 구독료를 지불해야 한다. 이는 Adobe의 CC 버전 이후 모든 제품들이 동일하다.[7] 다만 체험판으로도 제공하며 체험판 사용 기간이 만료되어도 계속 쓸 수 있다.[8] 구글 렌즈 아이콘.[9] 검색, 텍스트, 번역.[10] 모든 텍스트를 선택하려면 마우스로 전체를 드래그하거나 오른쪽 파란색 '모든 텍스트 선택' 버튼 클릭.[11] 확장자가 webp인 파일은 구글 문서 변환이 안됨.[12] 2.10.3 버전 이후 OCR 인식 기능이 중단되었으나 2.3버전 이후 OCR 기능이 재개되었으며 성능이 향상되었다.[13] 물론 개인 사용자에게만 무료고, 기업이 이용하려면 유료다.[14] 텍스트에 맞춰 사진을 찍은 뒤 T 자 아이콘 터치.

OCR

1. 개요

2. 언어별 인식도

3. 용도

4. 예시

5. 제품 및 플랫폼

분류