[컴] pdf 파일에서 한글 검색이 안되는 이유

pdf 한글 깨짐 / 근데 긁은 텍스트를 메모장이나 한글프로그램에 복사하면 글꼴이 다 깨지는 경우

updated, 2022-03

스마트폰으로 사진을 찍고 ‘구글렌즈’ 로 텍스트를 복사하는 것도 가능하다.

updated, 2020-12-29

요즘은 google drive 에서 파일에서 오른쪽마우스 버튼 메뉴 를 누르고 '연결앱' 을 구글 문서를 선택하면 OCR 기능을 제공해준다.

pdf 파일에서 한글 검색이 안되는 이유

옛날에 만들어진 pdf 중에 한글들이 검색이 잘 안 된다. foxit reader 5.4.3.0920 를 사용해서 "농심" 이라는 글자를 copy 하고 paste(붙여넣기) 를 하면 아래처럼 글씨가 깨져버린다.

image

혹시나 foxit 의 문제인가 해서 adobe reader XI 을 설치했다. Adobe Reader XI 버전에서 하면 아래처럼 된다. "찾기" 안에 있는 글자가 "농심" 이라는 글자를 copy 해서 paste 한 글이다.

image

뭐가 문제인지 몰라서 조금 찾아봤더니, pdf 문서가 한글 같은 비영어 글자를 저장할 때 폰트를 사용해서 저장하는 것이 아니라 벡터 그림형태로 저장해서 그렇다고 한다. 요새는 이것을 아마도 font 를 사용하도록 설정할 수 있는 걸로 알고 있는데 불확실하다. ^^;;[ref.1] 여하튼 그래서 pdf 를 어떻게 만들었느냐에 따라 한글이 검색 가능할 수도 있고, 불가능할 수도 있다.

해결방법

이런식의 문자는 ABBYY FineReader 같은 OCR tool 을 사용해서 읽어오면 된다.

Reference

  1. http://help.namo.co.kr/support/techlist/view.php?idx=742&cateflag=&prodflag=DS&keyfield=subject&keyword=&page=5

댓글 없음:

댓글 쓰기