관련 기사에 의하면 구글은 최근 OCR(Optical Character Recognition) 기술을 이용하여 PDF로 저장된 문서의 내용을 텍스트로 바꿔 검색 가능하도록 현재 검색 서비스에 기술 적용을 했다고 합니다.
OCR 기술은 제법 오래된 기술인데요, 저도 7~8년 전에 이 기술에 대해 알게 되었고 소프트웨어를 개발하는 업체와 업무 진행을 한 적 있습니다. 당시 국내에 OCR 소프트웨어를 개발하던 업체가 두 군데 정도 있었는데 이 업체를 통해 북한에서 개발한 OCR 프로그램을 소개 받은 적 있습니다. 이런 말하면 국가 보안법 위반일 지 모르겠지만 일본에서 OCR 프로그램을 판매하던 북한에서 운영하는 웹 사이트 운영자에게 해당 프로그램에 대해 문의한 적도 있습니다. 물론, 답신은 받지 못했습니다. 통신을 하려면 쌍방 교류가 있어야 하는데 일방적이었으니 국가 보안법에 저촉되지는 않나요?
어쨌든 당시 북한에서 개발한 OCR 소프트웨어의 인식율은 본인들의 주장으로는 70% 정도고 영문의 경우 대개 완벽히 동작한다고 하더군요. OCR 소프트웨어는 이미지에서 글자 부분을 추론해내는 엔진을 통해 이미지에 포함된 텍스트를 자동 전환합니다. 예를 들어 8만 대장경을 디지털화한다고 했을 때 각 목판본을 이미지로 스캔하고 OCR 프로그램이 그 내용을 텍스트로 전환시키는 거죠. 혹은 디지털 데이터로 존재하지 않는 과거에 발행된 서적을 이미지로 스캔한 후 그 내용을 텍스트로 변환시키면 디지털화 속도가 매우 빨라집니다.
문제는 OCR 프로그램이 100% 완벽하게 이미지에 포함된 텍스트를 전환시키지 못한다는 것이었는데 구글은 이번에 그 부분을 대폭 개선했다고 주장하고 있습니다. PDF 내부 자료 검색을 적용시키기 전의 구글의 상태를 모르기 때문에 비교하기는 힘듭니다만 Software Engineering이라는 키워드로 PDF 파일을 검색한 결과를 보니 PDF의 내부에 포함된 단어를 검색하는 걸 확인할 수 있었습니다.
이번 구글 검색의 PDF 검색은 완전히 새로운 기능이 아니라 과거에 비해 '좀 더 확실히' PDF 문서를 검색했다는데 의의가 있는 것 같습니다. PDF로 제작되어 웹에 공개된 문서들 중에 많은 학술 자료가 포함되어 있음을 생각해 보면 이번 구글 검색 서비스의 기능 개선은 학생이나 연구자들에게 특히 도움이 될 듯 합니다.

Prev
Rss Feed
