🧾 파이썬으로 이미지에서 텍스트 추출하기: OCR 기초 완전 정복

사진 속 글자를 추출해서 자동으로 문서화하거나, 영수증 스캔 정보를 텍스트로 변환하고 싶었던 적 있으신가요?
이럴 때 바로 필요한 기술이 **OCR(Optical Character Recognition, 광학 문자 인식)**입니다.

이번 포스팅에서는 파이썬 + Tesseract OCR을 활용해 이미지에서 텍스트를 뽑아내는 기본 방법을 알려드릴게요!

📦 사전 준비

1. 파이썬 설치 확인

Python 3.7 이상 권장

2. 필수 라이브러리 설치

pip install pytesseract opencv-python pillow

3. Tesseract 설치

운영체제에 맞게 설치 필요

Tesseract 다운로드
설치 후 시스템 환경 변수 등록 또는 경로 지정 필요

import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # 윈도우 기준

🖼️ 기본 예제: 이미지에서 텍스트 추출하기

import cv2
import pytesseract
from PIL import Image

# 이미지 불러오기
img = cv2.imread('sample_image.png')

# 흑백 처리
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# OCR 수행
text = pytesseract.image_to_string(gray, lang='eng')

print("추출된 텍스트:")
print(text)

🛠️ OCR 정확도 높이기 팁

이미지 해상도를 높이고, 노이즈 제거하기
흑백 이진화 (thresholding) 처리
폰트가 깔끔한 데이터로 테스트할 것
언어팩 추가 설치로 한글도 인식 가능: lang='kor'

📌 Tesseract 한글 인식하려면?

한글 언어팩 설치 후 lang='kor' 옵션 사용:

sudo apt install tesseract-ocr-kor   # Ubuntu 기준

text = pytesseract.image_to_string(gray, lang='kor')

💡 OCR 어디에 쓸 수 있을까?

명함 스캔 후 연락처 자동 등록
캡처된 이미지에서 문서화 작업
운전면허증, 주민등록증 등 인식
책/논문 스캔 후 검색 가능한 PDF로 변환

✅ 마무리

OCR은 인공지능 분야 중에서도 실무에 정말 많이 쓰이는 기술입니다.
파이썬으로 빠르게 시작해보고, 이후 딥러닝 기반 OCR로도 확장할 수 있어요.

🔜 다음 글 예고

딥러닝 OCR: EasyOCR vs PaddleOCR 비교
OCR + Flask로 웹 OCR 서비스 만들기
OCR 성능 향상을 위한 이미지 전처리 전략

🖊️ 도움이 되셨다면 공감/댓글/구독 부탁드려요!
💬 더 궁금한 점이나 다뤄줬으면 하는 주제가 있다면 댓글로 남겨주세요.

저작자표시 비영리 변경금지 (새창열림)

'개발 > Python' 카테고리의 다른 글

🔍 딥러닝 OCR: EasyOCR vs PaddleOCR 비교 분석 (0)	2025.03.26
OBJ파일 스케일 일괄 조정 (0)	2024.05.09
[IOS 미디어 컨버터] Heic to jpg / Mov to mp4 (0)	2024.04.25
특정 키보드 입력과 동시에 다른 키 입력하는 기능(바인딩) (1)	2024.04.22

비트바이트 (BitBite)

🧾 파이썬으로 이미지에서 텍스트 추출하기: OCR 기초 완전 정복

📦 사전 준비

1. 파이썬 설치 확인

2. 필수 라이브러리 설치

3. Tesseract 설치

🖼️ 기본 예제: 이미지에서 텍스트 추출하기

🛠️ OCR 정확도 높이기 팁

📌 Tesseract 한글 인식하려면?

💡 OCR 어디에 쓸 수 있을까?

✅ 마무리

🔜 다음 글 예고

'개발 > Python' 카테고리의 다른 글

티스토리툴바

🧾 파이썬으로 이미지에서 텍스트 추출하기: OCR 기초 완전 정복

📦 사전 준비

1. 파이썬 설치 확인

2. 필수 라이브러리 설치

3. Tesseract 설치

🖼️ 기본 예제: 이미지에서 텍스트 추출하기

🛠️ OCR 정확도 높이기 팁

📌 Tesseract 한글 인식하려면?

💡 OCR 어디에 쓸 수 있을까?

✅ 마무리

🔜 다음 글 예고

'개발 > Python' 카테고리의 다른 글

관련글

티스토리툴바