Skip to content

Conversation

@rll2641
Copy link
Collaborator

@rll2641 rll2641 commented Sep 27, 2025

📝 작업 내용

  1. Google Vision API 기반 OCR 추가
  2. 중국어, 영어, 일본어 -> 한국어 번역
  3. 새로운 엔드포인트 추가 (blogs/ocr/extract)
  4. Dockerfile Entrypoint 가상환경 경로로 수정
  5. S3에서 파일 가져오기

OCR 모델 사용후기

  1. tesseract - 정확성 안좋음. feature/ocr
  2. paddle - numpy 버전 다운그레이드 필요 -> 충돌가능성 O
  3. easyocr - 의존성 용량 과다 -> 14기가. 별도 서버 분리 필요 -> 얘가 제일 정확함
  4. google api - tesseract 보다 정확. 하지만 API라 네트워크 발생 및 유료 (월1000건무료)

🔗 관련 이슈

  • Closes #이슈번호
  • Related to #이슈번호

💬 추가 요청사항


✅ 체크리스트

코드 품질

  • 커밋 컨벤션 준수 (feat/fix/docs/refactor 등)
  • 불필요한 코드/주석 제거

테스트

  • 로컬 환경에서 동작 확인 완료
  • 기존 기능에 영향 없음 확인

배포 준비

  • 환경변수 추가/변경사항 문서화
  • DB 마이그레이션 필요 여부 확인
  • 배포 시 주의사항 없음

1. S3에서 이미지 추출 (json 미포함, 로컬 저장X)
2. google-vision api로 중국어, 일본어, 영어 -> 한국어 변환
3. 개행 및 불 필요한 텍스트 전처리
4. 엔드포인트 추가 (blogs/ocr/extract)
5. Dockerfile 주석 ENTRYPORIN 경로 변경
@rll2641 rll2641 self-assigned this Sep 27, 2025
@rll2641 rll2641 added the enhancement New feature or request label Sep 27, 2025
@thkim7 thkim7 marked this pull request as ready for review September 27, 2025 09:30
@thkim7 thkim7 merged commit 78d6163 into develop Sep 27, 2025
7 checks passed
@thkim7 thkim7 deleted the feature/paddleocr branch September 27, 2025 09:33
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

enhancement New feature or request

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants