쓸만한 AI 만들기 요약

2024. 12. 4. 18:58개발

# 1.괴발 개발 손글씨 읽기 OCR 서비스
- 광학무자 인식 기술 Optical Character Recognition 개념, 시장성, 전망, 사례 소개 유스케이스 작성. 어플구현
## 1.1 개념, 사례
- 손글시 텍스트화 이미지 속 문자를 컴퓨터가 인식, 디지털 문자변환 기술.
- 이미지의 일부. 텍스트로 번역, 스캔된 문서의내용 분석, 검색, 편집. => 음성정보로 변환
- 패턴 인식 알고리즘 기반 OCR 기술, 언어종류, 폰트종류, 이미지왜곡, 스캔 해상도, 명암 변수 로 인식 오류 발생.
- 전세계 OCR 시장 규모 185달러 2024기준,
- 신용카드 촬영 - 자동 결제 정보란 입력 기능 , 영수증 인식 서비스 -> 정산 페이지 기록.
- 구글 ocr 서비스 네이버 클로바 ocr api 제공.
- 외국어 번역 앱서비스. 파파고,
## 1.2 기술키워드
- 인코더, 디코더 : 도메인간 변환, 다른 도메인간 변환에도 사용.
- Caption generation . : 이미지 압축 모델 로 구성. 특징추출 차원축소 벡터 , 디코더는 문장생성 모델로 구성. 인코더의 저차원 벡터 표현을 입력받아 문장생성.
- Seq2seq 모델 : 번역
- 토크나이저 : 형태소단위 분리, 숫자데이터 변환 = 토큰(컴퓨터가 수치적 형태로 처리하고 이해가능)

## 1.3 서비스 기획
- 유스케이스 작성.
유스케이스 다이어그램 :
- 시스템이 사용자에게 제공하는 특정 기능 , 서비스( 시방서), 사용자가 시스템과 상호작용 과정설명.
- 유스케이스들과 사용자 간 관계 시각적 표현, 시스템 개발 초기단계 요구사항 분석과 설계에 도움.
- 테스트 사례 작성, 사용자 메뉴얼 작성에도 활용 됨.
- 액터 : 시스템 사용자.
- 유스케이스: 시스템 제공 기능(타원)
- 연관관계 : 관계(화살표 없는 실선)
- 포함관계 : 다른유스케이스의 전제 조건 필요관계(<<포함>>
- 일반화 관계 : 추상화된 유스케이스와 구체화된 유스케이스 간 관계 ( 실선 화살표)
> 2024.12.04
- 시나리오 요약
-> 사용자가 입력함.
- 이미지 파일 업로드 방식.
- 캔버스에 직접 손글씨 쓰기 방식.
-> 사전 학습 모델활용하여 입력받은 손글씨 이미지를 추론하여 택스트 추출
-> 변환된 텍스트를 화면에 출력
- 애플리케이션 구성 구체화
- 최종 사용자의 요구사항 명확, 화면 기능 검토 단계
1. 사용자 손글씨 입력용 UI( file upload type, canvers type)
2. UI input => text transform ( 핵심 기능. model inference)
3. UI output
- 머신러닝 플로우
1. 전처리(preprocess) : 데이터 형식, 크기 변환, 정규화, 토큰화, 자르기 회전반전, 증식등.
2. 모델 추론
3. 후처리 (postprocess): 결과물을 실제 사용가능한 형태로 변환

## 1.4 모델 선정
- 논문 서칭. 사전 학습 모델 활용-> 시간절약. , 자원절약(GPU 등 하드웨어 필요없음), 높은성능. 허깅페이스 이용
- https://huggingface.co -> computer vision -> image-to-text click -> handwritten-> microsoft/trocr-base-handwritten click
- TrOCR 모델 repository 이동, 2021.4 공개 모델. 인코더, 디코더 모델. 텍스트간 문자 오류 비율 지표 CER(Character Error Rate) 에서 높은 성능.
- 관련논문 TrOCR: transformer-based optical character recognition with pre-trained models



'개발' 카테고리의 다른 글

AWS ubuntu 계정관련 에러  (0) 2024.12.12