LLM기반 전자문서 요약 자동 생성 모델 - 국민대학교x가톨릭관동대학교 대학원
2024/10/26 ~ 2024/11/30
국민대학교 학부생 5명 - Llama3.2 3B instruct Model 담당 가톨릭관동대 석사생 2명 - Llama3.1 8B instruct Model 담당
- deployment가 최종적이며, 해당 Branch에는 자체 내부적으로 선정한 모델 - Llama3.2 3B Instruct입니다.
-
PDF 파일 처리
- PDF 파일에서 텍스트와 메타데이터를 추출.
- 추출된 데이터를 JSON 형식으로 저장.
-
요약 생성
- LLM(Llama3.2 모델)을 활용하여 긴 텍스트를 요약.
- 도메인에 적합한 요약문 생성.
-
검색 기능
- RAG 기법을 사용하여 요약 데이터를 벡터화.
- 사용자 쿼리에 대해 연관 문서를 검색하고 응답 생성.
-
평가 지표
- BLEU: n-gram 기반 평가로 요약의 정밀도를 측정.
- BERTScore: 문맥적 유사성을 기반으로 요약 품질 평가.
pip install -r requirements.txt
-
PDF 파일 처리 PDF 파일을 특정 디렉토리에 배치한 후 아래 명령을 실행하십시오: python pdf_processor.py --input-dir ./pdfs --output-dir ./jsons
-
요약 생성 추출된 JSON 파일을 바탕으로 Llama3.2 모델을 사용하여 요약을 생성하십시오: python summarize.py --input-dir ./jsons --output-dir ./summaries
-
검색 및 응답 시스템 실행 RAG 기반 검색 시스템을 실행하려면 다음 명령을 실행하십시오: python rag_service.py
모델 ID | BLEU | BERTScore | 학습 도메인 |
---|---|---|---|
제공된 요약 샘플 | 0.4644 | 0.7197 | - |
Llama3.1 - 8B | 0.1306 | 0.6906 | 뉴스 |
Llama3.2 - 3B | 0.2618 | 0.7466 | 보고서 |
항목 | 설명 |
---|---|
언어 | Python |
모델 | Llama3.2 (LoRA 적용) |
데이터 처리 | pdfplumber, json |
검색 기술 | RAG (Chroma 벡터 스토어) |
자세한 프로젝트의 아래의 diagram을 참고하세요.
Workflow | Data Flow Diagram (DFD) | Sequence Diagram |
---|---|---|