LLM-Document_Summarizer

LLM기반 전자문서 요약 자동 생성 모델 - 국민대학교x가톨릭관동대학교 대학원

프로젝트 기간

2024/10/26 ~ 2024/11/30

구성원

국민대학교 학부생 5명 - Llama3.2 3B instruct Model 담당 가톨릭관동대 석사생 2명 - Llama3.1 8B instruct Model 담당

Branch 설명

deployment가 최종적이며, 해당 Branch에는 자체 내부적으로 선정한 모델 - Llama3.2 3B Instruct입니다.

📌 주요 기능

PDF 파일 처리
- PDF 파일에서 텍스트와 메타데이터를 추출.
- 추출된 데이터를 JSON 형식으로 저장.
요약 생성
- LLM(Llama3.2 모델)을 활용하여 긴 텍스트를 요약.
- 도메인에 적합한 요약문 생성.
검색 기능
- RAG 기법을 사용하여 요약 데이터를 벡터화.
- 사용자 쿼리에 대해 연관 문서를 검색하고 응답 생성.
평가 지표
- BLEU: n-gram 기반 평가로 요약의 정밀도를 측정.
- BERTScore: 문맥적 유사성을 기반으로 요약 품질 평가.

🚀 설치 및 실행 방법

1. 의존성 설치

pip install -r requirements.txt

PDF 파일 처리 PDF 파일을 특정 디렉토리에 배치한 후 아래 명령을 실행하십시오: python pdf_processor.py --input-dir ./pdfs --output-dir ./jsons
요약 생성 추출된 JSON 파일을 바탕으로 Llama3.2 모델을 사용하여 요약을 생성하십시오: python summarize.py --input-dir ./jsons --output-dir ./summaries
검색 및 응답 시스템 실행 RAG 기반 검색 시스템을 실행하려면 다음 명령을 실행하십시오: python rag_service.py

📊 평가 결과

모델 ID	BLEU	BERTScore	학습 도메인
제공된 요약 샘플	0.4644	0.7197	-
Llama3.1 - 8B	0.1306	0.6906	뉴스
Llama3.2 - 3B	0.2618	0.7466	보고서

🛠️ 기술 스택

항목	설명
언어	Python
모델	Llama3.2 (LoRA 적용)
데이터 처리	pdfplumber, json
검색 기술	RAG (Chroma 벡터 스토어)

자세한 프로젝트의 아래의 diagram을 참고하세요.

System Design Diagrams

Workflow	Data Flow Diagram (DFD)	Sequence Diagram

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
Summarizer		Summarizer
pdf_to_json		pdf_to_json
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM-Document_Summarizer

프로젝트 기간

구성원

Branch 설명

📌 주요 기능

🚀 설치 및 실행 방법

1. 의존성 설치

📊 평가 결과

🛠️ 기술 스택

System Design Diagrams

About

Releases

Packages

Languages

handsomem1n/LLM-Document_Summarizer

Folders and files

Latest commit

History

Repository files navigation

LLM-Document_Summarizer

프로젝트 기간

구성원

Branch 설명

📌 주요 기능

🚀 설치 및 실행 방법

1. 의존성 설치

📊 평가 결과

🛠️ 기술 스택

System Design Diagrams

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages