[논문 정리 LLaVA-Med] Training a Large Language-and-VisionAssistant for Biomedicine in One Day

LLaVA에 이어서 LLaVA-Med도 정리해야지.

제목: LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

저자: Chunyuan Li et al.

인용: 136 (2024.04.19)

학회: NIPS2023

링크: https://arxiv.org/abs/2306.00890

Abstract.

1. chatboot AI의 멀티모달 격차:

- 현재 대화형 AI 기술은 Bio-medical 분야에서 가능성을 보여주지만, 주로 단일 모드(텍스트 전용) context 전용

- Bio-medical image를 이해하고 대화할 수 있는 정교한 도구가 부족.

2. 대규모 데이터 세트 + GPT-4를 이용한 새로운 접근 방식

- PubMed Central의 방대하고 다양한 생체 의학 피규어 캡션 데이터 세트를 사용.

- 이 데이터 세트와 GPT의 결합은 AI가 생체 의료 이미지와 관련된 응답을 이해하고 생성하도록 훈련하는 기반을 형성.

3. 고급 학습 작업을 위한 GPT-4의 통합:

- LLaVA-Med는 GPT-4를 사용하여 AI의 기능을 활용하여 캡션에서 지침 추종 데이터를 생성.

- 모델이 전문가가 아닌 사람이 복잡한 생물 의학 용어와 개념을 점진적으로 이해하는 방법을 스스로 학습하고 시뮬레이션

4. 커리큘럼 학습 방법

- 새로운 커리큘럼 학습 방법은 Large Vision Language Model을 fine-tuning하는 데 사용.

- 이 방법은 비용 효율적이고 효율적으로 설계되어 신속한 훈련과 미세 조정이 가능.

5. LLaVA-Med 개발

- 최종 결과물은 텍스트와 이미지를 모두 이해하는 대화형 어시스턴트인 LLaVA-Med 개발

- 생의학 이미지에 대한 개방형 연구 질문을 돕기 위해 훈련되었으며 멀티모달 대화가 가능.

6. 성능 메트릭

- 세 가지 표준 Bio-medical 시각적 질문 답변 데이터 세트에서 테스트 됨, 일부 메트릭에서 이전 모델보다 성능이 좋음.

7. 리소스 공유

- 광범위한 연구 커뮤니티를 지원하기 위해 지침 추종 데이터와 LLaVA-Med 모델이 공개로 Bio-medical 분야의 multi-modal 연구가 더욱 용이해질 것

Introduction

- 일반 도메인에서 사용 가능한 이미지-텍스트 쌍 데이터를 활용하여, Multimodal GPT-4와 같은 모델들이 Self-supervised learning 방식으로 효과적인 학습을 수행하였다는 사례가 증가.

→ 일반 도메인에서는 웹 이미지와 캡션과 같이 풍부한 image-text 사용 가능. 다양한 비전-언어 모델링에 효과적.

- Bio 분야에서 Image-Text 쌍의 특이성으로 인해 일반적인 상황과 크게 다르기에, Bio-medical 시나리오에서 일반적인 VLM 모델의 효과 감소.

→ 주로 Uni-modal 형태를 띄고 있으며, 앞서 말한 것처럼 형태와 특징도 다름 (주로 더 길고, 해상도도 더 높음)

- PMC-15M 데이터셋은 Bio분야에서 Image-Text 쌍을 대규모로 포함하고 있으며, 이는 생물의학 분야의 다양한 이미지 유형을 학습하였기에, 이 데이터셋의 활용은 LLaVA-Med 모델의 학습과정에서 핵심적인 역할을 할 것이라 기대.

- GPT-4를 이용한 Text Instruction 기반 모델 튜닝: Multi-modal 입력을 기반으로 인간의 의도와 일치하도록 Text Instruction 기반 튜닝을 통해 강화.

- LLaVA-Med 모델과 그 특성: LLaVA-Med 모델은 Bio-Medical 분야에 특화된 교육 방법을 사용하여 훈련.

- Bio VQA 데이터셋에서 우수한 성능을 보여 주며, 일반적인 지도학습 방식을 능가.

- 오픈 소스 자료 제공: 연구 촉진을 위해 Bio-Medical 분야에서 Text instruction을 활용한 데이터 생성 및 모델 훈련을 위한 코드베이스를 공개.

Related work.

1. Biomedical chatbots

- 기존 연구들은 LLM 기반으로 initialized 되어 그 위에 bio-medical realted setting을 얹은 형태.
- LLaVA-Med는 기존의 연구와 다르게, end-to-end로 학습이 가능한 Deep Learning architecture.

- 또한 기존의 54K sample로 학습된 Med-Alphaca와 다르게 더 많은 15M PMC dataset으로 학습됨.

2. BioMedical VQA.

1. Discriminative Methods (Classification)

- 좋은 성능을 제공하지만, 한정된, 매우 제한된 부분에 대한 부분만 다룹니다.

+ 분류는 n개의 옵션에서 하나를 고르는 역할이기에, 모델의 표현력을 제한 할 수도 있음.

++ limitation: 위의 내용을 바탕으로 맞춤형 답변 세트가 추론 시 제공되는 경우, 표현력 저하로 이를 완화할 필요 존재.

- 최적화 문제: 일반적인 용도의 생물의학 보조기구를 개발하는 목표에는 부적합할 수 있음,

- real-world problem에 답변하는 능력이 제한.

2. Generative Methods (Similar to chatbot)

- 자유 형식 텍스트 시퀀스로 답변을 예측하도록 개발.
- close-set (특정 답변) 데이터를 조금 더 유연하게 사용할 수 있다.

- Text intruction 내 후보 답변으로 취급하는 특별한 경우로 자연스럽게 캐스팅할 수 있어 더 다양한 사용이 가능합니다.
- 생성 방법은 더 많은 유연성을 제공하며, 다양한 형태의 질문에 대응할 수 있는 잠재력을 갖추고 있음.

→ 따라서 Generative 형식으로 답변을 할 수 있게 개발.

3. 모델 구조.

- Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models논문 참조 [41]

- 학습 가능한 모듈이 고정된 이미지 인코더와 causeal 언어 모델을 연결 (이미지 참조)

- Mapper: 3-layer MLP network

- Language model으로는 LLaVA (7B)를 사용.

- 위의 41번 논문은 supervised learning을 통한 fine-tuning 그리고, 다양한 모델링 선택을 탐구하는 데 초점

- But, LLaVA-Med의 주요 기여는 새로운 데이터 생성 방법을 제안하는 데 있음.

++ GPT-4를 사용하여 PubMed 에서 뽑아낸 데이터를 바탕으로 자율적으로 Bio-medical Multi modal text instruciton 생성

3. Biomedical Visual Instruction-Following Data

- Human과 Assistant의 차이점을 기술한 위의 수식이다. LLaVA와 매우 유사한 형태이다.

- 인간은 이미지 정보를 필요로 하지만 Assistant는 GPT-4를 활용하여 이러한 점이 필요가 없다는 점이다.

- Xc, 즉 associated caption을 얻기 위해서는 아래와 같은 질문을 활용했다.

- 의료 분야라는 단점으로 인해 GPT-4의 Xc가 짧게 제공할 수 있다는 단점이 존재하여, 이미지에 대한 더 많은 Context를 제공하기 위해 Xc뿐만 아니라 이미지를 언급한 원본 PubMed 논문의 문장도 포함하는 프롬프트를 제공.

- 우측의 하늘색 부분이 언급된 부분에 대한 논문의 설명이다.

- LLaVA와 마찬가지로 context를 만들기 위한 Image data는 들어가지 않는다.

4. Dataset information

- biomedical multimodal instruction은 위와 같이 구성되어있다.

Training Objective

Stage 1: Biomedical Concept Feature Alignment
- 생물의학 개념과 특징을 언어 모델과 맞추기 위해 시행.
- PMC-15M 데이터셋에서 600K Image-text쌍을 필터링하여 간단한 지시 데이터로 변환. (이미지 설명 작업 만 제시)
- Process:Visual encoder and Langauge mdoel weight freezing, Only Projection matrix update

- Results: 이미지 특징이 사전 훈련된 언어 모델의 텍스트 단어 임베딩과 일치하도록 조정

++ Bio-medical 도메인의 이미지-텍스트 토큰 어휘를 확장합니다.

Stage 2: End-to-End Instruction-Tuning (GPT-4 가지고 만든 instruction 적용)
- 모델이 다양한 지시를 따르고 대화식으로 작업을 완수할 수 있도록 훈련.
- BioMedical Language-Image Text instruction 데이터를 사용하여 모델 fine-tuning
- LLaVA-Med 모델은 사용자와 상호작용하는 생물의학 시각 보조기구로 사용될 뿐만 아니라, 생물의학 VQA 데이터셋에서 제로샷 작업 전이 성능이 좋음.

3. Fine-tuning to Downstream Datasets
- 특정 BioMedical dataset에 대해 매우 정확하게 맞추는 작업.

- Stage 2 훈련 후, 세 개의 생물의학 VQA 데이터셋에서 LLaVA-Med를 한번 더 fine-tuning 진행.

- 자연어 질문에 대해 자유 형식 텍스트로 응답하고,분류질문에 대해서는 프롬프트에서 구성된 후보 답변 목록을 제공.

4. Discussion
- 데이터 또는 모델 확장보다는 저렴하고 합리적인 솔루션 제공에 초점.

- 다양한 도메인 적용 가능성: 생물의학뿐만 아니라 게임, 교육 등 다른 수직 도메인에도 일반화 가능.
- 서비스 비용: 일반적인 대형 다중모달 모델에 비해 맞춤형 LMM은 서비스 비용이 낮음.
- 아키텍처는 BioMedCLIP이나 Vicuna로부터 비전 인코더나 언어 모델을 초기화할 수 있어 성능을 향상가능.

'Deep Learning (Computer Vision) > Multi Modality' 카테고리의 다른 글

[Technical report: Gemini 요약] A Family of Highly Capable Multimodal Models (2)	2024.04.19
[LLaVA 논문 정리] - Visual Instruction Tuning (3)	2024.04.16
[논문 정리 - ALBEF] Align before Fuse: Vision and LanguageRepresentation Learning with Momentum Distillation (1)	2024.01.27
[좀 깊은 MAE-CLIP 논문 분석] - Masked Autoencoding Does Not Help Natural Language Supervision at Scale (6)	2023.11.13
논문 톺아보기 [IMAGEBIND]: One Embedding Space To Bind Them All (0)	2023.10.22

Deep Learning Post

[논문 정리 LLaVA-Med] Training a Large Language-and-VisionAssistant for Biomedicine in One Day

Abstract.

Introduction

Related work.

3. Biomedical Visual Instruction-Following Data

4. Dataset information

Training Objective

'Deep Learning (Computer Vision) > Multi Modality' 카테고리의 다른 글

티스토리툴바

[논문 정리 LLaVA-Med] Training a Large Language-and-VisionAssistant for Biomedicine in One Day

Abstract.

Introduction

Related work.

3. Biomedical Visual Instruction-Following Data

4. Dataset information

Training Objective

'Deep Learning (Computer Vision) > Multi Modality' 카테고리의 다른 글

관련글

티스토리툴바