Deep Learning Post

Deep Learning Paper Review

[논문 정리 LLaVA-Med] Training a Large Language-and-VisionAssistant for Biomedicine in One Day LLaVA에 이어서 LLaVA-Med도 정리해야지. 제목: LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day 저자: Chunyuan Li et al. 인용: 136 (2024.04.19) 학회: NIPS2023 링크: https://arxiv.org/abs/2306.00890 Abstract. 1. chatboot AI의 멀티모달 격차: - 현재 대화형 AI 기술은 Bio-medical 분야에서 가능성을 보여주지만, 주로 단일 모드(텍스트 전용) context 전용 - Bio-medical image를 이해하고 대화할 수 있는 정교한 도구가 부족. 2. 대규모 데이터 세트 + GPT-4를 이용한 새로운 .. 2024.04.19
[Technical report: Gemini 요약] A Family of Highly Capable Multimodal Models Google for developers 에서 진행하는 ML Reading CLUB에 참여해 다양한 구글의 ML chatboot? LLM 모델을 읽어보고 각자 리뷰하는 시간을 가졌다. 1주차에는 Gemini 논문을 읽었고 추후에 2,3주차는 Gemma, Gemini-1.5를 리뷰할 계획이다. 원래라면 한번 읽어보고 생각을 공유하는 정도에서 마무리하려고 했는데, 다른분들이 내가 생각하는 내용과 다른 부분을 매우 꼼꼼하게 생각해주셔서, 그냥 잊어버리기엔 아깝다라는 생각과, 그리고 좀만 다음은 후, 정리를 해두면 나중에 오타와 대학과의 공동 저널클럽에서 한번 다룰 수 있지 않을까 싶어서 정리해두려고 한다. 영상: https://www.youtube.com/watch?v=CiVA8PmR2Do 제목: Gemini:.. 2024.04.19
[LLaVA 논문 정리] - Visual Instruction Tuning ACM Multi-media에 논문을 내고, 요즘 멀티 모달에 관심이 생기고 활용하고 싶다는 생각이 들어 여러가지를 하게 됐다. 의료 분야에서의 쓸만한 Multi-modality논문이 뭐가 있을까 보다가 적절하게 활용할만하다 생각이 드는 논문이 들어 정리까지 해보려고 한다. 확실히 정리를 하는게 도움이 되지만, 뭐랄까 너무 시간 소모가 심하달까,, 그래도 이 LLaVA는 한번 정리해두면 잘 쓸 것 같아서 정리도 해보려고 한다. 서론은 여기까지 하고, 본론으로 들어가면 Hugging Face에 꾸준하게 업데이트를 진행하고 있는 이 LLaVA이다. 사용법도 간단하니 Pre-trained model을 사용해보고 싶다면 HuggingFace를 들어가서 직접 해보는 것을 추천한다. [깃허브] [Hugging Fa.. 2024.04.16

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Deep Learning Post

Deep Learning Paper Review

YOLO

CS229 Review

CS224 Natural Language Understanding

Contrastive Learning

Sleep

Mask Image Modeling

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역