Multimodal | AI&GameDev

Ollama #5: LLaVA모델과 벡터DB를 활용한 멀티모달 스마트 이미지 검색 시스템

멀티모달 (multimodal) 기술은 텍스트, 이미지, 오디오 등 다양한 유형의 정보를 통합하여 처리합니다. 이 기술은 자율주행차, 로봇공학, 인공지능 분야에서 특히 유용하며 다양한 데이터 소스를 결합하여 보다 정확한 분석과 이해를 가능하게 합니다. 이번 포스팅에서는 Ollama에서 작동하는 LLaVA 모델을 활용하여 이미지를 텍스트 정보로 변환하고 이를 ChromaDB에 저장고 검색하는 기능을 구현해 보도록 하겠습니다. Ollama에 대한 내용은 Ollama #1: 비용 걱정 없이 내 컴퓨터에서 제약 […]