AI&GameDev

AI와 게임개발에 관련된 이야기

DeepSeek Janus Series : 오픈소스 멀티모달 AI 모델 분석 및 Pro 7B 테스트

DeepSeek Janus Series

DeepSeek Janus Series는 DeepSeek에서 개발한 최신 멀티모달 AI 모델로, 텍스트와 이미지를 모두 처리하여 풍부한 정보를 이해하고 생성할 수 있습니다. Janus-ProJanusJanusFlow 등의 모델이 공개되었으며, 모두 오픈소스로 무료 사용이 가능합니다. 특히 대규모 데이터로 학습된 이 Open-Source Multimodal AI Model은 최적화된 아키텍처 설계를 통해 이미지 이해 및 생성, 텍스트-이미지 간 상호 작용 등 다양한 기능을 지원합니다.

DeepSeek의 이전 프로젝트인 DeepSeek-R1에 대한 자세한 내용은 DeepSeek R1 모델 소개: OpenAI API 호환성과 Langchain 통합 가이드에서 확인할 수 있습니다.

Janus Series: 혁신적인 멀티모달 AI 모델

DeepSeek이 공개한 Janus Series는 통합 멀티모달 AI 모델로서, 이미지 이해와 이미지 생성이 가능한 것이 특징입니다. 기존 LAVA 등과 같은 모델 대비 우수한 성능을 보이며, 거대한 데이터세트를 통해 학습되어 다양한 작업에서 높은 정확도를 제공합니다.

Janus-Pro-7B Performance와 시리즈 구성

  1. Janus-Pro (7B, 1B)
    • 대규모 파라미터를 기반으로 뛰어난 멀티모달 이해와 고품질 이미지 생성을 지원합니다
    • 데이터와 모델 스케일링을 통해 이전 버전보다 성능이 크게 향상되었습니다
  2. Janus (1.3B)
    • 기본 통합 멀티모달 이해/생성 프레임워크를 제공합니다
    • 단순하지만 효율적인 구조로 다양한 용도에 활용이 가능합니다
  3. JanusFlow (1.3B)
    • 자동회귀(Autoregression)와 교정 흐름(Rectified Flow)을 결합한 모델입니다
    • 이미지 생성 품질 및 안정성을 높이는 새로운 접근법을 제시합니다

주요 특징과 성능

  • 이미지 이해 + 생성: 단일 모델로 이미지 분석(예: 캡션, 개체 인식)과 Text-to-Image Generation AI 기능을 모두 수행합니다
  • 시각 인코딩 분리: 이해와 생성 단계에서의 충돌을 줄이고, 유연성을 극대화합니다
  • 오픈소스 공개: GitHub와 Hugging Face를 통해 무료 사용이 가능합니다
  • MIT 라이선스(코드) + DeepSeek 모델 라이선스(모델): 상업적 용도도 가능합니다(라이선스 동의 필요)
  • 성능: 영어 환경에서 정확도가 특히 높으며, 한글 등 기타 언어는 점진적으로 개선되고 있습니다

GitHub 및 테스트 페이지

GitHub – deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models
테스트할 수 있는 Huggingface 페이지

DeepSeek Janus Series

로컬 환경에서 Janus-Pro-7B 실행하기

준비 및 실행

  1. 환경 요구사항: Python 3.8 이상 / VRAM 24GB 이상 (RTX 3090 등)
  2. GitHub 저장소 클론:
git clone https://github.com/deepseek-ai/Janus.git
cd Janus
  1. 라이브러리 설치:
pip install --upgrade pip
pip install -e .
  • Gradio(Web UI) 실행에 필요한 라이브러리 설치:
    bash pip install -e .[gradio]
  1. Gradio 실행:
python demo/app_januspro.py
  • 브라우저에서 http://127.0.0.1:7860에 접속하여 멀티모달 대화를 시도할 수 있습니다
  • 혹은 gradio에서 생성하는 Public URL을 통해 테스트가 가능합니다
    모델을 다운로드한 후에 실행됩니다
Install Janus-Pro-7B

설치 중 발생 가능한 오류 (예: SentencePiece)

  1. 에러 메시지
    현재(2025년01월31일) 라이브러리 설치 중 다음과 같은 에러가 발생할 수 있습니다.
ERROR: Failed to build installable wheels for some pyproject.toml based projects (sentencepiece)
  1. 해결방법
    pyproject.toml에서 SentencePiece 버전을 변경한 뒤 재설치합니다.
    # 다음 코드를 찾아 버전 수정
    # "SentencePiece==0.1.96"
    "SentencePiece==0.2.0"

GPU 지원 PyTorch

GitHub에서 제공하는 방법으로 진행하는 경우 GPU를 사용하지 않는 방식으로 실행됩니다. CPU를 사용하는 PyTorch를 제거하고 CUDA 지원 PyTorch를 설치합니다.

기존 PyTorch를 제거합니다.

pip uninstall torch torchvision torchaudio

필자는 현재 RTX 3090과 CUDA 12.7을 사용 중이므로 호환되는 PyTorch 버전을 설치합니다

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

AI Image Generation과 기능 테스트 분석

멀티모달 이해 (Multimodal Understanding)

이미지를 업로드하고 질문하면, 모델이 이미지에 대한 텍스트 설명을 제공합니다.

Janus-Pro-7B Performance

한글 테스트 결과

동일한 이미지를 한글로 테스트한 결과, 응답의 정확도가 현저히 저하되는 현상이 발생했습니다.

Question : “이미지 설명”
Response : “이미지에서는 원유 물질을 뜨거운 컵으로 채워진 카펠 조각이 먹을 수 있는 칸에 있습니다. 칸은 두 개의 벽로 구성되어 있으며, 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 벽에는 두 개의 벽 오른쪽 �”

분석 결과

영문 환경에서는 우수한 품질의 이미지 설명 능력을 보여주었습니다. 그러나 한글 환경에서는 응답의 정확도와 일관성이 보장되지 않아, 현재로서는 영문 환경에서의 사용이 권장됩니다.

Text-to-Image Generation AI 성능 평가

  • Janus(-Pro, -Flow)에서 제공하는 Text-to-Image 기능으로 간단한 프롬프트 입력을 통해 이미지를 생성할 수 있습니다.
  • 단일 이미지 생성 시 약 15초 정도 소요되고 5장 동시 생성 시 100초 이상이 소요됩니다. (RTX 3090 기준)
  • 생성된 이미지의 품질은 현재 상용 모델 대비 개선의 여지가 있으나, 경우에 따라 기본적인 활용에는 충분한 수준을 보여줍니다.
    동일한 페이지의 하단에 Text-to-Image Generation 부분에서 이미지 생성을 테스트할 수 있습니다.
Open-Source Multimodal AI Model

예제 프롬프트

Prompt

A cute and adorable baby fox with big brown eyes, autumn leaves in the background enchanting,immortal,fluffy, shiny mane,Petals,fairyism,unreal engine 5 and Octane Render,highly detailed, photorealistic, cinematic, natural colors.
Text-to-Image Generation AI

테스트 #1

Prompt

Meerkat wandering lonely foraging in snowy city center
Text-to-Image Generation AI

테스트 #2

Prompt

Image in line art style. Munchkin cat using laptop.
Text-to-Image Generation AI

라이선스

상업적 용도 또한 허용되나, 라이선스 조항을 반드시 준수해야 합니다.

결론: Open-Source Multimodal AI Model의 전망

Hugging Face의 데모 환경과 로컬 환경에서의 테스트를 통해 Janus Series의 실제 성능을 검증해보았습니다. Text-to-Image Generation AI의 현재 품질은 개선의 여지가 있으나, 실무 활용 가능성은 충분히 확인되었습니다.

DeepSeek에서 V3, R1 등 다양한 프로젝트를 선보인 후, 이미지 생성·이해 분야의 통합 모델을 공개한 점은 주목할 만한 성과입니다. 다양한 모델 라인업과 MIT 라이선스 채택은 개발자와 연구자들에게 상당한 이점을 제공할 것으로 평가됩니다.

중국의 오픈소스 AI 모델 개발 동향은 글로벌 AI 생태계에서 중요한 의미를 가집니다. 향후 중국의 AI 기술 혁신은 더욱 가속화될 것으로 전망되며, Janus Series와 같은 모델들의 적극적인 활용이 프로젝트나 연구의 경쟁력 향상에 기여할 것으로 예상됩니다.

설치 및 환경 구성 과정의 복잡성에도 불구하고, 실제 구현 시 신속한 결과 확인이 가능했습니다. 향후 한국어 지원 강화와 기능 확장이 이루어진다면, 더욱 폭넓은 산업 분야에서의 적용이 기대됩니다.

DeepSeek Janus Series : 오픈소스 멀티모달 AI 모델 분석 및 Pro 7B 테스트

답글 남기기

Scroll to top