vLLM

고성능 추론 프레임워크와 Multi-GPU를 활용하여 고속으로 LLM을 실행할 수 있는 시스템 제공

iwinv 클라우드는 vLLM 프레임워크에서 고성능 LLM 추론 모델을 효율적으로 실행할 수 있는 멀티 GPU 서버 시스템을 제공합니다. 초고속 토큰 생성, 안정적인 모델 병렬화, 자동 메모리 최적화를 통해 LLM을 실시간 서비스에 활용할 수 있습니다.

고성능 LLM 지원

고성능 LLM 지원 Gemma, LLaMa 등 주요 오픈소스
모델에 최적화된 프레임워크에서 실행

비용 효율성

비용 효율성 LLM에 최적화된 Multi-GPU
기본 사양 및 고객 맞춤 사양 제공

전문 기술 제공

전문 기술 제공 LLM 및 응용 소프트웨어 기술적 지원
시스템 상시 기술지원

높은 보안성

높은 보안성 사용자 데이터 프라이버시 보호를 위한
분리된 서버 시스템 제공

Multi-GPU 기반의 강력한 프레임워크

활용 정보(Framework)

vLLM

vLLM은 LLM의 실시간 응답성과 효율적인 리소스 활용을 극대화한 고성능 추론/서빙 전용 프레임워크입니다. GPU 기반 인프라에서 초고속 토큰 생성, 메모리 최적화, 다중 요청 비동기 처리를 통해 최신 AI 애플리케이션에 최적화된 환경을 제공합니다. 수십 tok/s 이상의 속도와 낮은 지연 시간, 효율적인 메모리 활용을 바탕으로 다양한 AI 서비스에 빠르게 적용할 수 있습니다.

주요 특징
메모리 효율성: PagedAttention 기술로 VRAM 사용량을 줄이며, 긴 컨텍스트도 효과적으로 처리.
비동기 요청 처리: 요청을 비동기로 처리하고 배치 기술을 통해 GPU 자원을 효율적으로 운영.
확장성과 호환성: 단일/다중 GPU, 가상 머신, 베어메탈 등 다양한 환경에서 실행 가능.
GPU 최적화: FP16, BF16, CUDA 연산 최적화를 통해 높은 성능을 발휘.
관리자 제어 기능: 사용자 정의 설정, 모니터링, 동적 관리 기능 제공.
모델 및 인프라 지원: 한국어 LLM 지원과 함께 VM, 베어메탈 환경 등 다양한 배포 옵션 제공.

활용 영역
고성능 챗봇, 문서 요약, RAG 기반 질의응답 시스템
엔터프라이즈 AI 백엔드 서버
LLM 기반 SaaS 기능(API 제공형 서비스)
멀티 유저 환경의 실시간 응답 시스템

단위: 원(부가세 별도)

GPU 모델 배포 유형 테스트 결과 이용료
환경 실행 LLM Token/s(초) DRAM 사용량 VRAM 사용량
Nvidia RTX PRO 6000 가상서버 Nvidia RTX PRO6000 x 1
8vCPU / 60GB / 100GB SSD
vllm 0.9.1
GPT-OSS 120B 100.72 tok/s 63GB 63473MB 51,480원 1,390,000원
Nvidia RTX PRO6000 x 1
8vCPU / 60GB / 100GB SSD
vllm 0.9.1
Gemma3 27B 49.176 tok/s 17.6GB 19223MB 51,480원 1,390,000원
Nvidia RTX PRO6000 x 2
16vCPU / 120GB / 100GB SSD
vllm 0.9.1
Qwen3 235B 54.344 tok/s 134GB 68189MB 102,960원 2,780,000원

다양한 iwinv GPU 서버에서 LLM을 실행한 벤치마크 결과를 확인하고, 가장 적합한 하드웨어 자원을 선택할 수 있습니다.

테스트는 NGC 공식 컨테이너 nvcr.io/nvidia/pytorch:25.06-py3 환경에서 수행되었습니다. 본 결과 공개는 NVIDIA의 “Deep Learning Containers – Benchmarking” 문서에 따른 예외 조항에 근거합니다. 테스트 결과는 자사가 직접 실험한 수치로, NVIDIA의 공식 성능과 무관하며, 미세한 환경 차이에 따라 결과는 다를 수 있으니 참고용 데이터로 활용하시기 바랍니다.

LLM 정보

LLM 실행 시 CPU-GPU 혼합 사용은 효율성 향상에 필수적입니다. 모델 규모와 추론 프레임워크에 따라 적절한 GPU 및 메모리 사양이 달라지며, 양자화 모델의 경우 아래 가이드를 참고하시기 바랍니다.

LLM 모델 매개변수 컨텍스트 길이
(tokens)
성능(능력) 바로가기
gpt-oss 20B 128K - o3-mini보다 우수하며 o4-mini와 거의 동등한 수준의 추론 능력 보유
- 수학, 일반 문제해결, 도구 호출 등에서 뛰어난 성능 발휘
- MMLU, HLE 등 언어(이해/추론/작문) 능력 상위 수준
Ollama Hugging Face
120B Ollama Hugging Face
Qwen3 30B 32K - 코드·수학·추론 등에서 상위 모델보다 뛰어난 MoE 아키텍처 적용
- 119개 국 다국어 지원 모델로써 한국어 처리 성능 우수
- 빠른 답변 속도와 향상된 코드 생성 능력 제공
Ollama Hugging Face
32B Ollama Hugging Face
235B Ollama Hugging Face
DeepSeek-R1 7B 128K - 계산, 코딩, 응답 품질 등 GPT-4 이상 수준의 우수한 성능
- 중국어 및 영어에 능통, 준수한 한국어 이해도 및 응답 성능
Ollama Hugging Face
14B Ollama Hugging Face
70B Ollama Hugging Face
671B Ollama Hugging Face
Gemma3 12B input : 128K
output : 8192
- 경량화 기반 메모리 효율성 우수
- GPT-3.5 기반의 안정적 성능
- 다국어 지원 모델로써 한국어 처리 성능 우수
Ollama Hugging Face
27B Ollama Hugging Face
Llama4 - Scout 17B 10M - 최대 10M 토큰의 초장기 문맥 유지 가능
- 긴 문서 요약, 지속 대화 성능, 코드베이스 분석에 특화(정밀 추론 성능은 일반적)
- 영어 중심 설계, 한국어 성능 다소 낮음
Ollama Hugging Face
Llama3.3 70B 128K - GPT-4 Turbo급 고성능 추론 및 대화 가능
- 추론, 대화, 코딩, 지식 응답 성능 우수
- 다국어 학습 기반 모델, 한국어 성능 준수
Ollama Hugging Face
Llama3.2 11B 128K - 경량 모델 대비 뛰어난 코딩 처리 성능 및 우수한 안정성
- 다국어 학습 기반 모델, 한국어 성능 일부 한계 존재
Ollama Hugging Face
90B - GPT-4 Turbo급 대화, 추론, 지식 응답 가능
- 대규모 파라미터 기반의 다국어 학습, 한국어 대응력 우수
Ollama Hugging Face
Phi4 14B 32K - 빠른 응답 속도, GPT-3.5급 논리 추론, 요약 가능
- 경량화에 최적화된 모델
- 한국어의 정확도, 유창성 다소 낮음
Ollama Hugging Face
HyperCLOVA X SEED 1.5B 16K - 온디바이스 및 저사양 환경에 최적화된 경량 모델
- GPT-3.5 계열 소형 모델 수준의 정확도 및 안정성
- 한국어 기반 지시어 및 질문 응답 성능 매우 우수
Hugging Face
3B Hugging Face

모델 크기별 요구 사양 가이드 (양자화 LLM Q4 기준)

모델 매개변수 DRAM 최소 사양 실행 환경
초소형 ~ 2B 파라미터 4 ~ 8GB 노트북 수준의 GPU 또는 일부 CPU-only 환경에서도 실행 가능
소형 2B ~ 10B 파라미터 8 ~ 16GB 일반 소비자용 GPU 가능 4090 등
중형 10B ~ 20B 파라미터 16 ~ 32GB 4000Ada 이상 또는 RTX 4090/5090 Multi-GPU 구성
대형 20B ~ 70B 파라미터 32 ~ 128GB A6000, PRO5000 Multi-GPU 구성
초대형 70B ~ 파라미터 128GB 이상 PRO6000 Multi-GPU 구성 이상

- VRAM과 DRAM 조합 용량을 LLM 크기보다 더 높게 설정하시기 바랍니다. (약 1.2배)
- DeepSeek-R1 671B는 위 가이드와 달리 일반 소비자용 GPU(4090 등)에서 DRAM 1TB 구성 시 실행 가능합니다.
- LLM 및 소프트웨어를 사용하기 전 라이선스 및 이용약관 규정을 확인하시기 바랍니다.

AI 기반의 분석 및 시각화 서비스를 제공하는 Artificial Analysis 에서 LLM에 대한 더 다양한 자료를 참고할 수 있습니다. (해당 사이트는 정보 제공을 목적으로 공유하며, 스마일서브와는 무관합니다.)

GPU 사양 정보

iwinv GPU 서버는 GPU Pass-through로 할당되는 가상 서버, 즉시 활용 가능한 온디맨드 베어메탈 서버, 원하는 사양으로 직접 구성하는 맞춤형 GPU 서버 중 선택할 수 있습니다. 사용 목적 및 예산에 맞춰 인프라 자원을 자유롭게 선택하시기 바랍니다.

가상서버(Virtual Machine)

단위: 원(부가세 별도)

GPU Type 상품명 제공사양 AI 프레임워크 이용료
GPU vCPU Memory Storage(OS) Traffic
Tesla T4
(CUDA: 2,560)
IDC Opt.
LLM Ready
T4.G1 1 6 76GB
(DRAM 60GB + VRAM 16GB)
SSD 100GB 20 GB/일
(월 600 GB)

*초과 시
구간 요금제 적용
LLM 용

Ollama
&
vLLM
6,260원 169,000원
T4.G2 2 12 152GB
(DRAM 120GB + VRAM 32GB)
12,520원 338,000원
T4.G4 4 24 304GB
(DRAM 240GB + VRAM 64GB)
25,040원 676,000원
4000Ada
(CUDA: 6,144)
IDC Opt.
LLM Ready
4000Ada.G1 1 8 80GB
(DRAM 60GB + VRAM 20GB)
9,200원 248,500원
4000Ada.G2 2 16 160GB
(DRAM 120GB + VRAM 40GB)
18,400원 495,000원
4000Ada.G4 4 32 320GB
(DRAM 240GB + VRAM 80GB)
36,700원 990,000원
A6000
(CUDA: 10,752)
IDC Opt.
LLM Ready
A6000.G1 1 8 108GB
(DRAM 60GB + VRAM 48GB)
18,200원 490,000원
A6000.G2 2 16 216GB
(DRAM 120GB + VRAM 96GB)
36,300원 980,000원
A6000.G4 4 32 432GB
(DRAM 240GB + VRAM 192GB)
72,600원 1,960,000원
PRO5000
(CUDA: 14,080)
IDC Opt.
LLM Ready
New
PRO5000.G1 1 8 108GB
(DRAM 60GB + VRAM 48GB)
준비중
(상세 사양 변경될 수 있음)
PRO5000.G2 2 16 216GB
(DRAM 120GB + VRAM 96GB)
PRO5000.G4 4 32 432GB
(DRAM 240GB + VRAM 192GB)
PRO6000
(CUDA: 24,064)
IDC Opt.
LLM Ready
New
PRO6000.G1 1 8 216GB
(DRAM 120GB + VRAM 96GB)
51,480원 1,390,000원
PRO6000.G2 2 16 432GB
(DRAM 240GB + VRAM 192GB)
102,960원 2,780,000원
PRO6000.G4 4 32 864GB
(DRAM 480GB + VRAM 384GB)
205,920원 5,560,000원

신청 가능 존: KR1-Z07(Tesla T4, RTX 4000 Ada, A600), KR1-Z09(PRO6000)

신청하기

맞춤 서버(Custom Dedicated Server)

단위: 원(부가세 별도)

지원 소프트웨어 GPU CPU RAM Storage LAN/Chassis/PSU 금액
Ollama, vLLM 최대 4개 장착 가능
- AMD : w6800, 9700
- NVIDIA : 4000Ada, A6000, 6000Ada
                    PRO5000, PRO6000
                    4090 blower
1 x Xeon Silver 4314
(16C/32T)
8 x 16~64GB
(DDR4)
SSD, NVMe
- 내부: 2 x PCIe3.0 x2, 1 x SATA3(2.5")
- 외부: 8 x SATA3(2.5"/3.5") Hot-swap
LAN
- 4 x 2.5Gbps(RJ45, Ethernet 전용)
- 1 x IPMI 전용(RJ45)
- 최대 2port 10Gbps NIC 장착 가능 (3GPU 이하 시)
Chassis
- SMILE Barebone4U
PSU
- ATX [2000/2500]W Single
견적 문의
최대 8개 장착 가능
- AMD : w6800, 9700
- NVIDIA : 4000Ada, A6000, 6000ada
                    PRO5000, PRO6000
                    4090 blower
2 x Xeon Silver 4314
(32C/64T)
32 x 16~64GB
(DDR4)
SSD, NVMe
- 내부: 1 x PCIe3.0 x4
- 외부: 12 x SATA3(2.5"/3.5") Hot-swap
LAN
- 2 x 1Gbps(RJ45, Ethernet 전용)
- 1 x IPMI 전용(RJ45)
- 최대 2port 10Gbps NIC 장착 가능
Chassis
- Tyan GPU B7129F83AV8E4HR-N-HE
PSU
- 6000W(3+1 2,000W RPSU, 80+ Platinum)
- 4800W(3+1 1,600W RPSU, 80+ Platinum)
견적 문의

문의: 1688-4879(영업)

GPU 사양 비교

제조사 AMD NVIDIA
모델 RX9060XT W6800 9700 PRO6000 PRO5000 A6000 4000Ada RTX 4090 Tesla T4
아키텍처 AMD RDNA™ 4 AMD RDNA™ 2 AMD RDNA™ 4 Blackwell Blackwell Ampere Ada Lovelace Turing
GPU 메모리 16GB
(GDDR6)
32GB
(GDDR6 ECC)
32GB
(GDDR6 ECC)
96GB
(GDDR7 ECC)
48GB
(GDDR7 ECC)
48GB
(GDDR6 ECC)
20GB
(GDDR6 ECC)
24GB
(GDDR6X)
16GB
(GDDR6)
GPU 메모리
대역폭
320 GB/s 512 GB/s 640 GB/s 1,792 GB/s 1,344 GB/s 768 GB/s 448 GB/s 1,008 GB/s 320 GB/s
CUDA 2,048 3,840 4,096 24,064 14,080 10,752 6,144 16,384 2,560
FP32 25.6 TFLOPs 17.83 TFLOPS 47.8 TFLOPS 110 TFLOPS 73.2 TFLOPS 38.7 TFLOPS 30 TFLOPS 82.6 TFLOPS 8.1 TFLOPS
TDP 160W 250W 300W 300W 300W 300W 130W 450W 70W

신청 방법

iwinv GPU 서버에서 LLM을 실행할 수 있는 방법을 아래 단계별로 손쉽게 따라하실 수 있습니다. (신청 매뉴얼 바로가기)

신청 방법

매뉴얼

아래 가이드를 통해 보다 쉽게 이용할 수 있습니다.