iwinv 클라우드는 고성능 GPU 없이도 한국어 중심(다국어 포함)의 LLM을 손쉽게 실행할 수 있는 경량 AI 추론 시스템을 제공합니다. 4bit/8bit 양자화된 LLM을 적은 VRAM 환경에서도 복잡한 설치 없이 실행할 수 있는 Ollama와 Ktransformers를 지원하며, CPU와 GPU 1개를 혼합 활용할 수 있는 가상/물리 서버 환경도 제공합니다.
활용 정보(Framework)
iwinv GPU 서버는 대규모 언어 모델(LLM)을 실행할 수 있는 최적화된 사양을 제공합니다. LLM에 효율을 높일 수 있는 Ollama와 KTransformers로 AI 챗봇과 다양한 서비스를 구축할 수 있습니다.
* 지능형 챗봇 플랫폼 및 생성형 API 시스템
* RAG 및 검색 기반 AI 서비스
* 블록체인 및 AI 연계한 DApp 수행
* 사용자 경험(UX) 및 비주얼 데이터 최적화 서비스
Ollama는 LLM을 간소화된 환경에서 실행할 수 있도록 설계된 경량 플랫폼입니다. 이 플랫폼은 VM이나 저사양 서버에서 4bit 및 8bit로 양자화된 주요 오픈소스 모델을 단일 명령어로 로드하고 추론할 수 있는 빠른 실행 환경을 제공합니다.
LLM을 효과적으로 실행하려면 모델 크기와 계산 정밀도에 따라 GPU VRAM 용량의 요구 사항이 달라집니다. 특히 모델 자체뿐만 아니라 입력 데이터를 저장할 때 추가적인 메모리가 필요하므로 모델 크기보다 약간 더 큰 VRAM 용량을 갖추는 것이 권장됩니다.
iwinv에서 최저가로 제공하는 고성능 AMD Radeon Pro W6800 모델은 Ollama가 공식 지원하는 GPU입니다. Ollama 엔진에서 실행할 수 있는 LLM 정보와 기능은 Ollama 홈페이지에서 자세히 확인할 수 있습니다.
단위: 원(부가세 별도)
LLM | 모델 크기 | 컨텍스트 길이 | 배포 유형 | 테스트 결과 | 이용료(월) | |||
---|---|---|---|---|---|---|---|---|
환경 | Token/s(초) | DRAM 사용량 | VRAM 사용량 | |||||
Gemma3 27B (Q4_K_M) |
17GB | 128K | 베어메탈 서버 |
Radeon Pro w6800(32GB) x1 16vCPU / 64GB / 1TB SSD ollama v 0.9.0 |
16.85 tok/s | 2.4GB | 20.6GB | 199,000원 |
가상 서버 |
Nvidia RTX PRO 6000 x 1 16vCPU / 120GB / 100GB SSD vllm 0.9.1 |
49.176 tok/s | 17.6GB | 19223MB | 1,390,000원 | |||
베어메탈 서버 |
AMD APU RDNA3 780M 16vCPU / 32GB / 512GB SSD ollama v 0.9.0 |
1.517 tok/s | 19.7GB | 8GB | 75,000원 |
iwinv GPU 서버에서 LLM을 실행한 벤치마크 결과를 확인하고, 가장 적합한 하드웨어 자원을 선택할 수 있습니다.
NVIDIA
NVIDIA Tesla T4
NVIDIA RTX 4000Ada
NVIDIA RTX A6000
NVIDIA RTX PRO 5000 - 준비중
NVIDIA RTX PRO 6000
AMD
AMD Radeon RX 9060XT
AMD Radeon Pro w6800
AMD AI GPU K6 BMv1(내장GPU)
AMD AI PRO 9700 - 준비중
테스트는 NGC 공식 컨테이너 nvcr.io/nvidia/pytorch:25.06-py3 환경에서 수행되었습니다. 본 결과 공개는 NVIDIA의 “Deep Learning Containers – Benchmarking” 문서에 따른 예외 조항에 근거합니다. 테스트 결과는 자사가 직접 실험한 수치로, NVIDIA의 공식 성능과 무관하며, 미세한 환경 차이에 따라 결과는 다를 수 있으니 참고용 데이터로 활용하시기 바랍니다.
Ktransformers는 DeepSeek-R1 671B 초대형 언어 모델을 실행할 수 있는 프레임워크입니다. 수억원 대 NVIDIA 최상급 Multi-GPU 시스템에서나 실행할 수 있었던 DeepSeek-R1 671B를 Ktransformers를 통해 가벼운 성능에서도 쉽게 구동할 수 있습니다.

DeepSeek-R1은 수학, 코드, 추론 작업 전반에서 OpenAI-o1과 유사한 수준의 성능을 제공합니다.
단위: 원(부가세 별도)
LLM 모델 | 모델 크기 | 컨텍스트 길이 | 배포 유형 | 테스트 결과 | 이용료(월) | |||
---|---|---|---|---|---|---|---|---|
환경 | Token/s(초) | DRAM 사용량 | VRAM 사용량 | |||||
DeepSeek-R1 671B (Q4_K_M) |
377GB | 128K | GPU 맞춤 서버 |
NVIDIA RTX 4000Ada(20GB) x1 / 2 x Intel Xeon 4510 Silver(24C/48T) / DDR5 1TB / 2 x 1TB SSD / Ktransformers v0.3.1-20-gdcba29b |
9.22tok/s | 738GB | 10.8GB | 견적 문의 |
NVIDIA RTX 6000Ada(20GB) x1 / 2 x Intel Xeon 4510 Silver(24C/48T) / DDR5 1TB / 2 x 1TB SSD / Ktransformers v0.3.1-20-gdcba29b |
7.49tok/s | - | 11GB | 견적 문의 |
다양한 GPU에서 DeepSeek-R1을 실행한 벤치마크 결과를 확인할 수 있습니다.
DeepSeek-R1 671B
테스트는 NGC 공식 컨테이너 nvcr.io/nvidia/pytorch:25.06-py3 환경에서 수행되었습니다. 본 결과 공개는 NVIDIA의 “Deep Learning Containers – Benchmarking” 문서에 따른 예외 조항에 근거합니다. 테스트 결과는 자사가 직접 실험한 수치로, NVIDIA의 공식 성능과 무관하며, 미세한 환경 차이에 따라 결과는 다를 수 있으니 참고용 데이터로 활용하시기 바랍니다.
LLM 정보
LLM 실행 시 CPU-GPU 혼합 사용은 효율성 향상에 필수적입니다. 모델 규모와 추론 프레임워크에 따라 적절한 GPU 및 메모리 사양이 달라지며, 양자화 모델의 경우 아래 가이드를 참고하시기 바랍니다.
LLM 모델 | 매개변수 | 컨텍스트 길이 (tokens) |
성능(능력) | 바로가기 |
---|---|---|---|---|
gpt-oss | 20B | 128K |
- o3-mini보다 우수하며 o4-mini와 거의 동등한 수준의 추론 능력 보유 - 수학, 일반 문제해결, 도구 호출 등에서 뛰어난 성능 발휘 - MMLU, HLE 등 언어(이해/추론/작문) 능력 상위 수준 |
Ollama Hugging Face |
120B | Ollama Hugging Face | |||
Qwen3 | 30B | 32K |
- 코드·수학·추론 등에서 상위 모델보다 뛰어난 MoE 아키텍처 적용 - 119개 국 다국어 지원 모델로써 한국어 처리 성능 우수 - 빠른 답변 속도와 향상된 코드 생성 능력 제공 |
Ollama Hugging Face |
32B | Ollama Hugging Face | |||
235B | Ollama Hugging Face | |||
DeepSeek-R1 | 7B | 128K |
- 계산, 코딩, 응답 품질 등 GPT-4 이상 수준의 우수한 성능 - 중국어 및 영어에 능통, 준수한 한국어 이해도 및 응답 성능 |
Ollama Hugging Face |
14B | Ollama Hugging Face | |||
70B | Ollama Hugging Face | |||
671B | Ollama Hugging Face | |||
Gemma3 | 12B | input : 128K output : 8192 |
- 경량화 기반 메모리 효율성 우수 - GPT-3.5 기반의 안정적 성능 - 다국어 지원 모델로써 한국어 처리 성능 우수 |
Ollama Hugging Face |
27B | Ollama Hugging Face | |||
Llama4 - Scout | 17B | 10M |
- 최대 10M 토큰의 초장기 문맥 유지 가능 - 긴 문서 요약, 지속 대화 성능, 코드베이스 분석에 특화(정밀 추론 성능은 일반적) - 영어 중심 설계, 한국어 성능 다소 낮음 |
Ollama Hugging Face |
Llama3.3 | 70B | 128K |
- GPT-4 Turbo급 고성능 추론 및 대화 가능 - 추론, 대화, 코딩, 지식 응답 성능 우수 - 다국어 학습 기반 모델, 한국어 성능 준수 |
Ollama Hugging Face |
Llama3.2 | 11B | 128K |
- 경량 모델 대비 뛰어난 코딩 처리 성능 및 우수한 안정성 - 다국어 학습 기반 모델, 한국어 성능 일부 한계 존재 |
Ollama Hugging Face |
90B |
- GPT-4 Turbo급 대화, 추론, 지식 응답 가능 - 대규모 파라미터 기반의 다국어 학습, 한국어 대응력 우수 |
Ollama Hugging Face | ||
Phi4 | 14B | 32K |
- 빠른 응답 속도, GPT-3.5급 논리 추론, 요약 가능 - 경량화에 최적화된 모델 - 한국어의 정확도, 유창성 다소 낮음 |
Ollama Hugging Face |
HyperCLOVA X SEED | 1.5B | 16K |
- 온디바이스 및 저사양 환경에 최적화된 경량 모델 - GPT-3.5 계열 소형 모델 수준의 정확도 및 안정성 - 한국어 기반 지시어 및 질문 응답 성능 매우 우수 |
Hugging Face |
3B | Hugging Face |
모델 크기별 요구 사양 가이드 (양자화 LLM Q4 기준)
모델 | 매개변수 | DRAM 최소 사양 | 실행 환경 |
---|---|---|---|
초소형 | ~ 2B 파라미터 | 4 ~ 8GB | 노트북 수준의 GPU 또는 일부 CPU-only 환경에서도 실행 가능 |
소형 | 2B ~ 10B 파라미터 | 8 ~ 16GB | 일반 소비자용 GPU 가능 4090 등 |
중형 | 10B ~ 20B 파라미터 | 16 ~ 32GB | 4000Ada 이상 또는 RTX 4090/5090 Multi-GPU 구성 |
대형 | 20B ~ 70B 파라미터 | 32 ~ 128GB | A6000, PRO5000 Multi-GPU 구성 |
초대형 | 70B ~ 파라미터 | 128GB 이상 | PRO6000 Multi-GPU 구성 이상 |
- VRAM과 DRAM 조합 용량을 LLM 크기보다 더 높게 설정하시기 바랍니다. (약 1.2배)
- DeepSeek-R1 671B는 위 가이드와 달리 일반 소비자용 GPU(4090 등)에서 DRAM 1TB 구성 시 실행 가능합니다.
- LLM 및 소프트웨어를 사용하기 전 라이선스 및 이용약관 규정을 확인하시기 바랍니다.
AI 기반의 분석 및 시각화 서비스를 제공하는 Artificial Analysis 에서 LLM에 대한 더 다양한 자료를 참고할 수 있습니다. (해당 사이트는 정보 제공을 목적으로 공유하며, 스마일서브와는 무관합니다.)
GPU 사양 정보
iwinv GPU 서버는 GPU Pass-through로 할당되는 가상 서버, 즉시 활용 가능한 온디맨드 베어메탈 서버, 원하는 사양으로 직접 구성하는 맞춤형 GPU 서버 중 선택할 수 있습니다. 사용 목적 및 예산에 맞춰 인프라 자원을 자유롭게 선택하시기 바랍니다.
CLOUDV에서 제공하는 AMD GPU 기반 Ollama 특화 베어메탈 서버는 고밀도 집적을 위한 전용 폼팩터와 합리적인 월 요금제로 고성능 LLM 환경을 제공합니다.
단위: 원(부가세 별도)
GPU Type | 상품명 | 제공사양 | 지원 프레임워크 | 이용료 | ||||
---|---|---|---|---|---|---|---|---|
GPU | CPU(Thread) | Memory | Storage(OS) | Traffic | 월 | |||
9060XT (Stream Processors: 2,048) LLM Ready New |
AMD AI 9060XT BMv1 | 1 | 16Thread | 80GB (DRAM 64GB + VRAM 16GB) |
SSD 500GB |
(전체) 월 2,400GB (해외) 월 50GB |
Ollama | 149,000원 |
W6800 (Stream Processors: 3,840) IDC Opt. LLM Ready New |
AMD AI W6800 BMv1 | 1 | 16Thread | 96GB (DRAM 64GB + VRAM 32GB) |
199,000원 | |||
AMD APU LLM Ready |
AMD AI GPU K6 BMv1 | 1 | 16Thread | 32GB (DRAM 24GB + VRAM 8GB) |
NVMe M.2 512GB |
75,000원 | ||
PRO 9700 (Stream Processors: 4,096) IDC Opt. LLM Ready New |
AMD AI PRO9700 BMv1 | 1 | 16Thread | 96GB (DRAM 64GB + VRAM 32GB) |
SSD 500GB | 준비중 |
가상서버(Virtual Machine)
단위: 원(부가세 별도)
GPU Type | 상품명 | 제공사양 | AI 프레임워크 | 이용료 | |||||
---|---|---|---|---|---|---|---|---|---|
GPU | vCPU | Memory | Storage(OS) | Traffic | 일 | 월 | |||
Tesla T4 (CUDA: 2,560) IDC Opt. LLM Ready |
T4.G1 | 1 | 6 | 76GB (DRAM 60GB + VRAM 16GB) |
SSD 100GB |
20 GB/일 (월 600 GB) *초과 시 구간 요금제 적용 |
LLM 용 Ollama & vLLM |
6,260원 | 169,000원 |
T4.G2 | 2 | 12 | 152GB (DRAM 120GB + VRAM 32GB) |
12,520원 | 338,000원 | ||||
T4.G4 | 4 | 24 | 304GB (DRAM 240GB + VRAM 64GB) |
25,040원 | 676,000원 | ||||
4000Ada (CUDA: 6,144) IDC Opt. LLM Ready |
4000Ada.G1 | 1 | 8 | 80GB (DRAM 60GB + VRAM 20GB) |
9,200원 | 248,500원 | |||
4000Ada.G2 | 2 | 16 | 160GB (DRAM 120GB + VRAM 40GB) |
18,400원 | 495,000원 | ||||
4000Ada.G4 | 4 | 32 | 320GB (DRAM 240GB + VRAM 80GB) |
36,700원 | 990,000원 | ||||
A6000 (CUDA: 10,752) IDC Opt. LLM Ready |
A6000.G1 | 1 | 8 | 108GB (DRAM 60GB + VRAM 48GB) |
18,200원 | 490,000원 | |||
A6000.G2 | 2 | 16 | 216GB (DRAM 120GB + VRAM 96GB) |
36,300원 | 980,000원 | ||||
A6000.G4 | 4 | 32 | 432GB (DRAM 240GB + VRAM 192GB) |
72,600원 | 1,960,000원 | ||||
PRO5000 (CUDA: 14,080) IDC Opt. LLM Ready New |
PRO5000.G1 | 1 | 8 | 108GB (DRAM 60GB + VRAM 48GB) |
준비중 (상세 사양 변경될 수 있음) |
||||
PRO5000.G2 | 2 | 16 | 216GB (DRAM 120GB + VRAM 96GB) |
||||||
PRO5000.G4 | 4 | 32 | 432GB (DRAM 240GB + VRAM 192GB) |
||||||
PRO6000 (CUDA: 24,064) IDC Opt. LLM Ready New |
PRO6000.G1 | 1 | 8 | 216GB (DRAM 120GB + VRAM 96GB) |
51,480원 | 1,390,000원 | |||
PRO6000.G2 | 2 | 16 | 432GB (DRAM 240GB + VRAM 192GB) |
102,960원 | 2,780,000원 | ||||
PRO6000.G4 | 4 | 32 | 864GB (DRAM 480GB + VRAM 384GB) |
205,920원 | 5,560,000원 |
신청 가능 존: KR1-Z07(Tesla T4, RTX 4000 Ada, A600), KR1-Z09(PRO6000)
맞춤형 GPU 서버(Custom Dedicated Server)
단위: 원(부가세 별도)
지원 소프트웨어 | GPU | CPU | RAM | Storage | LAN/Chassis/PSU | 금액 |
---|---|---|---|---|---|---|
Ollama, vLLM |
최대 4개 장착 가능 - AMD : w6800, 9700 - NVIDIA : 4000Ada, A6000, 6000Ada PRO5000, PRO6000 4090 blower |
1 x Xeon Silver 4314 (16C/32T) |
8 x 16~64GB (DDR4) |
SSD, NVMe - 내부: 2 x PCIe3.0 x2, 1 x SATA3(2.5") - 외부: 8 x SATA3(2.5"/3.5") Hot-swap |
LAN - 4 x 2.5Gbps(RJ45, Ethernet 전용) - 1 x IPMI 전용(RJ45) - 최대 2port 10Gbps NIC 장착 가능 (3GPU 이하 시) Chassis - SMILE Barebone4U PSU - ATX [2000/2500]W Single |
견적 문의 |
최대 8개 장착 가능 - AMD : w6800, 9700 - NVIDIA : 4000Ada, A6000, 6000ada PRO5000, PRO6000 4090 blower |
2 x Xeon Silver 4314 (32C/64T) |
32 x 16~64GB (DDR4) |
SSD, NVMe - 내부: 1 x PCIe3.0 x4 - 외부: 12 x SATA3(2.5"/3.5") Hot-swap |
LAN - 2 x 1Gbps(RJ45, Ethernet 전용) - 1 x IPMI 전용(RJ45) - 최대 2port 10Gbps NIC 장착 가능 Chassis - Tyan GPU B7129F83AV8E4HR-N-HE PSU - 6000W(3+1 2,000W RPSU, 80+ Platinum) - 4800W(3+1 1,600W RPSU, 80+ Platinum) |
견적 문의 | |
Ktransformers |
최대 1개 장착 가능 - NVIDIA : 4000Ada, A6000, 6000Ada PRO5000, PRO6000 4090 blower, 5080, 5090 |
2 x Xeon Silver 4510 (24C/48T) |
16 x 64GB (DDR5) |
SSD, NVMe - 내부: 2 x PCIe4.0 x2, 1 x SATA3(2.5") - 외부: 8 x SATA3(2.5"/3.5") Hot-swap |
LAN - 2 x 1Gbps(RJ45, Ethernet, 1x IPMI 공유) - 1 x IPMI 전용(RJ45) - 최대 2port 10Gbps NIC 장착 가능 Chassis - SMILE Barebone4U PSU - ATX 1200W Single |
견적 문의 |
문의: 1688-4879(영업)
GPU 사양 비교
제조사 | AMD | NVIDIA | |||||||
---|---|---|---|---|---|---|---|---|---|
모델 | RX9060XT | W6800 | 9700 | PRO6000 | PRO5000 | A6000 | 4000Ada | RTX 4090 | Tesla T4 |
아키텍처 | AMD RDNA™ 4 | AMD RDNA™ 2 | AMD RDNA™ 4 | Blackwell | Blackwell | Ampere | Ada Lovelace | Turing | |
GPU 메모리 | 16GB (GDDR6) |
32GB (GDDR6 ECC) |
32GB (GDDR6 ECC) |
96GB (GDDR7 ECC) |
48GB (GDDR7 ECC) |
48GB (GDDR6 ECC) |
20GB (GDDR6 ECC) |
24GB (GDDR6X) |
16GB (GDDR6) |
GPU 메모리 대역폭 |
320 GB/s | 512 GB/s | 640 GB/s | 1,792 GB/s | 1,344 GB/s | 768 GB/s | 448 GB/s | 1,008 GB/s | 320 GB/s |
CUDA | 2,048 | 3,840 | 4,096 | 24,064 | 14,080 | 10,752 | 6,144 | 16,384 | 2,560 |
FP32 | 25.6 TFLOPs | 17.83 TFLOPS | 47.8 TFLOPS | 110 TFLOPS | 73.2 TFLOPS | 38.7 TFLOPS | 30 TFLOPS | 82.6 TFLOPS | 8.1 TFLOPS |
TDP | 160W | 250W | 300W | 300W | 300W | 300W | 130W | 450W | 70W |
신청 방법
iwinv GPU 서버에서 LLM을 실행할 수 있는 방법을 아래 단계별로 손쉽게 따라하실 수 있습니다. (신청 매뉴얼 바로가기)
