Ollama

Ollama 프레임워크에서 LLM을 손쉽게 빌드할 수 있는 최적의 CPU + 1 GPU 기반 시스템 제공

iwinv 클라우드는 고성능 GPU 없이도 한국어 중심(다국어 포함)의 LLM을 손쉽게 실행할 수 있는 경량 AI 추론 시스템을 제공합니다. 4bit/8bit 양자화된 LLM을 적은 VRAM 환경에서도 복잡한 설치 없이 실행할 수 있는 Ollama와 Ktransformers를 지원하며, CPU와 GPU 1개를 혼합 활용할 수 있는 가상/물리 서버 환경도 제공합니다.

고성능 LLM 지원

고성능 LLM 지원 경량화한 고성능 LLM을 원하는대로
튜닝/학습 가능한 소프트웨어 지원

비용 효율성

비용 효율성 오픈 소스 LLM에 최적화
기본 사양 및 고객 맞춤 사양 제공

전문 기술 제공

전문 기술 제공 LLM 및 응용 소프트웨어 기술적 지원
시스템 상시 기술지원

높은 보안성

높은 보안성 사용자 데이터 프라이버시 보호를 위한
분리된 서버 시스템 제공

LLM 프레임워크를 위한 합리적 선택

활용 정보(Framework)

iwinv GPU 서버는 대규모 언어 모델(LLM)을 실행할 수 있는 최적화된 사양을 제공합니다. LLM에 효율을 높일 수 있는 Ollama와 KTransformers로 AI 챗봇과 다양한 서비스를 구축할 수 있습니다.

* 지능형 챗봇 플랫폼 및 생성형 API 시스템
* RAG 및 검색 기반 AI 서비스
* 블록체인 및 AI 연계한 DApp 수행
* 사용자 경험(UX) 및 비주얼 데이터 최적화 서비스

Ollama

Ollama는 LLM을 간소화된 환경에서 실행할 수 있도록 설계된 경량 플랫폼입니다. 이 플랫폼은 VM이나 저사양 서버에서 4bit 및 8bit로 양자화된 주요 오픈소스 모델을 단일 명령어로 로드하고 추론할 수 있는 빠른 실행 환경을 제공합니다.

LLM을 효과적으로 실행하려면 모델 크기와 계산 정밀도에 따라 GPU VRAM 용량의 요구 사항이 달라집니다. 특히 모델 자체뿐만 아니라 입력 데이터를 저장할 때 추가적인 메모리가 필요하므로 모델 크기보다 약간 더 큰 VRAM 용량을 갖추는 것이 권장됩니다.

iwinv에서 최저가로 제공하는 고성능 AMD Radeon Pro W6800 모델은 Ollama가 공식 지원하는 GPU입니다. Ollama 엔진에서 실행할 수 있는 LLM 정보와 기능은 Ollama 홈페이지에서 자세히 확인할 수 있습니다.

단위: 원(부가세 별도)

LLM 모델 크기 컨텍스트 길이 배포 유형 테스트 결과 이용료(월)
환경 Token/s(초) DRAM 사용량 VRAM 사용량
Gemma3 27B
(Q4_K_M)
17GB 128K 베어메탈 서버 Radeon Pro w6800(32GB) x1
16vCPU / 64GB / 1TB SSD
ollama v 0.9.0
16.85 tok/s 2.4GB 20.6GB 199,000원
가상 서버 Nvidia RTX PRO 6000 x 1
16vCPU / 120GB / 100GB SSD
vllm 0.9.1
49.176 tok/s 17.6GB 19223MB 1,390,000원
베어메탈 서버 AMD APU RDNA3 780M
16vCPU / 32GB / 512GB SSD
ollama v 0.9.0
1.517 tok/s 19.7GB 8GB 75,000원

GPU별 평균 성능 가격 포지셔닝 맵

iwinv GPU 서버에서 LLM을 실행한 벤치마크 결과를 확인하고, 가장 적합한 하드웨어 자원을 선택할 수 있습니다.

테스트는 NGC 공식 컨테이너 nvcr.io/nvidia/pytorch:25.06-py3 환경에서 수행되었습니다. 본 결과 공개는 NVIDIA의 “Deep Learning Containers – Benchmarking” 문서에 따른 예외 조항에 근거합니다. 테스트 결과는 자사가 직접 실험한 수치로, NVIDIA의 공식 성능과 무관하며, 미세한 환경 차이에 따라 결과는 다를 수 있으니 참고용 데이터로 활용하시기 바랍니다.

Ktransformers

Ktransformers는 DeepSeek-R1 671B 초대형 언어 모델을 실행할 수 있는 프레임워크입니다. 수억원 대 NVIDIA 최상급 Multi-GPU 시스템에서나 실행할 수 있었던 DeepSeek-R1 671B를 Ktransformers를 통해 가벼운 성능에서도 쉽게 구동할 수 있습니다.

DeepSeek-R1 비교 결과 보기  
DeepSeek-R1 비교 결과 보기

DeepSeek-R1은 수학, 코드, 추론 작업 전반에서 OpenAI-o1과 유사한 수준의 성능을 제공합니다.

단위: 원(부가세 별도)

LLM 모델 모델 크기 컨텍스트 길이 배포 유형 테스트 결과 이용료(월)
환경 Token/s(초) DRAM 사용량 VRAM 사용량
DeepSeek-R1 671B
(Q4_K_M)
377GB 128K GPU 맞춤 서버 NVIDIA RTX 4000Ada(20GB) x1 /
2 x Intel Xeon 4510 Silver(24C/48T) / DDR5 1TB /
2 x 1TB SSD /
Ktransformers v0.3.1-20-gdcba29b
9.22tok/s 738GB 10.8GB 견적 문의
NVIDIA RTX 6000Ada(20GB) x1 /
2 x Intel Xeon 4510 Silver(24C/48T) / DDR5 1TB /
2 x 1TB SSD /
Ktransformers v0.3.1-20-gdcba29b
7.49tok/s - 11GB 견적 문의

다양한 GPU에서 DeepSeek-R1을 실행한 벤치마크 결과를 확인할 수 있습니다.
DeepSeek-R1 671B

테스트는 NGC 공식 컨테이너 nvcr.io/nvidia/pytorch:25.06-py3 환경에서 수행되었습니다. 본 결과 공개는 NVIDIA의 “Deep Learning Containers – Benchmarking” 문서에 따른 예외 조항에 근거합니다. 테스트 결과는 자사가 직접 실험한 수치로, NVIDIA의 공식 성능과 무관하며, 미세한 환경 차이에 따라 결과는 다를 수 있으니 참고용 데이터로 활용하시기 바랍니다.

LLM 정보

LLM 실행 시 CPU-GPU 혼합 사용은 효율성 향상에 필수적입니다. 모델 규모와 추론 프레임워크에 따라 적절한 GPU 및 메모리 사양이 달라지며, 양자화 모델의 경우 아래 가이드를 참고하시기 바랍니다.

LLM 모델 매개변수 컨텍스트 길이
(tokens)
성능(능력) 바로가기
gpt-oss 20B 128K - o3-mini보다 우수하며 o4-mini와 거의 동등한 수준의 추론 능력 보유
- 수학, 일반 문제해결, 도구 호출 등에서 뛰어난 성능 발휘
- MMLU, HLE 등 언어(이해/추론/작문) 능력 상위 수준
Ollama Hugging Face
120B Ollama Hugging Face
Qwen3 30B 32K - 코드·수학·추론 등에서 상위 모델보다 뛰어난 MoE 아키텍처 적용
- 119개 국 다국어 지원 모델로써 한국어 처리 성능 우수
- 빠른 답변 속도와 향상된 코드 생성 능력 제공
Ollama Hugging Face
32B Ollama Hugging Face
235B Ollama Hugging Face
DeepSeek-R1 7B 128K - 계산, 코딩, 응답 품질 등 GPT-4 이상 수준의 우수한 성능
- 중국어 및 영어에 능통, 준수한 한국어 이해도 및 응답 성능
Ollama Hugging Face
14B Ollama Hugging Face
70B Ollama Hugging Face
671B Ollama Hugging Face
Gemma3 12B input : 128K
output : 8192
- 경량화 기반 메모리 효율성 우수
- GPT-3.5 기반의 안정적 성능
- 다국어 지원 모델로써 한국어 처리 성능 우수
Ollama Hugging Face
27B Ollama Hugging Face
Llama4 - Scout 17B 10M - 최대 10M 토큰의 초장기 문맥 유지 가능
- 긴 문서 요약, 지속 대화 성능, 코드베이스 분석에 특화(정밀 추론 성능은 일반적)
- 영어 중심 설계, 한국어 성능 다소 낮음
Ollama Hugging Face
Llama3.3 70B 128K - GPT-4 Turbo급 고성능 추론 및 대화 가능
- 추론, 대화, 코딩, 지식 응답 성능 우수
- 다국어 학습 기반 모델, 한국어 성능 준수
Ollama Hugging Face
Llama3.2 11B 128K - 경량 모델 대비 뛰어난 코딩 처리 성능 및 우수한 안정성
- 다국어 학습 기반 모델, 한국어 성능 일부 한계 존재
Ollama Hugging Face
90B - GPT-4 Turbo급 대화, 추론, 지식 응답 가능
- 대규모 파라미터 기반의 다국어 학습, 한국어 대응력 우수
Ollama Hugging Face
Phi4 14B 32K - 빠른 응답 속도, GPT-3.5급 논리 추론, 요약 가능
- 경량화에 최적화된 모델
- 한국어의 정확도, 유창성 다소 낮음
Ollama Hugging Face
HyperCLOVA X SEED 1.5B 16K - 온디바이스 및 저사양 환경에 최적화된 경량 모델
- GPT-3.5 계열 소형 모델 수준의 정확도 및 안정성
- 한국어 기반 지시어 및 질문 응답 성능 매우 우수
Hugging Face
3B Hugging Face

모델 크기별 요구 사양 가이드 (양자화 LLM Q4 기준)

모델 매개변수 DRAM 최소 사양 실행 환경
초소형 ~ 2B 파라미터 4 ~ 8GB 노트북 수준의 GPU 또는 일부 CPU-only 환경에서도 실행 가능
소형 2B ~ 10B 파라미터 8 ~ 16GB 일반 소비자용 GPU 가능 4090 등
중형 10B ~ 20B 파라미터 16 ~ 32GB 4000Ada 이상 또는 RTX 4090/5090 Multi-GPU 구성
대형 20B ~ 70B 파라미터 32 ~ 128GB A6000, PRO5000 Multi-GPU 구성
초대형 70B ~ 파라미터 128GB 이상 PRO6000 Multi-GPU 구성 이상

- VRAM과 DRAM 조합 용량을 LLM 크기보다 더 높게 설정하시기 바랍니다. (약 1.2배)
- DeepSeek-R1 671B는 위 가이드와 달리 일반 소비자용 GPU(4090 등)에서 DRAM 1TB 구성 시 실행 가능합니다.
- LLM 및 소프트웨어를 사용하기 전 라이선스 및 이용약관 규정을 확인하시기 바랍니다.

AI 기반의 분석 및 시각화 서비스를 제공하는 Artificial Analysis 에서 LLM에 대한 더 다양한 자료를 참고할 수 있습니다. (해당 사이트는 정보 제공을 목적으로 공유하며, 스마일서브와는 무관합니다.)

GPU 사양 정보

iwinv GPU 서버는 GPU Pass-through로 할당되는 가상 서버, 즉시 활용 가능한 온디맨드 베어메탈 서버, 원하는 사양으로 직접 구성하는 맞춤형 GPU 서버 중 선택할 수 있습니다. 사용 목적 및 예산에 맞춰 인프라 자원을 자유롭게 선택하시기 바랍니다.

베어메탈 서버(Bare Metal)

CLOUDV에서 제공하는 AMD GPU 기반 Ollama 특화 베어메탈 서버는 고밀도 집적을 위한 전용 폼팩터와 합리적인 월 요금제로 고성능 LLM 환경을 제공합니다.

단위: 원(부가세 별도)

GPU Type 상품명 제공사양 지원 프레임워크 이용료
GPU CPU(Thread) Memory Storage(OS) Traffic
9060XT
(Stream Processors: 2,048)
LLM Ready
New
AMD AI 9060XT BMv1 1 16Thread 80GB
(DRAM 64GB + VRAM 16GB)
SSD 500GB (전체) 월 2,400GB
(해외) 월 50GB
Ollama 149,000원
W6800
(Stream Processors: 3,840)
IDC Opt.
LLM Ready
New
AMD AI W6800 BMv1 1 16Thread 96GB
(DRAM 64GB + VRAM 32GB)
199,000원
AMD APU
LLM Ready
AMD AI GPU K6 BMv1 1 16Thread 32GB
(DRAM 24GB + VRAM 8GB)
NVMe M.2
512GB
75,000원
PRO 9700
(Stream Processors: 4,096)
IDC Opt.
LLM Ready
New
AMD AI PRO9700 BMv1 1 16Thread 96GB
(DRAM 64GB + VRAM 32GB)
SSD 500GB 준비중

신청하기

가상서버(Virtual Machine)

단위: 원(부가세 별도)

GPU Type 상품명 제공사양 AI 프레임워크 이용료
GPU vCPU Memory Storage(OS) Traffic
Tesla T4
(CUDA: 2,560)
IDC Opt.
LLM Ready
T4.G1 1 6 76GB
(DRAM 60GB + VRAM 16GB)
SSD 100GB 20 GB/일
(월 600 GB)

*초과 시
구간 요금제 적용
LLM 용

Ollama
&
vLLM
6,260원 169,000원
T4.G2 2 12 152GB
(DRAM 120GB + VRAM 32GB)
12,520원 338,000원
T4.G4 4 24 304GB
(DRAM 240GB + VRAM 64GB)
25,040원 676,000원
4000Ada
(CUDA: 6,144)
IDC Opt.
LLM Ready
4000Ada.G1 1 8 80GB
(DRAM 60GB + VRAM 20GB)
9,200원 248,500원
4000Ada.G2 2 16 160GB
(DRAM 120GB + VRAM 40GB)
18,400원 495,000원
4000Ada.G4 4 32 320GB
(DRAM 240GB + VRAM 80GB)
36,700원 990,000원
A6000
(CUDA: 10,752)
IDC Opt.
LLM Ready
A6000.G1 1 8 108GB
(DRAM 60GB + VRAM 48GB)
18,200원 490,000원
A6000.G2 2 16 216GB
(DRAM 120GB + VRAM 96GB)
36,300원 980,000원
A6000.G4 4 32 432GB
(DRAM 240GB + VRAM 192GB)
72,600원 1,960,000원
PRO5000
(CUDA: 14,080)
IDC Opt.
LLM Ready
New
PRO5000.G1 1 8 108GB
(DRAM 60GB + VRAM 48GB)
준비중
(상세 사양 변경될 수 있음)
PRO5000.G2 2 16 216GB
(DRAM 120GB + VRAM 96GB)
PRO5000.G4 4 32 432GB
(DRAM 240GB + VRAM 192GB)
PRO6000
(CUDA: 24,064)
IDC Opt.
LLM Ready
New
PRO6000.G1 1 8 216GB
(DRAM 120GB + VRAM 96GB)
51,480원 1,390,000원
PRO6000.G2 2 16 432GB
(DRAM 240GB + VRAM 192GB)
102,960원 2,780,000원
PRO6000.G4 4 32 864GB
(DRAM 480GB + VRAM 384GB)
205,920원 5,560,000원

신청 가능 존: KR1-Z07(Tesla T4, RTX 4000 Ada, A600), KR1-Z09(PRO6000)

신청하기

맞춤형 GPU 서버(Custom Dedicated Server)

단위: 원(부가세 별도)

지원 소프트웨어 GPU CPU RAM Storage LAN/Chassis/PSU 금액
Ollama, vLLM 최대 4개 장착 가능
- AMD : w6800, 9700
- NVIDIA : 4000Ada, A6000, 6000Ada
                    PRO5000, PRO6000
                    4090 blower
1 x Xeon Silver 4314
(16C/32T)
8 x 16~64GB
(DDR4)
SSD, NVMe
- 내부: 2 x PCIe3.0 x2, 1 x SATA3(2.5")
- 외부: 8 x SATA3(2.5"/3.5") Hot-swap
LAN
- 4 x 2.5Gbps(RJ45, Ethernet 전용)
- 1 x IPMI 전용(RJ45)
- 최대 2port 10Gbps NIC 장착 가능 (3GPU 이하 시)
Chassis
- SMILE Barebone4U
PSU
- ATX [2000/2500]W Single
견적 문의
최대 8개 장착 가능
- AMD : w6800, 9700
- NVIDIA : 4000Ada, A6000, 6000ada
                    PRO5000, PRO6000
                    4090 blower
2 x Xeon Silver 4314
(32C/64T)
32 x 16~64GB
(DDR4)
SSD, NVMe
- 내부: 1 x PCIe3.0 x4
- 외부: 12 x SATA3(2.5"/3.5") Hot-swap
LAN
- 2 x 1Gbps(RJ45, Ethernet 전용)
- 1 x IPMI 전용(RJ45)
- 최대 2port 10Gbps NIC 장착 가능
Chassis
- Tyan GPU B7129F83AV8E4HR-N-HE
PSU
- 6000W(3+1 2,000W RPSU, 80+ Platinum)
- 4800W(3+1 1,600W RPSU, 80+ Platinum)
견적 문의
Ktransformers 최대 1개 장착 가능
- NVIDIA : 4000Ada, A6000, 6000Ada
                    PRO5000, PRO6000
                    4090 blower, 5080, 5090
2 x Xeon Silver 4510
(24C/48T)
16 x 64GB
(DDR5)
SSD, NVMe
- 내부: 2 x PCIe4.0 x2, 1 x SATA3(2.5")
- 외부: 8 x SATA3(2.5"/3.5") Hot-swap
LAN
- 2 x 1Gbps(RJ45, Ethernet, 1x IPMI 공유)
- 1 x IPMI 전용(RJ45)
- 최대 2port 10Gbps NIC 장착 가능
Chassis
- SMILE Barebone4U
PSU
- ATX 1200W Single
견적 문의

문의: 1688-4879(영업)

GPU 사양 비교

제조사 AMD NVIDIA
모델 RX9060XT W6800 9700 PRO6000 PRO5000 A6000 4000Ada RTX 4090 Tesla T4
아키텍처 AMD RDNA™ 4 AMD RDNA™ 2 AMD RDNA™ 4 Blackwell Blackwell Ampere Ada Lovelace Turing
GPU 메모리 16GB
(GDDR6)
32GB
(GDDR6 ECC)
32GB
(GDDR6 ECC)
96GB
(GDDR7 ECC)
48GB
(GDDR7 ECC)
48GB
(GDDR6 ECC)
20GB
(GDDR6 ECC)
24GB
(GDDR6X)
16GB
(GDDR6)
GPU 메모리
대역폭
320 GB/s 512 GB/s 640 GB/s 1,792 GB/s 1,344 GB/s 768 GB/s 448 GB/s 1,008 GB/s 320 GB/s
CUDA 2,048 3,840 4,096 24,064 14,080 10,752 6,144 16,384 2,560
FP32 25.6 TFLOPs 17.83 TFLOPS 47.8 TFLOPS 110 TFLOPS 73.2 TFLOPS 38.7 TFLOPS 30 TFLOPS 82.6 TFLOPS 8.1 TFLOPS
TDP 160W 250W 300W 300W 300W 300W 130W 450W 70W

신청 방법

iwinv GPU 서버에서 LLM을 실행할 수 있는 방법을 아래 단계별로 손쉽게 따라하실 수 있습니다. (신청 매뉴얼 바로가기)

신청 방법

매뉴얼

아래 가이드를 통해 보다 쉽게 이용할 수 있습니다.