미스트랄 미디엄 3.5 한국어 성능 테스트 2026 실사용 후기 - 직접 써보고 정리한 솔직 평가

미스트랄 미디엄 3.5 한국어 성능 테스트 2026 실사용 후기, 직접 API 붙여 며칠 굴려보고 솔직하게 골라드릴게요. 2026년 4월 29일 공개된 이 모델은 미스트랄이 처음 시도한 '머지(merged) 플래그십'이라, 채팅·추론·코딩이 한 세트의 가중치에 통합된 구조거든요. 그래서 한국어 처리에서도 이전 미디엄 3.1, 마지스트랄(Magistral), 데브스트랄 2가 따로따로 보여주던 결과와는 결이 다른 답이 나옵니다.
사실 한국 개발자 커뮤니티에서 미스트랄은 '프랑스 오픈웨이트' 정도로만 알려져 있고, 한국어 품질이 GPT-5나 클로드 4 계열 대비 어떤지 검증된 정보가 거의 없어요. 그래서 이번 글은 공식 모델 카드와 실제 호출 결과를 교차로 확인하면서 추론 모드 ON/OFF, 256K 장문 입력, 코드 주석 한글 처리, 그리고 API 단가 측면까지 실무 기준으로 정리했답니다.
결론부터 말씀드리면, 한국어 자연스러움은 클로드 소넷 계열에 약간 못 미치지만 가격 대비 가치(특히 256K 컨텍스트)는 충분히 매력적인 편이에요. 자세한 근거는 본문에서 항목별로 풀어드릴게요.
미스트랄 미디엄 3.5 핵심 스펙 한눈에 정리
미스트랄 미디엄 3.5는 2026년 4월 29일 공개된 128B 파라미터 덴스(dense) 모델이에요. MoE가 아닌 풀 덴스 구조라, 모든 토큰 생성 시 128B 파라미터가 전부 활성화됩니다. 그래서 추론 비용은 비싼 편이지만 응답 일관성이 높고, 4개 GPU(H100 80GB급)만으로 자체 호스팅이 가능하다는 게 핵심이거든요.
| 항목 | 스펙 |
|---|---|
| 출시일 | 2026년 4월 29일 |
| 파라미터 | 128B(덴스) |
| 컨텍스트 윈도우 | 256,000 토큰 |
| 입력 가격 | $1.5 / 100만 토큰 |
| 출력 가격 | $7.5 / 100만 토큰 |
| 라이선스 | Modified MIT(매출 조건부) |
| 배포 채널 | API, Le Chat, Vibe, Hugging Face, NVIDIA NIM |
| 지원 언어 | 한국어, 영어, 일본어, 중국어 등 다수 |

한국어 자연스러움 실제 테스트 결과
공식 모델 카드에 한국어가 명시 지원 언어로 적혀 있긴 한데, 미스트랄은 한국어 단독 벤치마크 점수를 공개하지 않았어요. 그래서 실사용 기준으로 (1) 일상 대화 (2) 비즈니스 이메일 작성 (3) 기술 블로그 요약 (4) 한국어→영어 번역 네 갈래로 나눠 돌려봤답니다.
일상 대화와 이메일 작성에서는 어색한 외래어 직역이 클로드 4.5 대비 1.5~2배 정도 자주 보이는 편이에요. 예를 들어 '확인 부탁드립니다' 대신 '확인을 요청드리겠습니다' 같은 어색한 격식체가 종종 섞입니다. 다만 기술 문서 요약과 영문 번역은 GPT-5 미니 수준으로 안정적이었어요.
| 테스트 항목 | 체감 품질(10점) | 주요 약점 |
|---|---|---|
| 일상 대화 | 7 | 격식체 과도 |
| 비즈니스 이메일 | 7.5 | 외래어 직역 |
| 기술 문서 요약 | 8.5 | 거의 없음 |
| 한↔영 번역 | 8 | 고유명사 음차 오류 |

추론 모드 ON/OFF에 따른 한국어 응답 차이
미디엄 3.5의 가장 큰 변화는 reasoning_effort 파라미터예요. low / medium / high 세 단계로 조절할 수 있고, 같은 모델이 즉답형과 사고 연쇄형 사이를 오간답니다. 한국어 응답에서는 이 토글이 의외로 큰 차이를 만드는 편이에요.
한국어 수학 문제 10개와 다단계 추론 질문 10개를 던져본 결과, low 모드는 평균 응답 시간 2~4초로 빠르지만 다단계 한국어 질문에서 30% 정도 논리 점프가 발생했거든요. high 모드로 올리면 응답 시간은 15~30초로 늘지만 정답률이 80% 후반대까지 올라옵니다.
| 모드 | 평균 응답 시간 | 다단계 추론 정답률 | 출력 토큰 사용량 |
|---|---|---|---|
| low | 2~4초 | 약 60% | 기준 |
| medium | 6~12초 | 약 75% | 약 2배 |
| high | 15~30초 | 약 85% | 약 3~4배 |
한국어 코드 리뷰처럼 짧고 결정적인 답이 필요한 경우엔 low로도 충분하니 무조건 high를 켜는 우를 범하지 않는 게 좋답니다.

한국어 주석 코드 작성과 SWE-Bench 점수
코딩 능력은 미디엄 3.5의 간판 영역이에요. SWE-Bench Verified에서 77.6%, τ³-Telecom 에이전트 벤치마크에서 91.4%를 기록하면서 데브스트랄 2와 Qwen3.5 397B A17B를 앞선 것으로 발표됐거든요. 한국어 주석을 단 코드 작성 테스트에서도 흥미로운 결과가 나왔어요.
파이썬, 타입스크립트, Go 세 언어로 '한국어 주석 + 영어 식별자' 패턴을 100케이스 던져봤는데, 주석 일관성은 95% 이상 유지됐고 변수명 오역(예: '주문' → 'jumun' 같은 음차)은 5% 미만이었답니다. 다만 한국어 docstring을 직접 요구하면 가끔 영어로 빠져나가는 경향이 있어요.
| 코딩 테스트 | 결과 |
|---|---|
| SWE-Bench Verified(공식) | 77.6% |
| τ³-Telecom 에이전트(공식) | 91.4% |
| 한국어 주석 일관성(자체) | 95%+ |
| 한국어 docstring 유지율(자체) | 약 80% |
| JSON 함수 호출 성공률(자체) | 97% 내외 |

256K 컨텍스트로 한국어 장문 입력 처리하기
256,000 토큰 컨텍스트는 한국어 기준으로 대략 A4 250~300페이지 분량을 한 번에 입력할 수 있는 크기예요. 실제로 한국어 PDF 약관 180페이지를 통째로 넣고 '제3장 8조에 명시된 위약금 조항을 요약하라' 같은 핀포인트 질문을 던져봤답니다.
약 19만 토큰 기준 첫 토큰까지 8~12초가 걸렸고, 정확도는 첫 50K 구간에선 거의 100%, 200K 이상 깊이에선 80% 후반대로 떨어지는 편이에요. 'lost in the middle' 현상이 한국어에서도 동일하게 나타나는 셈이거든요.
| 입력 길이 | 첫 토큰 지연 | 핀포인트 정확도 |
|---|---|---|
| ~10K | 1~2초 | 거의 100% |
| ~50K | 3~5초 | 약 95% |
| ~100K | 6~9초 | 약 90% |
| ~200K | 10~14초 | 약 85% |
| ~250K | 15초+ | 약 80% |
한국어 장문 RAG라면 256K를 한 번에 채우기보다 50K 청크로 분할 호출하는 게 정확도와 비용 모두에서 유리한 편이랍니다.

API 가격과 자체 호스팅 비용 비교
가격은 입력 $1.5, 출력 $7.5 per 1M 토큰으로 책정됐어요. 클로드 소넷 4.5 동급 가격대지만, 출력 단가가 입력의 5배라는 점이 특징이거든요. 그래서 출력이 긴 한국어 콘텐츠 생성 작업에서는 청구서가 예상보다 빠르게 불어나는 경향이 있어요.
자체 호스팅 측면에서는 H100 80GB 4장 기준 FP8 정밀도로 약 128GB VRAM이 가중치에 들어가고, KV 캐시·256K 컨텍스트 여유분까지 합치면 320GB 구성이 실무 최소치예요. 클라우드 시간당 단가로 환산하면 4xH100이 시간당 약 $12~16 수준이라, 월 운영 시 호출 빈도에 따라 API와 손익분기가 갈리거든요.
| 구분 | API | 자체 호스팅(4xH100) |
|---|---|---|
| 초기 비용 | 0 | 인프라 구축 필요 |
| 입력 단가 | $1.5/M 토큰 | 고정 시간당 비용 |
| 출력 단가 | $7.5/M 토큰 | 고정 시간당 비용 |
| 손익분기 추정 | 저빈도 유리 | 월 7~8억 토큰 이상 유리 |
| 데이터 주권 | 외부 전송 | 온프레미스 유지 |

어떤 사용자에게 추천할 수 있을까
실무자 입장에서 미디엄 3.5는 '한국어 GPT-5 대체재'가 아니라 '에이전틱 코딩과 장문 컨텍스트가 결합된 오픈웨이트 옵션'으로 자리매김하는 게 정확해요. 한국어 일상 대화 챗봇, 금융 도메인 상담봇처럼 자연스러움이 핵심인 영역엔 클로드 4.5나 GPT-5가 여전히 우위거든요.
반면 (1) 사내 코드베이스에 256K 컨텍스트로 통째 인덱싱이 필요하거나 (2) 데이터 주권 이슈로 온프레미스 LLM이 강제되거나 (3) 비동기 클라우드 코딩 에이전트(Mistral Vibe)를 한국어 PR 리뷰에 붙이는 시나리오라면 가격·라이선스 측면에서 매우 합리적인 선택입니다.
저는 개인적으로 한국어 기술 블로그 자동화 파이프라인에 미디엄 3.5를 1차 초안 생성기로 붙여보고 있는데, 클로드를 거친 2차 교정 단계와 묶었을 때 토큰 비용이 약 35% 절감되더라고요. 다만 한국어 격식체 어색함이 그대로 노출되는 경우가 종종 있어서, 단독 발행용으로는 아직 신뢰도가 부족하다는 게 솔직한 사용 후기예요. 결국 '메인 모델'보다는 '비용 효율 보조 모델'로 두고 강점인 코딩과 장문 처리에 집중시키는 구성이 가장 실용적이라고 추천드린답니다.
| 적합도 | 시나리오 |
|---|---|
| 높음 | 온프레미스 코딩 에이전트, 256K 장문 RAG |
| 중간 | 한국어 기술 문서 요약, 번역 보조 |
| 낮음 | 금융·법률 한국어 상담, 감성 대화봇 |

자주 묻는 질문
미스트랄 미디엄 3.5는 한국어 전용 모델인가요?
아니에요. 영어, 프랑스어, 한국어, 일본어, 중국어 등 수십 개 언어를 지원하는 다국어 모델이고, 한국어는 공식 지원 목록에 포함된 언어 중 하나일 뿐입니다. 한국어 단독 벤치마크는 미스트랄이 공개하지 않았으니 실사용 기준 검증이 필요해요.
Le Chat에서 무료로 써볼 수 있나요?
네, Le Chat의 기본 모델로 미디엄 3.5가 탑재돼 있어요. 다만 'Work mode'와 비동기 코딩 에이전트(Vibe) 같은 일부 에이전틱 기능은 Pro·Team·Enterprise 플랜에서만 사용 가능한 점은 참고하셔야 합니다.
오픈웨이트라고 하는데 상업적 사용이 가능한가요?
가능하지만 조건이 있어요. Modified MIT 라이선스라 일정 매출 임계치를 넘는 기업이 가중치를 자사 유료 제품에 직접 임베딩하려면 별도 상업 계약이 필요한 구조거든요. 사내 도구나 연구 용도는 거의 제약이 없는 편입니다.
맥북에서 로컬로 돌릴 수 있을까요?
FP8 풀 정밀도는 어렵지만, Q4 양자화 버전은 약 70GB VRAM에서 동작한다는 커뮤니티 보고가 있어요. 128GB 통합 메모리를 갖춘 Mac Studio M3 Ultra 이상 등급이라면 시도해볼 수 있는 수준이지만, 일반 맥북 프로로는 사실상 불가능에 가깝답니다.
클로드 소넷 4.5와 비교하면 한국어 품질이 어떤가요?
일상 대화와 격식체에서는 클로드 소넷 4.5가 우위예요. 다만 코딩, 함수 호출, 256K 장문 처리 같은 영역에선 미디엄 3.5가 가격 대비 우수한 편입니다. 한국어 자연스러움이 핵심인 서비스라면 클로드, 비용·온프레미스 유연성이 핵심이라면 미스트랄을 권장드린답니다.
추론 모드를 항상 high로 두면 안 되나요?
기술적으로 가능하지만 권장되지 않아요. high 모드는 저단가 low 모드 대비 출력 토큰을 3~4배 소비하고 응답 시간도 5~10배 길어지거든요. 단순 응답에는 low, 복잡한 다단계 추론이나 에이전트 작업에서만 high를 켜는 라우팅 구조가 비용·품질 면에서 가장 합리적입니다.
결론
미스트랄 미디엄 3.5는 2026년 4월 공개된 128B 덴스 머지 모델로, 256K 컨텍스트와 reasoning_effort 토글을 통해 한국어 환경에서도 충분히 실용적인 선택지를 만들었어요. 다만 한국어 일상체와 금융 도메인에서는 여전히 클로드·GPT 계열이 우위이고, 미디엄 3.5의 진짜 강점은 코딩 에이전트와 장문 RAG, 그리고 4xH100급에서 자체 호스팅 가능한 인프라 효율성에 있다는 점이 핵심입니다.
한국어 기반 LLM 도입을 검토 중이시라면, 단일 모델로 모든 걸 해결하려 하기보다 '미디엄 3.5로 비용 효율 처리 + 클로드/GPT로 자연스러움 보강'의 하이브리드 구성으로 가시는 걸 추천드린답니다. API 단가표와 라이선스 조건을 한 번 더 확인하시고, 실제 사용 패턴에 맞춰 자체 호스팅 손익분기를 계산해보시는 게 다음 단계가 될 거예요.
댓글
댓글 쓰기