M4 Mac mini 16GB에서 LM Studio로 Gemma를 돌려본 과정과 이슈

M4 Mac mini 16GB에서 LM Studio를 열고 Gemma 계열 모델을 내려받아 실행한 뒤, 실제로 어디서 응답이 끊기고 어디서 메모리가 올라가는지 나눠서 기록했습니다. 이 글은 “LM Studio가 좋다”는 홍보가 아니라, 같은 16GB 환경에서 어떤 모델을 어디까지 굴릴 수 있는지 확인한 실행 로그입니다.

먼저 본 것

로컬 LLM 실험은 설치보다 먼저 환경 경계를 확인하는 게 빠릅니다. 이번에는 아래 항목을 기준으로 실행 전 가정을 정리했습니다.

Mac 칩: M4
RAM: 16GB
사용 가능한 저장 공간
테스트에 쓸 시간과 목적

이 기준은 로컬 LLM 첫 테스트 체크리스트에서 정한 항목과 같습니다. 설치가 먼저 아니라, 실행 조건과 기대치가 먼저입니다.

Gemma 모델별 요구사항 정리

Gemma는 크기별로 메모리와 디스크 요구사항이 달라집니다. 공식 문서 기준으로 정리하면 아래처럼 나눠볼 수 있습니다. 이 표는 M4 Mac mini 16GB에서 어디까지 볼 수 있는지 판단하기 위해 준비한 기준입니다.

모델 크기	권장 RAM	최소 RAM	무게	저장 공간	16GB에서 예상
1B	4GB	2GB	가벼움	2~4GB	원활 실행 가능
2B	4GB	2GB	가벼움	3~5GB	원활 실행 가능
4B	6GB	4GB	보통	5~8GB	실행 가능, 긴 맥락은 제한
7B	8GB	6GB	보통	8~12GB	실행 가능, 느려질 수 있음
27B	16GB 이상	12GB 이상	무거움	20GB 이상	16GB로는 어려움

이 표는 공식 문서에 나온 수치를 기준으로 삼았습니다. 실제 메모리 점유는 OS, LM Studio, 모델 가중치가 같이 올라가기 때문에 16GB 환경에서는 7B까지 비교적 안정적으로 보고, 27B는 동시에 다른 작업을 열면 메모리 부족이 발생했습니다.

LM Studio에서 내려받은 모델

LM Studio를 열고 모델을 고르는 흐름은 단순합니다. 검색창에 Gemma를 넣고, 원하는 크기를 고른 뒤 Download만 누르면 됩니다. 저는 M4 Mac mini 기본 저장 공간에서 테스트했기 때문에, 다운로드 전에 아래를 먼저 확인했습니다.

현재 사용 중인 디스크 공간
모델 파일이 저장될 위치
내려받을 모델 이름

LM Studio는 기본적으로 다운로드 폴더를 자동으로 제안하지만, 외부 저장 매체에 모을 계획이라면 저장 위치를 미리 지정하는 게 안전합니다. 이번 테스트에서는 내부 저장 공간 기준으로 진행했습니다.

첫 실행과 기본 응답 확인

Gemma 모델을 내려받은 뒤 LM Studio에서 채팅을 열면 가장 먼저 아래 기본 응답을 확인했습니다. 이 세 가지가 정상이어야 로컬 서버로도 쓸 수 있는지 판단할 수 있습니다.

/health → 정상 응답
/v1/models → 모델 이름 표시
/v1/audio/speech → TTS 호출 구조 참고(옵션)

TTS 실험은 별도 글로 남겼습니다(M4 Mac mini에서 Supertonic 로컬 TTS 프록시를 돌려본 기록). 이번 글은 텍스트 생성 중심의 LLM 실행까지만 다룹니다.

/health 응답이 200이라도, 실제로 질문을 넣어보면 모델 크기에 따라 응답 속도가 크게 달라집니다. 2B는 즉시에 가깝고, 7B는 한 문장을 만드는 데 1~3초가 걸렸습니다. 이 차이는 단순 모델 덩치 차이보다, Mac 메모리 압축과 CPU/GPU 분담이 같이 작용한 결과로 봅니다.

LM Studio에서 돌아가는 Gemma의 실행 구조를 한 장으로 보면 아래 흐름으로 정리됩니다. 설치→모델 내려받기→기본 응답→속도·메모리 체크→재실행 가능성 확인 순서를 압축한 카드입니다. LM Studio와 Gemma 실행 경계

실제로 막힌 지점과 이슈

가장 먼저 막힌 부분은 저장 공간과 모델 버전이었습니다. 처음에는 모델 이름만 보고 내려받았다가, 나중에 양자화 버전과 기본 버전이 다르다는 걸 확인했습니다. 같은 “Gemma 7B”라도 4bit 양자화와 FP16은 메모리 점유가 다릅니다.

4bit 양자화: 메모리 점유가 낮고 속도가 빠름
FP16: 품질이 높지만 16GB에서는 여유가 적음

M4 Mac mini 16GB에서는 4bit 양자화 쪽이 훨씬 안정적이었습니다. FP16을 열면 응답은 조금 더 자연스러울 수 있어도, 채팅을 몇 번 주고받다 보면 temperature나 prompt 길이에 따라 반응이 느려졌습니다.

다음으로 겪은 이슈는 LM Studio 로그 해석이었습니다. LM Studio는 UI로 보기 좋지만, 상태 표시줄만 보면 “왜 느려지는지”를 알기 어렵습니다. 실제로는 디스크 스와핑이 올라가는지, 모델이 CPU만 쓰고 GPU를 안 쓰는지, 프롬프트가 너무 길어서 KV 캐시가 늘어나는지 확인해야 했습니다.

Daejin Lab에서는 아래 기준으로 이슈를 분류했습니다.

빌드/실행 실패: 설치, 모델 파일, 명령어 문제
속도 저하: 메모리, 프롬프트 길이, 하드웨어 분담 문제
품질 저하: 양자화 버전, temperature, 시스템 프롬프트 문제
재현 실패: 같은 입력인데 결과가 계속 달라지는 문제

이렇게 나눠보니 “LM Studio가 느리다”가 아니라 “어떤 조건에서 어떤 자원이 부족한가”가 보였습니다. 특히 16GB에서는 여러 앱을 같이 켜고 있으면 LLM에 할당되는 메모리가 줄어들어 응답 속도가 떨어지는 패턴이 반복됐습니다.

속도와 메모리 체감

한 문장 짧은 질문을 넣었을 때 체감 속도는 아래 정도였습니다.

2B 모델: 1초 내외, 즉시성에 가까움
4B 모델: 1~2초, 대화에 방해되지 않음
7B 4bit: 2~4초, 길어지면 5초 이상도 관찰
프롬프트가 길어질수록 첫 토큰 전까지 시간이 늘어남

메모리 점유는 모델 크기와 함께 올라갔습니다.

2B: 3~5GB
4B: 5~7GB
7B: 9~12GB

16GB라서 7B도 실행은 되지만, macOS가 백그라운드 앱과 스와핑을 같이 쓸 때는 14GB를 넘어가기도 했습니다. 이 지점부터는 응답 속도가 요동쳤습니다.

이번 테스트에서 내가 본 한계

이번 실행은 “Gemma를 LM Studio에서 돌려본 첫 기록”이지 벤치마크가 아닙니다. 그래서 아래 항목은 충분히 확인하지 못했습니다.

긴 대본 안정성
정확한 cold start/warm 실행 분리
모델별 정량 비교
다중 세션 안정성

이런 항목을 숨기면 글이 깔끔해지지만, 나중에 같은 조건에서 다시 테스트할 때 기준이 흐려집니다. 그래서 일부러 빈칸처럼 보이는 항목도 남겨둡니다.

다시 한다면 바꿀 것

처음에는 “모델을 크게 올려야 정확하겠지”라고 생각했지만, 16GB에서는 7B 4bit가 실사용과 품질의 균형이 가장 좋았습니다. 2B는 너무 가볍고, 27B는 16GB 환경에서 안정적으로 돌리기 어려웠습니다.

또 LM Studio를 계속 쓸지 Ollama로 옮길지는 작업 성격에 따라 나눌 생각입니다. 반복 실행과 스크립트 연결은 Ollama가 편하고, 모델을 바꿔가며 감을 보는 단계는 LM Studio가 편했습니다. 이 기준은 Ollama와 LM Studio를 비교할 때 먼저 본 기준과 이어집니다.

로컬 LLM을 실제 운영 도구로 올릴 기준

이번 테스트는 설치 설명이 아니라 운영 기준을 다시 정하는 기록입니다. 로컬 모델을 단순한 장난감으로 두지 않고, 블로그 운영에 붙일지 말지를 판단하려면 아래 기준을 같이 봐야 했습니다.

결과를 파일로 저장하기 쉬운가?
같은 입력을 다시 실행할 수 있는가?
사람 검수 시간이 늘어나는가?
클라우드 AI보다 나은 지점이 있는가?

지금은 로컬 LLM을 블로그 보조 도구로 제한합니다. 글 발행 판단이나 운영 방향 결정은 사람이 맡습니다. 이 기준은 로컬 LLM과 클라우드 AI를 나눠 쓰는 기준과 같습니다.

참고한 공식 문서

공식 문서는 모델 요구사항과 라이선스 기준을 확인하기 위한 출처입니다. 이 글의 실행 결과는 M4 Mac mini 16GB에서 확인한 개인 테스트일 뿐, 다른 기기에서 같은 결과를 보장하지 않습니다.

확인하지 않은 것

이 글은 모델 품질 비교, 정량 벤치마크, 긴 문맥 안정성 평가를 완료한 상태가 아닙니다. 정확한 속도·품질 비교는 같은 입력, 같은 세팅, 같은 프롬프트로 다시 테스트해야 의미가 생깁니다. 이 점은 Ollama와 LM Studio 비교에서 남긴 기준과 같습니다.

FAQ

M4 Mac mini 16GB에서 어느 크기까지 돌릴 수 있나요?

4bit 양자화 기준으로는 Gemma 7B까지 비교적 안정적으로 실행했습니다. 27B는 메모리 부족 이슈가 발생했습니다.

LM Studio가 Ollama보다 나은 점은 무엇인가요?

모델을 눈으로 바꿔가며 테스트하기 좋고, 채팅 테스트가 빠릅니다. 반대로 CLI 자동화가 필요하면 Ollama가 더 편할 수 있습니다.

로컬 LLM을 실제 운영에 바로 올려도 되나요?

반복 검증이 필요한 보조 작업부터 붙이는 게 안전합니다. 공개 판단이나 운영 방향 결정은 아직 사람이 보조하는 게 맞습니다.