DeepSeek DSpark, Apple Silicon에 등장: mlx-dspark로 Mac 로컬 LLM 가속

이 글은 DeepSeek의 DSpark 추측 디코딩 방식이 mlx-dspark를 통해 Apple Silicon으로 포팅되어, 지원되는 Gemma 및 Qwen 모델에서 로컬 Mac 추론을 더 빠르게 만드는 방법을 설명합니다. 핵심은 이 포팅이 단순한 원...

소개

DeepSeek의 DSpark가 오픈소스로 공개된 지 약 일주일 만에 커뮤니티가 이를 Apple 컴퓨터로 가져왔습니다.

이 포트의 이름은 mlx-dspark입니다. Apple의 MLX 생태계를 통해 Apple Silicon에서 DSpark 스타일의 추측적 디코딩을 네이티브로 실행하며, Gemma-4 12B와 Qwen3-4B 같은 모델에서 테스트되었습니다. 보고된 Mac 벤치마크에서 Gemma-4 12B의 생성 속도는 약 1.6배 빨라졌고, Qwen3-4B는 약 1.4배 향상되었습니다.

이를 더 흥미롭게 만드는 점은 단순한 속도만이 아닙니다. 이 포트는 생성된 출력이 기본 타깃 모델과 일치하도록 유지하는 것을 목표로 하므로, 단순히 모델의 동작을 바꾸는 방식으로 가속을 달성한 것이 아닙니다.

이미지는 DeepSeek DSpark가 Apple Silicon에서 실행되는 것에 관한 트윗을 보여줍니다. 트윗 작성자는 Abdur Rahim이며, 내용은 DSpark의 추측적 디코딩이 이제 Apple Silicon에서 실행 가능하고, 이를 MLX로 포팅했으며, 공개된 드래프트 체크포인트가 Mac에서 네이티브로 실행되고, 출력은 기본 모델과 동일하지만 더 빠르다는 점을 언급합니다. 아래에는 Gemma-4 12B의 기준선과 DSpark 실행 비교 차트가 있으며, DSpark 실행 속도가 기준선보다 1.8배 빠른 것으로 표시됩니다. 이 이미지는 문서에서 DSpark의 Apple Silicon 포팅을 소개하는 내용과 관련되어 있으며, 실행 효과를 직관적으로 보여줍니다.

출처 및 이미지 참고

출처 기사: DeepSeek 신기술, Apple 칩으로 포팅! Mac 로컬 대형 모델 60% 가속
페이지의 원 출처 참고: 해당 기사는 WeChat / QbitAI에서 재게시되었습니다.
이 Markdown 버전은 출처의 사실과 공개 프로젝트 페이지를 바탕으로 한 SEO용 영어 각색본입니다. 원문의 문장별 전체 번역은 아닙니다.
출처 기사에는 실행 가능한 명령 블록이나 설정 파일이 포함되어 있지 않았습니다. 따라서 코드 블록은 삭제되거나 변경되지 않았습니다.
아래에 포함된 이미지는 출처 기사 본문과 관련된 스크린샷입니다. QR 코드, 팔로우 안내, 댓글 UI, 장식용 플랫폼 요소는 독립 콘텐츠로 포함하지 않았습니다.

Apple Silicon에서 이제 DSpark 스타일 로컬 LLM 가속 실행 가능

DeepSeek는 6월 27일 DSpark를 추측적 디코딩 접근법으로 공개했습니다. 원래의 서버 측 환경에서 DSpark는 특정 서빙 조건에서 생성 속도를 약 60%~85% 높일 수 있는 방법으로 설명되었습니다.

하지만 처음 제공된 구현은 데이터센터 GPU 환경에 초점을 맞추고 있었습니다. Apple Silicon 네이티브 워크플로는 아니었습니다. 이 상황은 Abdur Rahim이 Mac에서 MLX 기반 추론을 위해 만든 구현인 mlx-dspark로 바뀌었습니다.

![이미지는 mlx-dspark 관련 정보를 보여줍니다. 상단에는 “mlx-dspark”라는 큰 글자가 있고, 아래 텍스트는 DeepSeek의 DSpark와 z-lab의 DFlash 추측적 디코딩을 소개하며, Apple Silicon에서 네이티브로 실행된다고 설명합니다. 이는 무손실 드래프터로, Mac에서 Gemma-4 12B와 Qwen3-4B를 더 빠르게 만들 수 있으며, DSpark-vs-DFlash 정면 비교가 내장되어 있습니다(DSpark

1.6x /
1.4x; DFlash는 코드/수학에서 최대
2.1x). 이미지 하단에는 pypi, python, Apple 플랫폼, license 등의 배지가 있으며, 버전 번호 v0.0.3도 표시되어 있습니다.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/608e14aa-63d0-4a7d-ac17-f57dab56be26-03-01ca6f33-06a5-47bf-860b-3bc11c44fcca.png)

DSpark의 핵심 아이디어는 큰 틀에서 이해하기 쉽습니다.

더 작은 드래프트 모델이 여러 후보 토큰을 미리 제안합니다.
더 큰 타깃 모델이 해당 토큰들을 검사합니다.
승인된 토큰은 유지됩니다.
거부된 토큰은 일반적인 타깃 모델 경로를 통해 다시 생성됩니다.

이것이 추측적 디코딩의 핵심입니다. 더 저렴한 드래프트 경로가 앞서 추측하게 하고, 타깃 모델이 정확성을 검증하게 하는 방식입니다.

서버 GPU에서는 병목이 순수 연산보다 메모리 이동인 경우가 많기 때문에, 토큰 묶음을 검증하는 작업이 비교적 효율적일 수 있습니다. 그런 환경에서는 추가 토큰 몇 개를 검사해도 비용이 크게 늘지 않을 수 있습니다.

Apple Silicon은 다르게 동작합니다. Mac에서는 검증되는 추가 토큰 하나하나가 더 눈에 띄는 지연 시간을 추가할 수 있습니다. Rahim은 이 비용을 측정했고, Apple Silicon에서 이 방식의 가속 상한은 테스트 조건 기준으로 약 2.2배라고 추정했습니다.

이를 실용적으로 만들기 위해 그는 드래프트 체크포인트를 Hugging Face에서 MLX 워크플로로 옮기고, 이를 Gemma-4 12B 및 Qwen3-4B 타깃 모델과 결합했습니다. 검증 흐름은 MLX 내부에서 다시 구축되었고, 드래프트 가중치는 4비트로 양자화되었습니다.

이미지는 DSpark의 작동 원리를 보여줍니다. 먼저, 병렬 백본(5개의 Gemma-4 레이어)이 타깃 모델의 은닉 상태를 소비합니다(5, 17, 29, 41, 46번째 레이어에서 추출, EAGLE3 스타일). 그리고 한 번에 7개 토큰 블록을 제안합니다. 이어서 rank-256 마르코프 헤드가 이전 토큰 보정을 추가하고, 순차적으로 샘플링합니다. 이것이 유일한 순차 비용이며, “접미사 감쇠”를 저렴하게 제거합니다. 마지막으로, 신뢰도 헤드가 각 드래프트 위치에 점수를 부여합니다(블록 길이 적응은 선택 사항). 타깃 모델이 각 토큰을 검증하므로, 출력은 구성상 그리디하게 정확합니다(순수 그리디 디코딩과 동일하며, 부동소수점 근사 점수 차이만 있습니다).

보고된 M4 Pro 테스트에서 Apple의 공식 MLX 도구와 비교한 결과는 다음과 같습니다.

Gemma-4 12B는 약 18.4 tok/s에서 약 30 tok/s로 증가해, 약 1.6배 빨라졌습니다.
Qwen3-4B는 약 52.9 tok/s에서 약 73 tok/s로 증가해, 약 1.4배 빨라졌습니다.

로컬 AI 개발자에게 이는 의미 있는 향상입니다. MacBook이 여전히 데이터센터 추론 서버는 아니지만, 이런 종류의 최적화는 더 큰 로컬 모델을 개발, 테스트, 개인 워크플로에서 더 사용하기 좋게 만들어 줍니다.

이 포트는 고충실도 출력에도 초점을 맞춥니다

대형 모델 가속의 많은 로컬 포트는 먼저 그리디 디코딩에 초점을 맞춥니다. 그리디 디코딩에서는 모델이 각 단계에서 확률이 가장 높은 토큰을 단순히 선택합니다. 이렇게 하면 출력을 토큰 단위로 비교할 수 있기 때문에 정확성 테스트가 더 쉬워집니다.

mlx-dspark는 DSpark 논문에 설명된 temperature 샘플링 방식을 구현함으로써 한 단계 더 나아갑니다. 드래프트 모델이 토큰을 제안하고, 타깃 모델은 확률 기반 규칙을 사용해 이를 승인합니다. 거부된 부분은 다시 샘플링됩니다.

나머지 분포.

이 점이 중요한 이유는 샘플링이 많은 실제 애플리케이션에서 사용되는 방식이기 때문이다. 채팅 인터페이스, 창작 글쓰기, 에이전트 탐색, 제품 카피 생성은 엄격한 그리디 디코딩보다 temperature에 의존하는 경우가 많다.

Rahim은 샘플링 흐름이 동일한 temperature 설정에서 타깃 모델의 분포를 보존하는지 확인했다. 다시 말해 목표는 “충분히 비슷한” 근사치를 만드는 것이 아니다. 이 포트는 가속이 모델이 의도한 출력 동작을 바꾸지 않도록 설계되었다.

포팅 과정에서 얻은 몇 가지 실용적인 교훈도 있었다.

드래프트 모델을 매칭되는 instruction-tuned 타깃이 아니라 기본 타깃 모델과 조합하면 수락률이 급격히 떨어질 수 있다.
보고된 테스트에서는 해당 instruction-tuned 타깃으로 전환하자 수락률이 약 **47%**에서 약 **82%**로 증가했다.
타깃 모델에 bf16을 사용하면 수락률 개선보다 검증 비용 증가가 더 컸기 때문에, 이 Mac 워크플로에서는 8비트 타깃 구성이 더 실용적이었다.
드래프트 모델은 4비트로 압축되어 약 1.8GB까지 줄어들었고, 로컬 머신의 메모리에 유지하기가 더 쉬워졌다.

그 결과 단순히 더 빠르게 실행되는 것 이상의 로컬 구현이 만들어졌다. 또한 사용자가 원래 타깃 모델에서 기대하는 동작을 보존하려고 한다.

DFlash도 더 빠른 코드 및 수학 작업을 위해 통합됨

mlx-dspark 게시물이 주목을 받은 뒤 DFlash도 논의에 들어왔다. DFlash의 저자 중 한 명인 Jian Chen은 동일한 Mac 설정에서 DFlash 모델을 테스트할 수 있는지 물었다.

![이미지는 Jian Chen이 Twitter에 올린 트윗을 보여준다. 트윗 내용은 “Great work! Could you try huggingface.co/z

lab/gemma4
12B
it
DFlash?”이며, “huggingface.co/z
lab/gemma4
12B
it
DFlash” 링크가 함께 포함되어 있다. 이미지 하단에는 “huggingface.co에서 제공” 표시가 있다. 이 이미지는 문서의 “DFlash가 논의에 들어옴” 부분과 관련이 있으며, Jian Chen이 동일한 Mac 설정에서 DFlash 모델 테스트를 요청한 맥락을 보여준다.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/2d000a00-d105-4de1-abfd-7aa450db8933-05-a84fa910-8bb1-49c0-8422-fb11eb279d40.png)

DFlash는 z-lab의 또 다른 speculative decoding 접근법이다. 설계는 DSpark와 다르다. DFlash는 더 강한 의존성 처리를 바탕으로 후보 토큰을 단계별로 생성하는 대신, 블록 확산 방식의 방법을 사용해 전체 토큰 블록을 병렬로 디노이즈한다.

테스트된 설정에서 Rahim은 Jian의 포팅 스크립트를 사용해 z-lab/gemma4-12B-it-DFlash를 MLX 기반 Gemma-4 타깃 모델에 연결했다. 그런 다음 동일한 Mac에서 DFlash와 DSpark를 비교했다.

코드와 수학 같은 구조화된 작업에서 DFlash는 매우 좋은 성능을 보였다. 수락 길이는 약 5.95~6.20에 도달했고, 처리량은 보고된 설정에서 약 36 tok/s, 대략 2.1배에 달했다.

![이미지는 표로, DSpark, z

lab DFlash(cap 2), z
lab DFlash(full 16)의 chat, code, math 작업에서 처리량(tok/s)과 수락 길이(tokens)를 비교한다. DSpark의 세 작업 처리량은 각각 2.45, 2.78, 2.86이고, 수락 길이는 28.5, 32.8, 32.4이다. z
lab DFlash(cap 2)의 세 작업 처리량은 각각 2.15, 2.76, 2.71이고, 수락 길이는 24.2, 31.3, 29.6이다. z
lab DFlash(full 16)의 세 작업 처리량은 각각 2.68, 5.95, 6.20이고, 수락 길이는 16.9, 36.6, 36.3이다. 이 표는 문맥에서 설명한 DFlash와 DSpark의 다양한 작업 성능과 연결된다.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/f9855cd3-9e40-46b1-8799-dfbcaa17887d-06-9ab3f446-b88a-493d-8c78-6d291d519918.png)

그렇다고 DFlash가 항상 더 낫다는 뜻은 아니다. DFlash는 한 번에 16개 토큰의 전체 블록을 드래프트하지만, 타깃 모델이 항상 전체 블록을 수락하는 것은 아니다. 수락된 토큰 수를 수락 길이라고 한다.

개방형 채팅에서는 다음 토큰을 예측하기가 더 어렵다. 수락 길이가 더 낮게 유지될 수 있으며, 이는 전체 16토큰 블록이 실제 속도 이점으로 이어지지 않는다는 의미다. 이런 설정에서는 DSpark가 더 빠를 수 있는데, 그 이유는 DSpark의 마르코프 헤드가 병렬 토큰 드래프팅에서 자주 나타나는 “suffix decay” 문제를 줄이도록 설계되었기 때문이다.

Use We0 AI

몇 분 만에 쇼케이스 사이트를 만들고 리드를 늘리세요

아이디어를 한 문장으로 입력하면 We0 AI가 쇼케이스 사이트, 페이지, CMS를 생성하고 출시 후 고객과 트래픽 확보를 돕습니다.

무제-1

공들여 나열한 것

채우다

반지름

생성 중

![이미지는 Abdur Rahim이 Twitter에 게시한 DFlash와 DSpark 성능 비교 내용이다. 그는 Jian Chen이 z

lab/gemma4
12B
it
DFlash 모델을 MLX에 연결해 준 것에 감사를 표하며, M4 Pro Mac에서 mlx
vlm/gemma
4
12B
it
8Bit 타깃 모델과 함께 테스트했다고 밝혔다. 코드와 수학 같은 구조화된 작업에서 DFlash는 우수한 성능을 보였고, 수락 길이는 5.95~6.20, 처리량은 약 36 tok/s로 DSpark보다 약간 높았다. 그러나 개방형 채팅에서는 DFlash의 전체 16토큰 블록이 완전히 수락되기 어려웠고, DSpark의 마르코프 보정이 근소하게 더 유리했다.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/dd996a05-9e5f-439a-87c5-df44bd9e6254-07-d5956668-d5da-4a27-b00f-7e1ae52c6208.png)

이후 mlx-dspark 업데이트에서는 z-lab의 원래 DFlash 경로가 패키지에 직접 추가되었다. 또한 유효 블록 길이를 조정하는 파라미터도 추가되었다. 이를 통해 사용자는 더 유연한 선택지를 갖게 된다.

채팅형 작업에는 더 짧은 블록을 사용한다.
코드와 수학 작업에는 전체 16토큰 블록을 사용한다.
별도 프로젝트를 오갈 필요 없이 동일한 패키지에서 DSpark와 DFlash를 비교한다.

이로써 mlx-dspark는 단일 방법 실험에 그치기보다 Apple Silicon 사용자를 위한 실용적인 로컬 추론 툴킷에 더 가까워졌다.

이것이 로컬 AI 개발에 중요한 이유

로컬 LLM 워크플로는 개발자, 연구자, 소규모 팀 사이에서 점점 더 보편화되고 있다. 모델을 로컬에서 실행하면 지연 시간, 데이터 처리, 실험, 오프라인 워크플로를 더 잘 제어할 수 있다.

하지만 로컬 추론에는 흔히 한 가지 고통스러운 한계가 있다. 바로 속도다. 모델이 메모리에 들어가더라도 생성이 느리게 느껴질 수 있다.

mlx-dspark가 흥미로운 이유는 완전히 새로운 타깃 모델을 요구하지 않고 이 문제를 해결하려 하기 때문이다. speculative decoding을 사용해 기존 모델이 더 빠르게 느껴지도록 하면서도, 타깃 모델이 출력을 검증하게 한다.

Mac에서 로컬 AI 앱을 구축하는 개발자에게 이는 여러 시나리오에서 유용할 수 있다.

AI 테스트하기

서버 추론으로 이전하기 전에 기능을 테스트하는 경우.
2. 로컬 코딩 어시스턴트나 문서 어시스턴트를 실행하는 경우.
3. 다양한 작업 유형에 맞는 디코딩 전략을 비교하는 경우.
4. 가벼운 OpenAI 호환 로컬 서비스를 구축하는 경우.
5. 더 작은 Mac 구성이 특정 프로토타입에 충분한지 평가하는 경우.

트레이드오프는 여전히 중요합니다. 코드와 수학에서 잘 작동하는 방법이 열린 대화에 가장 적합한 선택은 아닐 수 있습니다. M4 Pro에서 성능이 좋은 방법도 구형 Apple Silicon 칩이나 메모리가 제한된 머신에서는 다르게 동작할 수 있습니다.

따라서 실용적인 결론은 “하나의 방법이 모든 곳에서 이긴다”가 아닙니다. Apple Silicon이 이제 DSpark, DFlash, MLX 네이티브 추론적 디코딩을 실험할 수 있는 더 강력한 경로를 갖게 되었다는 것입니다.

FAQ

DSpark란 무엇인가요?

DSpark는 DeepSeek의 DeepSpec 프로젝트와 관련된 추론적 디코딩 방법입니다. 드래프트 모델을 사용해 토큰을 미리 제안하고, 대상 모델이 이를 검증하게 하여 출력 동작을 유지하면서 추론 속도를 높이는 것을 목표로 합니다.

mlx-dspark란 무엇인가요?

mlx-dspark는 MLX를 통해 Apple Silicon에 DSpark 및 DFlash 스타일의 추론적 디코딩을 제공하는 커뮤니티 구현체입니다. 지원되는 Gemma 및 Qwen 대상 모델을 Mac에서 드래프트 모델 가속과 함께 실행할 수 있게 합니다.

mlx-dspark는 DeepSeek-V4를 로컬에서 실행하나요?

아니요. mlx-dspark 프로젝트는 로컬 Mac 대상이 DeepSeek-V4 자체가 아니라 Gemma 및 Qwen 같은 dense 모델이라고 설명합니다. DeepSeek의 DSpark 드래프터 방식을 사용하지만, Mac 워크플로에서 토큰을 생성하는 대상 모델은 Gemma 또는 Qwen입니다.

Mac에서 DSpark는 얼마나 더 빠른가요?

보고된 테스트에서 Gemma-4 12B는 약 18.4 tok/s에서 약 30 tok/s로 향상되었고, Qwen3-4B는 약 52.9 tok/s에서 약 73 tok/s로 향상되었습니다. 실제 속도는 Mac 칩, 모델, 정밀도, 프롬프트 유형, 디코딩 설정에 따라 달라집니다.

DFlash란 무엇인가요?

DFlash는 z-lab의 블록 확산 추론적 디코딩 방법입니다. 토큰 블록을 병렬로 드래프트하며, 승인 길이가 길 때 코드와 수학 같은 구조화된 작업에서 특히 효과적일 수 있습니다.

DSpark가 DFlash보다 더 나은가요?

항상 그렇지는 않습니다. DFlash는 코드와 수학 작업에서 더 나은 성능을 보일 수 있는 반면, DSpark는 긴 병렬 블록을 예측하기 어려운 개방형 채팅에서 더 강할 수 있습니다. 최선의 선택은 대상 모델과 작업 유형에 따라 달라집니다.

mlx-dspark를 사용하려면 Apple Silicon이 필요한가요?

mlx-dspark는 MLX를 통해 Apple Silicon용으로 설계되었으므로 Apple Silicon Mac이 의도된 환경입니다. 또한 호환되는 Python 설정과 Hugging Face 또는 로컬 경로의 지원 모델 가중치가 필요합니다.

추론적 디코딩은 프로덕션에 적합한가요?

적합할 수 있지만, 프로덕션 사용에는 신중한 벤치마킹이 필요합니다. 이에 의존하기 전에 출력 충실도, 승인 길이, 지연 시간, 배치 동작, 메모리 사용량, 모델 호환성, 하드웨어별 성능을 확인해야 합니다.

요약

이 글은 DeepSeek의 DSpark 추론적 디코딩 방법이 mlx-dspark를 통해 Apple Silicon으로 포팅되어, 지원되는 Gemma 및 Qwen 모델의 로컬 Mac 추론을 더 빠르게 만드는 방식을 설명합니다.

핵심은 이 포팅이 단순히 원시 속도만을 위한 것이 아니라는 점입니다. 대상 모델이 생성된 토큰을 검증하게 하여 출력 충실도를 유지하는 데에도 초점을 맞추며, 샘플링 디코딩 동작 지원도 포함합니다.

DFlash 통합은 또 다른 유용한 선택지를 추가합니다.

특히 긴 블록 단위의 초안 작성이 효과를 발휘할 수 있는 코드 및 수학 작업에서 그렇습니다. 개방형 채팅의 경우, 허용 가능한 길이를 유지하기가 더 어렵기 때문에 여전히 DSpark가 더 적합할 수 있습니다.

Mac 기반 로컬 AI 개발의 경우, mlx-dspark는 Apple Silicon 사용자에게 모든 것을 서버로 옮기지 않고도 더 빠른 LLM 추론을 테스트할 수 있는 실용적인 방법을 제공합니다.