Rapid-MLX

raullenchai

The fastest local AI engine for Apple Silicon. 4.2x faster than Ollama, 0.08s cached TTFT, 100% tool calling. 17 tool parsers, prompt cache, reasoning separation, cloud routing. Drop-in OpenAI replacement. Works with Claude Code, Cursor, Aider.

AI 简介

Rapid-MLX 是一个专为 Apple Silicon（M1/M2/M3/M4）优化的本地大语言模型推理引擎，提供超低延迟、高吞吐的本地 AI 服务。核心特性包括：基于 MLX 框架的极致性能优化（TTFT 低至 0.08s，比 Ollama 快 4.2 倍）、完整 OpenAI API 兼容性、17 种工具解析器支持、提示缓存与推理分离机制、以及云端路由能力。适用于 macOS 开发者在本地运行 Qwen、DeepSeek、Claude Code 等模型，无缝集成 Cursor、Aider、LangChain 等开发工具，无需依赖云服务或支付 API 费用。

Python

apple-silicon fastapi inference llm local-llm macos mlx openai-api python tool-calling hacktoberfest ollama-alternative m1 m2 m3 qwen deepseek claude-code cursor

在 GitHub 查看

3.2k

Stars

376

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+107

综合评分66.73

默认分支main

Rapid-MLX

Star 增长

加入交流群