
omlx
jundot
LLM inference server with continuous batching & SSD caching for Apple Silicon — managed from the macOS menu bar
AI 简介
oMLX 是一个专为苹果芯片优化的大型语言模型推理服务器,支持连续批处理和SSD缓存,并可通过macOS菜单栏直接管理。其核心功能包括持续批处理、分层KV缓存以及通过菜单栏进行直观管理,这些特性使得在本地运行大型语言模型变得更加高效与便捷。技术上,oMLX使用Python开发,兼容Apple Silicon架构,适用于需要高性能LLM推理的应用场景,如代码辅助工具Claude Code等。对于希望在Mac上实现快速响应且资源消耗可控的语言模型应用开发者来说,oMLX是一个理想的选择。
Python
16.4k
Stars
1.4k
Forks
87
Watchers
428
Issues
Star 增长
今日0
近 7 天+515
近 30 天+1579
综合评分96.43
默认分支main