PowerInfer

Tiiny-AI

High-speed Large Language Model Serving for Local Deployment

AI 简介

PowerInfer 是一个用于本地部署的高速大语言模型推理引擎。它利用激活局部性优化技术，支持CPU和GPU设备，特别是消费级GPU，以实现高效的模型推理。项目采用了C++开发，具备高度优化的计算性能，并且通过稀疏化技术显著减少了模型参数量，同时保持了优秀的推理速度与准确度。适用于需要在个人电脑、移动设备或边缘计算场景中运行大规模语言模型的应用场合，如自然语言处理任务的快速响应服务。

C++

MIT License

large-language-models llama llm llm-inference local-inference

在 GitHub 查看

9.5k

Stars

578

Forks

102

Watchers

123

Issues

Star 增长

今日0

近 7 天+16

近 30 天+87

综合评分80.99

默认分支main