Tiiny-AI

PowerInfer

Tiiny-AI

High-speed Large Language Model Serving for Local Deployment

AI 简介

PowerInfer 是一个用于本地部署的高速大语言模型推理引擎。它利用激活局部性优化技术,支持CPU和GPU设备,特别是消费级GPU,以实现高效的模型推理。项目采用了C++开发,具备高度优化的计算性能,并且通过稀疏化技术显著减少了模型参数量,同时保持了优秀的推理速度与准确度。适用于需要在个人电脑、移动设备或边缘计算场景中运行大规模语言模型的应用场合,如自然语言处理任务的快速响应服务。

C++
MIT License
9.5k
Stars
578
Forks
102
Watchers
123
Issues

Star 增长

今日0
近 7 天+16
近 30 天+87
综合评分80.99
默认分支main