cactus-compute

needle

cactus-compute

26m function call model that runs on incredibly small devices

AI 简介

Needle 是一个专为极小设备设计的26M参数函数调用模型。它基于Gemini 3.1精简而来,采用简单注意力网络架构,能够在本地Mac或PC上进行微调。核心功能包括在Cactus平台上以每秒6000个token的预填充速度和1200个token的解码速度运行,支持工具调用,并且权重完全开源。适用于手机、手表、眼镜等消费级设备上的个人AI应用,特别适合单次函数调用场景,在此场景下其性能优于一些更大规模的模型如FunctionGemma-270m、Qwen-0.6B等。尽管这些大模型在对话场景中表现更佳,但Needle以其轻量级特性重新定义了小型设备上的AI应用。

Python
MIT License
2.6k
Stars
174
Forks
20
Watchers
7
Issues

Star 增长

今日+27
近 7 天+61
近 30 天+193
综合评分108.73
默认分支main