needle

cactus-compute

26m function call model that runs on incredibly small devices

AI 简介

Needle 是一个专为极小设备优化的 2600 万参数函数调用大模型，基于 Gemini 3.1 蒸馏而来，采用轻量级 Simple Attention Network 架构。核心特点包括：无 FFN 的高效编码器、8 层解码器、ZCRMSNorm 归一化、GQA+RoPE 注意力，支持本地微调与端侧推理；在 Cactus 运行时可达 6000 tokens/sec 预填充与 1200 tokens/sec 解码速度。适用于手机、智能手表、AR 眼镜等资源受限终端上的单次函数调用任务（如工具选择、API 调用），不侧重多轮对话，强调低延迟、低功耗的个人 AI 场景。

Python

MIT License

cactus gemini gemma llm on-device-ai

在 GitHub 查看官方网站

2.7k

Stars

184

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+48

综合评分28.8

默认分支main

needle

Star 增长

加入交流群