FonaTech

Project_Chronos

FonaTech

⚡ Zero-Stall MoE Inference via Lookahead Prediction & Async DMA Prefetching. Optimized for SSD I/O with Hybrid MLA+Sliding Window Attention.

AI 简介

Project Chronos 是一个针对SSD+DRAM混合推理优化的存储感知MoE(Mixture of Experts)栈,旨在通过预取和异步DMA技术减少大语言模型在推理过程中的延迟。其核心功能包括使用Lookahead预测与异步DMA预取来实现零停顿推理,并采用混合MLA(Memory-Limited Attention)加滑动窗口注意力机制以优化SSD I/O性能。特别适合需要高吞吐量、低延迟的大规模语言模型应用场景,如生成式AI服务等,在处理大量数据时能显著提高效率并降低成本。

Python
Apache License 2.0
202
Stars
20
Forks
21
Watchers
1
Issues

Star 增长

今日0
近 7 天0
近 30 天+22
综合评分46.17
默认分支main