
Project_Chronos
FonaTech
⚡ Zero-Stall MoE Inference via Lookahead Prediction & Async DMA Prefetching. Optimized for SSD I/O with Hybrid MLA+Sliding Window Attention.
AI 简介
Project Chronos 是一个针对SSD+DRAM混合推理优化的存储感知MoE(Mixture of Experts)栈,旨在通过预取和异步DMA技术减少大语言模型在推理过程中的延迟。其核心功能包括使用Lookahead预测与异步DMA预取来实现零停顿推理,并采用混合MLA(Memory-Limited Attention)加滑动窗口注意力机制以优化SSD I/O性能。特别适合需要高吞吐量、低延迟的大规模语言模型应用场景,如生成式AI服务等,在处理大量数据时能显著提高效率并降低成本。
Python
Apache License 2.0202
Stars
20
Forks
21
Watchers
1
Issues
Star 增长
今日0
近 7 天0
近 30 天+22
综合评分46.17
默认分支main