AlexCheema

talos-vs-macbook

AlexCheema

microGPT benchmarks: a single M4 Max MacBook Pro P-core in C runs Karpathy's 4192-parameter transformer at ~71x the throughput of TALOS-V2's FPGA implementation.

AI 简介

该项目对比了在M4 Max MacBook Pro上运行Karpathy的4192参数微型GPT模型的不同实现方式与TALOS-V2 FPGA实现的性能。核心功能包括使用Python、NumPy、MLX(CPU和GPU)、C(fp32+NEON)及C(Q4.12定点)五种方法执行模型,并评估其吞吐量与能耗比。结果显示,优化后的C语言版本在单个M4 Max P核上的表现远超FPGA实现,达到约71倍的吞吐量。此项目适用于需要了解不同编程语言和硬件平台对小型神经网络性能影响的研究者或开发者。

Python
MIT License
161
Stars
13
Forks
152
Watchers
1
Issues

Star 增长

今日0
近 7 天0
近 30 天+5
综合评分43.94
默认分支main