هدف: موازیسازی StrasGPT (پیادهسازی C از LLaMa 3.x) با OpenMP و MPI برای افزایش سرعت.
الزامها: محاسبات فقط float32؛ فقط استفاده از OpenMP (تِرد) و MPI (پروسس).
محیط/مدلها: اجرا و اندازهگیری روی VMهای 16GB؛ مدلها: 1B، 3B، 8B، 70B.
کدهایی که باید دست بخورد:
strasgpt.c::main()، transformer.c::transformer_predict[_chunk]() (+ اختیاری: لود وزنها برای شارد).
CLI نهایی:
make parallel بدون هشدار؛ -n
برای OpenMP؛ اجرا با mpirun -n ؛ تعداد توکنها با یک سوییچ جدا مثل -k .
ایدههای سریع موازیسازی:
OpenMP روی attention/FFN/RMSNorm/embedding؛
MPI ساده: شارد logits (+ Allgatherv، نمونهگیری در rank0، Bcast).
گزارش: tok/s برای prefill و decode + Speedup/Efficiency با نمودار.