Abstract Dieser Beitrag präsentiert das Fine-Tuning eines OPT-1.3B-Sprachmodells auf einem Datensatz von ursprünglich 20 Millionen Poker-Händen unter Einsatz von DeepSpeed für effizientes Training auf einer NVIDIA RTX 5090 GPU. Ziel war die Erstellung eines Basis-Modells, das Poker-Entscheidungen lernt und durch Reinforcement Learning (RL) perfektioniert werden kann. Herausforderungen wie CUDA-Kompatibilität (sm_120), Speicherüberlastung und Trainingsgeschwindigkeit wurden gelöst.