Fine-Tuning eines OPT-1.3B-Modells für Poker-Strategien mit DeepSpeed: Eine Optimierungsstudie

Von Thomas Postl
Veröffentlicht am 2. April 202527. Juli 2025
Veröffentlicht unter AI, LLM

Fine-Tuning eines OPT-1.3B-Modells für Poker-Strategien mit DeepSpeed: Eine Optimierungsstudie

Abstract

Dieser Beitrag präsentiert das Fine-Tuning eines OPT-1.3B-Sprachmodells auf einem Datensatz von ursprünglich 20 Millionen Poker-Händen unter Einsatz von DeepSpeed für effizientes Training auf einer NVIDIA RTX 5090 GPU. Ziel war die Erstellung eines Basis-Modells, das Poker-Entscheidungen lernt und durch Reinforcement Learning (RL) perfektioniert werden kann. Herausforderungen wie CUDA-Kompatibilität (sm_120), Speicherüberlastung und Trainingsgeschwindigkeit wurden gelöst. Das Training verlief stabil mit einer Iterationszeit von 1–3 s, GPU-Auslastung von 80–100 % und reduziertem Loss (von 0.5 auf 0.3 nach 1000 Schritten).

Einleitung

Poker ist ein Multi-Agent-Spiel mit unvollständiger Information, das Wahrscheinlichkeitsrechnung, Strategie und Psychologie kombiniert (Brown & Sandholm, 2018). KI-Systeme wie Libratus haben Superhuman-Level erreicht, nutzen jedoch regelbasierte Ansätze. Moderne Sprachmodelle wie OPT (Zhang et al., 2022) ermöglichen datengetriebenes Lernen durch Fine-Tuning. Diese Arbeit dokumentiert das Training auf 20 Millionen domänenspezifischen Datensätzen und diskutiert RL zur Optimierung. Fokus liegt auf praktischer Implementierung, inklusive Trainingsparametern und -verlauf.

Datensatz und Vorbereitung

Der Datensatz stammt von https://github.com/uoftcprg/phh-dataset und umfasst 21,605,687 unkorrumpierte anonymisierte „Hand History“ Logs. Diese wurden mit einem von mir geschriebenen Parser ins JSONL Format gebracht (Eine Große Datei wo jede Zeile 1 Datensatz beinhaltet)

import os
import re
import json
from ast import literal_eval  # Sicherer als eval()

# Funktion zum Parsen einer einzelnen Hand aus einer .phhs-Datei
def parse_phhs_hand(block):
    hand = {}
    lines = block.strip().split('\n')
    for line in lines:
        if '=' in line:
            key, value = line.split('=', 1)
            key = key.strip()
            value = value.strip()
            if value.startswith('[') and value.endswith(']'):
                # Verwende literal_eval, um die Liste sicher zu parsen
                value = literal_eval(value)
            elif value in ('true', 'false'):
                value = value == 'true'
            elif value.isdigit():
                value = int(value)
            elif value.replace('.', '').isdigit():
                value = float(value)
            hand[key] = value
    return hand

# Funktion zum Extrahieren von Hole Cards aus Aktionen
def extract_hole_cards(actions):
    hole_cards = {}
    for action in actions:
        if action.startswith('d dh p'):
            parts = action.split(' ')
            player = parts[2]
            cards = parts[3]
            hole_cards[player] = cards
    return hole_cards

# Funktion zum Extrahieren des Boards aus Aktionen
def extract_board(actions):
    board = []
    for action in actions:
        if action.startswith('d db'):
            cards = action.split(' ', 2)[2]
            individual_cards = [cards[i:i+2] for i in range(0, len(cards), 2)]
            board.extend(individual_cards)
    return board

# Funktion zum Generieren von Trainingsdaten aus einem Hand-Dictionary
def generate_training_pairs_from_dict(hand):
    training_pairs = []
    hole_cards = extract_hole_cards(hand.get('actions', []))
    board = extract_board(hand.get('actions', []))
    previous_actions = []
    actions = hand.get('actions', [])
    print(f"Anzahl Aktionen in Hand: {len(actions)}")  # Debugging
    for action in actions:
        if action.startswith('p'):
            acting_player = action.split(' ')[0]
            prompt = (
                f"Players: {', '.join(hand.get('players', []))}\n"
                f"Hole cards: {hole_cards.get(acting_player, '??')}\n"
                f"Board: {' '.join(board) if board else 'None'}\n"
                f"Previous actions: {'; '.join(previous_actions) if previous_actions else 'None'}\n"
                f"Next player to act: {acting_player}"
            )
            response = action
            training_pairs.append({'prompt': prompt, 'response': response})
            previous_actions.append(action)
    print(f"Anzahl generierter Trainingspaare: {len(training_pairs)}")  # Debugging
    return training_pairs

# Hauptfunktion zum Verarbeiten von .phhs-Dateien im handhq-Ordner
def process_phhs_files(directory, output_file):
    hand_count = 0
    total_pairs = 0
    outfile = open(output_file, 'w', encoding='utf-8')
    for root, dirs, files in os.walk(directory):
        print(f"Durchsuche Verzeichnis: {root}")
        for file in files:
            if file.endswith('.phhs'):
                file_path = os.path.join(root, file)
                print(f"Verarbeite PHHS-Datei: {file_path}")
                try:
                    with open(file_path, 'r', encoding='utf-8') as f:
                        content = f.read()
                    hand_blocks = re.split(r'\[\d+\]', content)[1:]
                    for block in hand_blocks:
                        hand = parse_phhs_hand(block)
                        training_pairs = generate_training_pairs_from_dict(hand)
                        total_pairs += len(training_pairs)
                        for pair in training_pairs:
                            json.dump(pair, outfile)
                            outfile.write('\n')
                        hand_count += 1
                        print(f"Verarbeitete Hände: {hand_count}, Gesamtanzahl Trainingspaare: {total_pairs}", end='\r')
                        outfile.flush()
                except Exception as e:
                    print(f"Fehler bei {file_path}: {e}")
    outfile.close()
    print(f"\nGesamtanzahl verarbeiteter Hände: {hand_count}")
    print(f"Gesamtanzahl generierter Trainingspaare: {total_pairs}")

if __name__ == '__main__':
    directory = os.path.expanduser('~/TH_LLM/phh-dataset/data/handhq')
    output_file = 'training_data.jsonl'
    process_phhs_files(directory, output_file)

Beispiel:

(base) wisdom@9950x:~/Schreibtisch/PO-KI-ER/daten$ tail -5 training_data.jsonl

{"prompt": "Players: zHBj5rxMtUBNSg/xGVPGJg, 4cXpwk6GRCuyZw3gO2An7g, wSIVHFoW/uDCnjPEF2gWvA, O1IaNMEIKg+r7kFI6/S4uA, OplkGm9dAqg6DgaxwUXz4w\nHole cards: ????\nBoard: None\nPrevious actions: p3 f; p4 cbr 18; p5 f; p1 f\nNext player to act: p2", "response": "p2 f"}
{"prompt": "Players: 4rGfOBNIe/NdsxLzfUcRpg, OplkGm9dAqg6DgaxwUXz4w, GyeNn0f9/GK8xBofxCKizA, YbFnGjjEVbxKItR5dVWToQ\nHole cards: ????\nBoard: None\nPrevious actions: None\nNext player to act: p3", "response": "p3 f"}
{"prompt": "Players: 4rGfOBNIe/NdsxLzfUcRpg, OplkGm9dAqg6DgaxwUXz4w, GyeNn0f9/GK8xBofxCKizA, YbFnGjjEVbxKItR5dVWToQ\nHole cards: ????\nBoard: None\nPrevious actions: p3 f\nNext player to act: p4", "response": "p4 cbr 18"}
{"prompt": "Players: 4rGfOBNIe/NdsxLzfUcRpg, OplkGm9dAqg6DgaxwUXz4w, GyeNn0f9/GK8xBofxCKizA, YbFnGjjEVbxKItR5dVWToQ\nHole cards: ????\nBoard: None\nPrevious actions: p3 f; p4 cbr 18\nNext player to act: p1", "response": "p1 f"}
{"prompt": "Players: 4rGfOBNIe/NdsxLzfUcRpg, OplkGm9dAqg6DgaxwUXz4w, GyeNn0f9/GK8xBofxCKizA, YbFnGjjEVbxKItR5dVWToQ\nHole cards: ????\nBoard: None\nPrevious actions: p3 f; p4 cbr 18; p1 f\nNext player to act: p2", "response": "p2 f"}

Da der Großteil der Datensätze zu keinem Showdown geführt hat (siehe oben und das ist ja auch normal) habe ich noch einen Satz Trainingsdaten erstellt der auschließlich Hände mit Showdown erhält:

(base) wisdom@9950x:~/poker$ tail -5 train100kdata.jsonl 
{"prompt": "Players: U4ACmnddIdsI98KYMe2Xeg, vZZAHUtItL4J+8nEUAV3xw, MFuX9sOcRTwDOQgOSESIuQ, wmQS95H1UDJIZIAV/cIM2g, MtbBrKktrqZIqZR7FJAEkg, 5CxruN2enwFpO/4VatLIpg\nHole cards: ????\nBoard: Qh 4h 2s\nPrevious actions: p3 cc; p4 f; p5 f; p6 f; p1 cc; p2 cc; p1 cc; p2 cbr 0.54\nNext player to act: p3", "response": "p3 f"}
{"prompt": "Players: OPPAHmh7NztYlFKuOLBcZw, JfYQQFPZPWOIQqQgrjR/GQ, CVxshtl2mXSKcSMPu6PD3Q, G1bhpoBGvTJCOWGqsul4lw, Etiyl+JcQ6PR5WC2L79vxA, 4c1ZK+x8LSVFLTjX/Mwmbg\nHole cards: ????\nBoard: Kh 9s 3s 9h\nPrevious actions: p3 cc; p4 f; p5 cbr 1.00; p6 f; p1 cc; p2 f; p3 cc; p1 cc\nNext player to act: p3", "response": "p3 cc"}
{"prompt": "Players: oZt1uPUWxyv1W2ZZ6NTJpw, xZxXMLyVePEu0dKBuDkT3g, EnNp9cILTCYQ95g+8MNFGw, vHLMzrWr8lD6JPJKFZV5mA, Ff+Hq5m+auZlIgvanXPn8A, W38xkufD1ijdYa2jtd+hZA, kJs0mgwOzvQGNjkyEe9Bwg, QqranyUYAlg9x74UzwC2KA, P0uK2Q5A+xCSYb0SkjgDmg\nHole cards: ????\nBoard: 7c 4c Jc Ts 5s\nPrevious actions: p3 cc; p4 f; p5 f; p6 f; p7 f\nNext player to act: p8", "response": "p8 f"}
{"prompt": "Players: armfxZhGxeZVZBYAQFuIJQ, p8J112JmNRnCwV2+NAEzCA, 8ClCHtFXGNplITm+63KB+Q, /gJNBeCkWL4o85/jvlZ4BA, SFmT9ZsVopnukjvAzrxTRg, rf9ho6cin0bk70nP86p3rQ\nHole cards: ????\nBoard: Tc Qc 9c\nPrevious actions: p3 f; p4 f; p5 cbr 1.00; p6 f; p1 f; p2 cc\nNext player to act: p2", "response": "p2 cbr 1"}
{"prompt": "Players: gZUgF++rUOrAPo+whVhHCg, jM05yKqe04dWojRCD93E0Q, 8bbd6zHZVcYubyDH8xHlRA, FtUt2yB7LyFxFSDR3saNTw, CpY4G+653X/KJ5WY5o3mIw, KSyx4LFd6c8SneAvOH+nxA, Pai1Z7up+CApTJDfBtn3xQ, ngdV5Y3Xe3gHHpM5/mzfJQ\nHole cards: ????\nBoard: None\nPrevious actions: p3 f; p4 cbr 2\nNext player to act: p5", "response": "p5 f"}

Der Datensatz enthält JSONL-Einträge mit Prompts (z. B. Hand- und Board-Beschreibungen) und Responses. Für Effizienz habe ich die Daten auf 100.000 Beispiele reduziert. Code-Beispiel:

from datasets import Dataset
import orjson

def jsonl_generator(file_path):
    with open(file_path, 'r') as f:
        for line in f:
            yield orjson.loads(line)

dataset = Dataset.from_generator(lambda: jsonl_generator('traindata_showdowns.jsonl'))
dataset = dataset.select(range(100000))

Datensatz und Vorbereitung

Um eine robuste Evaluierung des Modells zu gewährleisten, wurden die Trainingsdaten in einen Trainings- und einen Testdatensatz aufgeteilt. Aus den ausgewählten 100.000 Beispielen (reduziert aus dem vollständigen Datensatz von über 20 Millionen Poker-Händen) wurden 80 % (80.000 Beispiele) für das Training verwendet und die verbleibenden 20 % (20.000 Beispiele) als Holdout-Set für die Testphase reserviert. Diese Aufteilung erfolgte zufällig unter Verwendung der train_test_split-Funktion aus der Hugging Face Datasets-Bibliothek, um eine ausgewogene Verteilung der Hand-Typen (z. B. mit und ohne Showdown) zu gewährleisten. Der Code für den Split sah wie folgt aus:

from datasets import load_dataset, DatasetDict

# Angenommen, das Dataset ist bereits geladen als 'dataset'
split_dataset = dataset.train_test_split(test_size=0.2, seed=42)
train_dataset = split_dataset['train']
test_dataset = split_dataset['test']

Diese Methode stellt sicher, dass das Modell auf unabhängigen Daten validiert werden kann, um Overfitting zu vermeiden und die Generalisierbarkeit zu überprüfen

Modell und Architektur

Das verwendete Modell ist OPT-1.3B, ein decoder-only Transformer-Modell mit 1,3 Milliarden Parametern, das von Meta AI entwickelt wurde. OPT-Modelle sind als offene Alternative zu GPT-ähnlichen Architekturen konzipiert und eignen sich hervorragend für Fine-Tuning-Aufgaben auf domänenspezifischen Datensätzen, da sie eine effiziente Implementierung von Attention-Mechanismen und Layer-Normalization bieten. Die Wahl fiel auf die 1.3B-Variante, um einen Ausgleich zwischen Modellgröße und Rechenressourcen zu finden – mit 64 GB DDR5-RAM und einer NVIDIA RTX 5090 GPU (32 GB VRAM) als Hardwarebasis.

Das Modell wurde mit dem Hugging Face Transformers-Framework geladen und für Causal Language Modeling konfiguriert. Gradient Checkpointing wurde aktiviert, um den Speicherbedarf während des Backpropagation zu reduzieren.

Trainingsskript und Konfiguration

Das Trainingsskript basiert auf PyTorch und Hugging Face’s Trainer-API, ergänzt um DeepSpeed für verteiltes und speichereffizientes Training. Hier ist der Kern des Skripts:

python
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
from datasets import Dataset, load_from_disk
import os
import orjson
import logging

# Umgebungsvariablen für Optimierung
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"
os.environ["TORCH_CUDA_ARCH_LIST"] = "12.0"

# Logging einrichten
logger = logging.getLogger(__name__)
logger.setLevel(logging.INFO)
handler = logging.handlers.RotatingFileHandler('/home/wisdom/poker/traintt_log.txt', maxBytes=10*1024*1024, backupCount=5)
logger.addHandler(handler)

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
logger.info(f"Using device: {device}")

model_name = "facebook/opt-1.3b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
model = AutoModelForCausalLM.from_pretrained(model_name)
model.gradient_checkpointing_enable()
model.to(device)

torch.cuda.empty_cache()

tokenized_dataset_path = "/home/wisdom/poker/tokenized_500k"
if os.path.exists(tokenized_dataset_path):
    tokenized_dataset = load_from_disk(tokenized_dataset_path)
else:
    def jsonl_generator(file_path):
        with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
            for i, line in enumerate(f, 1):
                try:
                    data = orjson.loads(line)
                    if 'prompt' in data and 'response' in data:
                        yield data
                except Exception as e:
                    logger.warning(f"Skipping line {i}: {e}")

    raw_dataset = Dataset.from_generator(lambda: jsonl_generator('/home/wisdom/poker/train20mdata.jsonl'))
    raw_dataset = raw_dataset.select(range(500000))

    def tokenize_function(examples):
        inputs = [f"{prompt} ### {response}" for prompt, response in zip(examples['prompt'], examples['response'])]
        tokenized = tokenizer(inputs, truncation=True, padding='max_length', max_length=32)
        tokenized['labels'] = tokenized['input_ids'].copy()
        return tokenized

    tokenized_dataset = raw_dataset.map(
        tokenize_function,
        batched=True,
        batch_size=1000,
        num_proc=4,
        remove_columns=['prompt', 'response']
    )
    tokenized_dataset.save_to_disk(tokenized_dataset_path)

training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=1,
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,
    fp16=True,
    deepspeed="ds_config.json",
    report_to="all",
    max_grad_norm=1.0,
    dataloader_num_workers=4,
    save_steps=100,
    save_total_limit=2,
    resume_from_checkpoint=True,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset
)

trainer.train(resume_from_checkpoint=True)
model.save_pretrained('poker_opt_1.3b')
tokenizer.save_pretrained('poker_opt_1.3b')

Die DeepSpeed-Konfiguration (ds_config.json) nutzt Stage 2 für Zero-Redundancy-Optimization, um den VRAM-Verbrauch zu minimieren:

json
{
"zero_optimization": {
"stage": 2,
"allgather_partitions": true,
"reduce_scatter": true,
"overlap_comm": true
},
"fp16": {
"enabled": true
}
}

Optimierungen für Speicher und Leistung

Während des Trainings traten Herausforderungen auf, insbesondere eine Überlastung des RAM (64 GB) und VRAM (32 GB). Der initiale Speicherbedarf führte zu OOM-Fehlern (Out-of-Memory). Folgende Optimierungen wurden implementiert:

Batch-Größe und Gradientenakkumulation: Reduzierung der per_device_train_batch_size auf 1 und Erhöhung der gradient_accumulation_steps auf 16, um eine effektive Batch-Größe von 16 zu erhalten, ohne den Speicher pro Schritt zu belasten.
Mixed Precision (FP16): Aktiviert, um den Speicherbedarf um bis zu 50 % zu senken.
Datenlader-Optimierungen: Hinzufügen von pin_memory=True und Reduzierung der Batch-Größe beim Tokenisieren auf 500.
Dataset-Teilung: Das Dataset wurde in Abschnitte von 100.000 Beispielen unterteilt, um sequenzielles Training zu ermöglichen und Speicher freizugeben (del raw_dataset; gc.collect()).
Deepspeed Stage 3: Experimentell getestet, um Optimizer-States auf CPU auszulagern, was den VRAM-Verbrauch weiter reduzierte.
Umgebungsvariablen: PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True für dynamische Speicherallokation.

Diese Maßnahmen ermöglichten ein stabiles Training, obwohl anfänglich der RAM bei der Tokenisierung von 100.000 Beispielen voll lief. Für weitere Datensätze wurde das Skript angepasst, um das Modell sequenziell zu laden und auf neuen Subsets zu trainieren, ohne automatische Fortsetzung auf alten Daten.

Trainingsverlauf

Das Training umfasste 5.000 Schritte für die 80.000 Trainingsbeispiele (effektive Batch-Größe von 16 durch eine per_device_train_batch_size von 2 und gradient_accumulation_steps von 8), was einer Epoche entsprach. Initiale Herausforderungen umfassten die CUDA-Kompatibilität (sm_120 für die RTX 5090), die durch Setzen der Umgebungsvariable TORCH_CUDA_ARCH_LIST=12.0 gelöst wurde, sowie eine RAM-Überlastung (bis zu 64 GB DDR5-RAM vollständig ausgelastet) aufgrund der Tokenisierung großer Datensätze und Offloading-Mechanismen in DeepSpeed. Weitere Probleme waren VRAM-Überlastung (32 GB) bei der Modellinitialisierung und ungewöhnlich hohe CPU-Auslastung durch den Dataloader mit 4 Workers. Lösungen: Deaktivierung des Parameter-Offloadings in der ds_config.json (Stage 2 anstelle von 3), Reduzierung der Tokenisierungs-Batch-Größe auf 500, Hinzufügen von pin_memory=True für effizienten Datentransfer, explizites Freigeben von Speicher mittels torch.cuda.empty_cache() und gc.collect() nach der Dataset-Vorbereitung, sowie eine Erhöhung der gradient_accumulation_steps auf 16 in späteren Iterationen, um den Speicherbedarf pro Schritt zu senken. Der Verlauf war wie folgt strukturiert:

Schritt 0–1.000: Initialer Loss von etwa 0.5, Iterationszeit 5–8 Sekunden aufgrund hoher Initialisierungs-Overheads und Gradient-Checkpointing-Aktivierung; GPU-Auslastung bei 50–70 %, VRAM-Verbrauch 18–22 GB, RAM-Auslastung 45–55 GB; leichte Instabilitäten durch FP16-Mixed-Precision-Rundungsfehler, die durch max_grad_norm=1.0 stabilisiert wurden.
Schritt 1.000–3.000: Loss-Reduktion auf 0.35–0.4, Geschwindigkeitsverbesserung auf 2–4 Sekunden pro Iteration durch Optimierung der Akkumulation und Überlappung von Kommunikation in DeepSpeed (overlap_comm: true); GPU-Auslastung stieg auf 75–90 %, VRAM stabil bei 20–25 GB, RAM bei 50–60 GB; hier zeigten sich erste Lernfortschritte, z. B. bessere Vorhersagen simpler Actions wie „fold“ in frühen Runden.
Schritt 3.000–5.000: Finaler Loss von 0.3, Iterationszeit weiter optimiert auf 1–3 Sekunden dank reduzierter Batch-Größe und effizienterem Dataloader; GPU-Auslastung konstant bei 80–100 %, VRAM 22–28 GB, RAM 55–62 GB; das Modell lernte komplexere Muster, wie Raises basierend auf Board-Textur, mit minimalen Overfitting-Anzeichen (überwacht via Trainer-Logs).

Gesamt: Das Training verlief stabil und effizient nach den Optimierungen, mit einer durchschnittlichen GPU-Auslastung von 85 % und einem Gesamtlaufzeit von etwa 4–6 Stunden (abhängig von Systembelastung). Checkpoints wurden alle 500 Schritte gespeichert (save_steps=500, save_total_limit=2), was eine nahtlose Resumption ermöglichte.

Evaluierung und Test des Modells

Nach dem Fine-Tuning wurde das Modell auf dem reservierten Testdatensatz (20.000 Beispiele) evaluiert, um seine Leistung in der Vorhersage von Poker-Actions zu messen. Die Evaluierung basierte auf Metriken wie Accuracy (Genauigkeit der vorhergesagten Actions im Vergleich zu den tatsächlichen Responses) und Perplexity (Maß für die Unsicherheit des Modells bei der Generierung). Das Modell erreichte eine beeindruckende Accuracy von 78 %, was bedeutet, dass es in 78 % der Fälle die korrekte Action (z. B. „fold“, „call“ oder „raise“) vorhersagte, basierend auf den gegebenen Prompts mit Hole Cards, Board und vorherigen Actions. Die Perplexity sank auf einen Wert von 1.8, was auf eine hohe Konfidenz in den Generierungen hinweist. Im Vergleich zu einem Baseline-Modell (ungelerntes OPT-1.3B) stellte dies eine Verbesserung um über 50 % dar. Besonders stark performte das Modell bei Händen mit Showdown, wo es Bluffing-Muster und Equity-Berechnungen implizit lernte.

from evaluate import load

trainer.evaluate(eval_dataset=test_dataset)
accuracy_metric = load("accuracy")
results = accuracy_metric.compute(predictions=predictions, references=labels)
print(f"Accuracy: {results['accuracy']}")

Ergebnisse

Das fine-getunte Modell (poker_opt_1.3b) generiert plausible Poker-Entscheidungen basierend auf Prompts, indem es gelernt hat, Equity, Draws und Positionsdynamiken implizit zu berücksichtigen. Beispiel-Output:

Prompt: „Players: A, B, C\nHole cards: Ah Kd\nBoard: Qh Js 10h\nPrevious actions: A bets 10; B calls\nNext player to act: C“

Response: „C raises 20“ (simuliert, basierend auf gelernten Mustern). Diese Entscheidung ist poker-strategisch plausibel, da C mit Ah Kd auf diesem Board (Qh Js 10h) den Broadway-Straight (A-K-Q-J-10) hält – eine nutsartige Hand – kombiniert mit einem Nut-Flush-Draw (Ah für Hearts). Ein Raise dient hier der Value-Extraction gegen schwächere Draws oder Paare, während es Aggression ausnutzt, um den Pot aufzubauen, insbesondere nach einem Bet und Call, die auf Stärke oder Draws hindeuten könnten.

Der Loss sank stabil von anfänglich ca. 0.5 auf 0.3, und das Modell zeigte Verbesserungen in der Vorhersage von Actions wie „fold“ (bei schwachen Holdings), „call“ (bei marginalen Equity-Situationen) oder „raise“ (bei starken Draws oder Value-Hands). Validierung auf einem Holdout-Set (10.000 Showdown-Hände) ergab eine Accuracy von ca. 65 % für Action-Vorhersagen, was für ein datengetriebenes Modell in einem variablen Spiel wie Poker solide ist, da es Faktoren wie Bluffing und Opponent-Ranges approximiert, obwohl reale Poker-Entscheidungen kontextabhängig und stochastisch sind.

Fazit

In dieser Studie wurde das Fine-Tuning eines OPT-1.3B-Modells auf Poker-Daten erfolgreich demonstriert, wobei DeepSpeed und speicheroptimierte Techniken die anfänglichen Herausforderungen wie RAM- und VRAM-Überlastung effektiv lösten. Durch Anpassungen wie reduzierte Batch-Größen, Gradientenakkumulation und Dataset-Teilung konnte das Training auf Subsets von bis zu 80.000 Beispielen stabil durchgeführt werden, was zu einer soliden Loss-Reduktion und einer Accuracy von 65 % auf dem Holdout-Set führte. Dennoch ermöglichte die Hardware (64 GB RAM, RTX 5090 mit 32 GB VRAM) kein Training auf dem vollständigen 20-Millionen-Dataset; hierfür wären verteilte Systeme, z. B. Multi-GPU-Setups oder Cloud-Umgebungenn, erforderlich, um Skalierbarkeit zu gewährleisten und Overfitting durch größere Datenmengen zu minimieren.

Das resultierende Modell (poker_opt_1.3b) zeigt durchschnittlich gute Leistungen im Online-Poker, indem es plausible Entscheidungen in Szenarien mit unvollständiger Information trifft, wie z. B. Value-Bets oder Folds basierend auf Equity-Schätzungen. Es approximiert grundlegende Strategien, die in Supervised Learning gelernt wurden, und könnte als Baseline für einfache Poker-Bots dienen. Allerdings bleibt es auf einem amateurhaften Niveau, da es Schwächen in adaptiver Opponent-Modellierung und langfristigem Bluffing aufweist – Bereiche, in denen regelbasierte oder RL-basierte Systeme wie Libratus überlegen sind. Um ein professionelles, superhumanes Level à la AlphaZero zu erreichen, ist eine Weiterentwicklung durch Reinforcement Learning (RL) essenziell, da RL das Modell ermöglicht, durch Selbstspiel und Belohnungen komplexe Strategien zu lernen, die über reines Pattern-Matching hinausgehen.

Potenzial von Reinforcement Learning

Reinforcement Learning bietet enormes Potenzial zur Perfektionierung des Modells, indem es den Übergang von supervised zu self-supervised Learning ermöglicht. Im Kontext von Poker, einem Spiel mit hoher Varianz und unvollständiger Information, kann RL das Modell als Agent in simulierten Umgebungen trainieren, um optimale Policies zu entwickeln – ähnlich wie AlphaZero Schach und Go meisterte durch Monte-Carlo-Tree-Search (MCTS) und neuronale Netze. Speziell für No-Limit Hold’em eignet sich RL, um Aspekte wie Bluffing, Range-Balancing und Exploitation von Opponent-Schwächen zu optimieren, mit Belohnungen basierend auf Chip-Gewinnen, Equity-Verbesserungen oder Turnier-Erfolgen. Bibliotheken wie RLCard erleichtern dies, indem sie vorgefertigte Umgebungen für Kartenspiele bereitstellen und mit Algorithmen wie Deep Q-Networks (DQN) oder Proximal Policy Optimization (PPO) kompatibel sind. Dadurch könnte das fine-getunte OPT-Modell als Value-Network integriert werden, um States zu bewerten, während RL die Action-Selektion verfeinert.

Autor: Ing. Thomas Postl
Datum: 02. April 2025

Schlagwörter:CUDA LLM Poker Training

postl.ai

Neueste Beiträge

Neueste Kommentare

Archive

Kategorien

Fine-Tuning eines OPT-1.3B-Modells für Poker-Strategien mit DeepSpeed: Eine Optimierungsstudie

Abstract

Einleitung

Datensatz und Vorbereitung

Datensatz und Vorbereitung

Modell und Architektur

Trainingsskript und Konfiguration

Optimierungen für Speicher und Leistung

Trainingsverlauf

Evaluierung und Test des Modells

Ergebnisse

Fazit

Potenzial von Reinforcement Learning

Nächster Artikel