
Während gängige Reinforcement-Learning-Algorithmen mit zwei bis fünf Netzwerkschichten arbeiten, steigert ein Forscherteam die Leistung eines selbstüberwachten Agenten um das 2- bis 50-Fache, indem es die Netzwerktiefe auf bis zu 1024 Schichten erhöht. Dabei entstehen völlig neue Verhaltensweisen.
Der Artikel Vom Face-Plant zu Parkour: Virtuelle Agenten lernen Akrobatik, wenn Forscher immer mehr Netzwerkschichten stapeln erschien zuerst auf The Decoder.