
Google veröffentlicht Multi-Token-Prediction-Drafter für seine offene Modellfamilie Gemma 4, die die Textgenerierung bis zu dreimal beschleunigen sollen. Ein kleines Hilfsmodell schlägt dabei mehrere Wörter gleichzeitig vor, das Hauptmodell prüft sie gebündelt.
Der Artikel Google beschleunigt Gemma 4 mit Multi-Token-Prediction um das Dreifache erschien zuerst auf The Decoder.

