Yes, agreed, if you have MLPs between each layer of self-attention it may be superfluous... - ThreadSky

tyrellturing.bsky.social • 115 days ago

Yes, agreed, if you have MLPs between each layer of self-attention it may be superfluous...