Actividad - Averaging model weights seems to help across textual domains as well, see... - Kbin en español, instancia regional para personas de Costa Rica y más allá.

nsa, hace 11 meses

Averaging model weights seems to help across textual domains as well, see Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models and Scaling Expert Language Models with Unsupervised Domain Discovery. I wonder if the two types of averaging (across hyperparameters and across domains) can be combined to produce even better models.

responder

reportar

actividad

copiar enlace

copiar enlace al fediverso

Loading...