Predictable Scale

N(Model Size)

D(Training Token Size)

Results

Optimal Token Wise BatchSize: -

Learning Rate: -

Model Type

N(Model Size)

Na(Activate Parameters)

D(Training Token Size)

Please select parameters and click "Show"