Efficient on-prem deployment of Foundation models.

Turbocharging open-source models with continual pre-training, fast inference, and advanced compression