Skip to main content

FinetuningConfig

Below is the class definition for the Finetuning Config. It inherits from the BaseModel defined in Pydantic.

class FinetuningConfig(BaseModel):
base_model: str
epochs: PositiveInt | None = Field(default=None)
learning_rate: PositiveFloat | None = Field(default=None)
rank: PositiveInt | None = Field(default=None)
target_modules: List[str] | None = Field(default=None)

By default, Predibase sets the following default values (subject to change):

  • epochs: 3
  • learning_rate: 0.0002
  • rank: 16
  • target_modules: see below in the "Target Modules" section
Note regarding base_model

Use the short names provided in the list of available models.

Target Modules

The target_modules parameter is a list of strings, where each string is the name of a module in the model that you want to fine-tune. The default value is None, which means that the default modules will be fine-tuned. Per base model, we have the following target modules:

  • codellama-13b-instruct
    • q_proj (default)
    • v_proj (default)
  • codellama-70b-instruct
    • q_proj (default)
    • v_proj (default)
  • gemma-2b
    • q_proj (default)
    • v_proj (default)
  • gemma-2b-instruct
    • q_proj (default)
    • v_proj (default)
  • gemma-7b
    • q_proj (default)
    • v_proj (default)
  • gemma-7b-instruct
    • q_proj (default)
    • v_proj (default)
  • llama-2-13b
    • q_proj (default)
    • v_proj (default)
  • llama-2-13b-chat
    • q_proj (default)
    • v_proj (default)
  • llama-2-70b
    • q_proj (default)
    • v_proj (default)
  • llama-2-70b-chat
    • q_proj (default)
    • v_proj (default)
  • llama-2-7b
    • q_proj (default)
    • v_proj (default)
  • llama-2-7b-chat
    • q_proj (default)
    • v_proj (default)
  • llama-3-8b
    • q_proj (default)
    • v_proj (default)
  • llama-3-8b-instruct
    • q_proj (default)
    • v_proj (default)
  • llama-3-70b
    • q_proj (default)
    • v_proj (default)
  • llama-3-70b-instruct
    • q_proj (default)
    • v_proj (default)
  • mistral-7b
    • q_proj (default)
    • v_proj (default)
  • mistral-7b-instruct
    • q_proj (default)
    • v_proj (default)
  • mistral-7b-instruct-v0-2
    • q_proj (default)
    • v_proj (default)
  • mixtral-8x7b-instruct-v0-1
    • q_proj (default)
    • k_proj
    • v_proj (default)
    • o_proj
  • phi-2
    • q_proj (default)
    • k_proj
    • v_proj (default)
    • dense
    • fc1 (default)
    • fc2 (default)
  • zephyr-7b-beta
    • q_proj (default)
    • v_proj (default)
  • phi-3-mini-4k-instruct
    • qkv_proj (default)
    • o_proj (default)
    • gate_up_proj
    • down_proj
  • codellama-7b-instruct
    • q_proj (default)
    • v_proj (default)
  • codellama-7b
    • q_proj (default)
    • v_proj (default)