Name	Name	Last commit message	Last commit date
parent directory ..
Colab_Training_Notebook.py	Colab_Training_Notebook.py
README.md	README.md
evaluate_model.py	evaluate_model.py
finetune_config.py	finetune_config.py
finetune_trainer.py	finetune_trainer.py
finetune_utils.py	finetune_utils.py
requirements.txt	requirements.txt
run_training.py	run_training.py
setup_training.py	setup_training.py

Arabic Image Captioning Fine-tuning with Qwen2.5-VL

This project provides a complete pipeline for fine-tuning the Qwen2.5-VL-7B-Instruct model on Arabic image captions using LlamaFactory.

Features

Complete fine-tuning pipeline using LlamaFactory
LoRA (Low-Rank Adaptation) for efficient training
Support for both standard and conservative configurations
Automated dataset preparation from Excel files
Model evaluation and caption generation
Google Colab and local environment support

Requirements

Hardware Requirements

Minimum: 12GB VRAM (RTX 3080/4080, Tesla T4)
Recommended: 16GB+ VRAM (RTX 4090, A100)
32GB+ system RAM
~50GB free disk space

Software Requirements

Python 3.8+
CUDA 11.8+ or 12.0+
Git

Installation

Install dependencies:

pip install -r requirements_finetune.txt

The setup script will automatically install LlamaFactory

Project Structure

arabic-image-captioning-finetune/
├── finetune_trainer.py       # Main trainer class
├── finetune_config.py        # Configuration settings
├── finetune_utils.py         # Utility functions
├── setup_training.py         # Setup script
├── run_training.py           # Simple training runner
├── evaluate_model.py         # Model evaluation script
├── requirements_finetune.txt # Dependencies
└── README_FINETUNE.md       # This file

Quick Start

Google Colab Setup

Setup and prepare data:

# In Colab cell
!python setup_training.py --colab

Start training:

!python run_training.py --colab

Local Setup

Prepare your data structure:

your_base_dir/
├── Train/
│   ├── TrainSubtask2.xlsx    # Excel file with image names and Arabic descriptions
│   └── images/               # Training images
└── Test/
    └── images/               # Test images (optional)

Setup:

python setup_training.py \
    --base_dir /path/to/your/data \
    --excel_file /path/to/TrainSubtask2.xlsx \
    --images_dir /path/to/images

Start training:

python run_training.py --base_dir /path/to/your/data

Configuration Options

Standard vs Conservative Settings

Standard Configuration (for 16GB+ VRAM):

LoRA rank: 8
Batch size: 1
Gradient accumulation: 16 steps

Conservative Configuration (for 12GB VRAM):

LoRA rank: 4
Batch size: 1
Gradient accumulation: 32 steps
Reduced workers

Training Parameters

Key parameters you can adjust in finetune_config.py:

TRAINING_CONFIG = {
    "lora_rank": 8,              # LoRA rank (4-16)
    "lora_alpha": 16,            # LoRA alpha
    "learning_rate": 2.0e-5,     # Learning rate
    "num_train_epochs": 15.0,    # Number of epochs
    "warmup_ratio": 0.1,         # Warmup ratio
    # ... more options
}

Data Format

Excel File Structure

Your TrainSubtask2.xlsx should have columns:

File Name: Image filename (without extension)
Description: Arabic caption for the image

Example:

File Name	Description
IMG001	صورة تاريخية تظهر مدينة القدس القديمة
IMG002	مشهد من الحياة اليومية في فلسطين

Training Process

Environment Setup: Installs LlamaFactory and dependencies
Dataset Preparation: Converts Excel data to LlamaFactory format
Dataset Registration: Registers dataset in LlamaFactory
Configuration Creation: Generates YAML training config
Training: Runs LoRA fine-tuning
Evaluation: Tests model on validation/test images

Monitoring Training

Training outputs are saved to:

Model checkpoints: {output_dir}/checkpoint-{step}/
Training logs: Console output with loss curves
Configuration: {base_dir}/qwen_arabic_*.yaml

Evaluation and Inference

Evaluate Trained Model

# Evaluate latest checkpoint
python evaluate_model.py --base_dir /path/to/data

# Evaluate specific checkpoint
python evaluate_model.py \
    --base_dir /path/to/data \
    --checkpoint checkpoint-50 \
    --max_images 100

# List available checkpoints
python evaluate_model.py \
    --base_dir /path/to/data \
    --list_checkpoints

Results

Evaluation generates:

generated_arabic_captions.json: Detailed results
fine_tune_generated_arabic_captions.csv: CSV format results

Troubleshooting

Common Issues

CUDA Out of Memory:
- Use conservative configuration: --conservative
- Reduce batch size in config
- Enable gradient checkpointing
Dataset Loading Errors:
- Verify image paths are correct
- Check Excel file format
- Ensure images are not corrupted
LlamaFactory Installation Issues:
- Install from source: pip install -e ".[torch,metrics]"
- Check PyTorch compatibility

Memory Optimization

For limited VRAM:

# Use these settings in custom_config
custom_config = {
    "lora_rank": 4,
    "gradient_accumulation_steps": 64,
    "dataloader_num_workers": 0,
    "preprocessing_num_workers": 1
}

Performance Tips

Use FP16: Enabled by default, reduces memory usage
Gradient Checkpointing: Trades compute for memory
LoRA Settings: Lower rank = less memory, potentially less quality
Batch Size: Increase gradient accumulation instead of batch size

Model Output

The fine-tuned model will generate Arabic captions in the style of your training data. Example output:

Input: Image of historical building
Output: صورة تاريخية تظهر مبنى قديم في القدس

License

This project uses the Qwen2.5-VL model and LlamaFactory. Please refer to their respective licenses for usage terms.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

Arabic Image Captioning Fine-tuning with Qwen2.5-VL

Features

Requirements

Hardware Requirements

Software Requirements

Installation

Project Structure

Quick Start

Google Colab Setup

Local Setup

Configuration Options

Standard vs Conservative Settings

Training Parameters

Data Format

Excel File Structure

Example:

Training Process

Monitoring Training

Evaluation and Inference

Evaluate Trained Model

Results

Troubleshooting

Common Issues

Memory Optimization

Performance Tips

Model Output

License

FilesExpand file tree

ImageValFinetune

Directory actions

More options

Directory actions

More options

Latest commit

History

ImageValFinetune

Folders and files

parent directory

README.md

Arabic Image Captioning Fine-tuning with Qwen2.5-VL

Features

Requirements

Hardware Requirements

Software Requirements

Installation

Project Structure

Quick Start

Google Colab Setup

Local Setup

Configuration Options

Standard vs Conservative Settings

Training Parameters

Data Format

Excel File Structure

Example:

Training Process

Monitoring Training

Evaluation and Inference

Evaluate Trained Model

Results

Troubleshooting

Common Issues

Memory Optimization

Performance Tips

Model Output

License