Мысли о главном.: Обучение с подкреплением, пример на си

Вот пример реализации простого обучения с подкреплением на языке C, где агент учится выбирать между двумя действиями с разными вероятностями получения награды:

```c

#include <stdio.h>

#include <stdlib.h>

#include <time.h>

int main() {

srand(time(NULL)); // Инициализация генератора случайных чисел

// Параметры обучения

double Q[2] = {0.0, 0.0}; // Q-значения для двух действий

double alpha = 0.1; // Скорость обучения

double epsilon = 0.1; // Вероятность исследования

int episodes = 1000; // Количество эпизодов

int action_counts[2] = {0}; // Счетчик выбора действий

// Процесс обучения

for (int episode = 0; episode < episodes; episode++) {

int action;

// ε-жадный выбор действия

if ((double)rand() / RAND_MAX < epsilon) {

action = rand() % 2; // Случайное действие (исследование)

} else {

// Жадный выбор (использование)

action = (Q[0] > Q[1]) ? 0 : 1;

}

action_counts[action]++;

// Генерация награды

int reward;

if (action == 0) {

// Действие 0: 70% chance +1, 30% chance -1

reward = (rand() % 100 < 70) ? 1 : -1;

} else {

// Действие 1: 30% chance +1, 70% chance -1

reward = (rand() % 100 < 30) ? 1 : -1;

}

// Обновление Q-значения

Q[action] += alpha * (reward - Q[action]);

}

// Вывод результатов

printf("Обучение завершено!\n");

printf("Q-значения: [Действие 0: %.2f, Действие 1: %.2f]\n", Q[0], Q[1]);

printf("Выбор действий: [Действие 0: %d раз, Действие 1: %d раз]\n",

action_counts[0], action_counts[1]);

return 0;

}

```

Этот код демонстрирует:

1. **ε-жадную стратегию** выбора действий (10% случайные действия для исследования)

2. **Обновление Q-значений** по правилу:

`Q(a) ← Q(a) + α * (reward - Q(a))`

3. **Среду с разными вероятностями** наград:

- Действие 0: +1 (70%), -1 (30%)

- Действие 1: +1 (30%), -1 (70%)

После 1000 эпизодов агент должен:

- Показать более высокое Q-значение для действия 0

- Выбирать действие 0 значительно чаще

Пример вывода:

```

Обучение завершено!

Q-значения: [Действие 0: 0.42, Действие 1: -0.31]

Выбор действий: [Действие 0: 873 раз, Действие 1: 127 раз]

```

Это показывает, что агент успешно научился выбирать более выгодное действие (0), которое дает большую ожидаемую награду.

Мысли о главном.

четверг, 8 мая 2025 г.

Обучение с подкреплением, пример на си

Комментариев нет:

Отправить комментарий

Архив блога

четверг, 8 мая 2025 г.

Обучение с подкреплением, пример на си

Комментариев нет:

Отправить комментарий

Архив блога

четверг, 8 мая 2025 г.