Подсилващо Обучение
Автор: AI Училище
Загружено: 2026-03-03
Просмотров: 4
Описание:
Как ИИ се учи от грешките си? Тайните на Подсилващото обучение 🎮🤖
В предишните уроци видяхме как компютрите се учат чрез готови отговори (супервизирано) или търсят скрити модели сами (несупервизирано). Днес обаче ще разгледаме най-вълнуващия подход: Подсилващото обучение (Reinforcement Learning).
Това е методът на „пробата, грешката и наградата“, чрез който се обучават роботите, автономните автомобили и виртуалните шампиони на шах.
Ето какво точно ще научите в този урок:
1. Цикълът „Агент – Среда“ Ще разберете как работи основната структура на този ИИ:
Агентът: Самият алгоритъм (например робот или виртуален играч, който трябва да реши лабиринт).
Средата: Светът, в който той оперира (самият лабиринт или шахматната дъска).
Разликата в трудността: Ще научите защо за ИИ е лесно да играе шах (където вижда цялата дъска – напълно наблюдаема среда), но е изключително трудно да управлява кола (където разчита само на сензори и камери – частично наблюдаема среда).
2. Системата на „Моркова и Тоягата“ (Награди) Агентът не знае предварително правилното решение, затова действа на сляпо и чака обратна връзка.
Ако направи правилна стъпка (приближи се до изхода на лабиринта), получава положителна награда.
Ако сгреши (блъсне се в стена), получава наказание или отрицателна награда.
3. Математиката на решенията: Процес на Марков (MDP) Ще надникнем "под капака" и ще разгледаме 4-те стълба, по които алгоритъмът взема решения във времето:
📸 Състояния (States): Моментната „снимка“ на ситуацията (къде се намира колата и пешеходците в дадена секунда).
🕹️ Действия (Actions): Възможните ходове (нагоре, надолу, наляво, надясно).
🎲 Функция на преход: Правилата, по които светът се променя след ход. Понякога те са предвидими (като местене на пул в игра на дама), а понякога хаотични (двукрак робот, който стъпва на криво и може да падне).
🏆 Функция на награда: Числовата оценка за това колко добър или лош е бил ходът.
4. Голямата цел: Политика (Policy) ИИ не търси просто бързи точки. Крайната му цел е да изгради политика – дългосрочна стратегия, която да му донесе максимална натрупана награда във времето.
Внимание: Ще научите и защо този метод не работи за всичко. Ако имате малък бизнес със само 1-2 продажби на месец, този ИИ ще се провали, защото му трябва огромен обем от данни и хиляди опити, за да се научи.
Гледайте видеото, за да разберете как машините придобиват сложни умения и се адаптират към нашия непредсказуем свят!
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: