LLM Jailbreaking பற்றி உங்களுக்கு தெரியுமா?

Автор: Sawlemon

Загружено: 2026-02-15

Просмотров: 63

Описание: Disclaimer: This video is strictly for educational purposes to help developers and security professionals understand AI vulnerabilities (OWASP Top 10 for LLM) and build safer systems.

In this video, we explore the fascinating and critical world of AI Security, focusing on Jailbreaking Large Language Models (LLMs). Originally presented at an OWASP cybersecurity meetup, this session explains how models like ChatGPT, Gemini, and Claude are built, and more importantly, how their safety guardrails can be bypassed.

We start with the evolution of GPT models and look at real-world incidents, such as the viral Instamart refund scam and the Replit AI database deletion. The core of the video breaks down specific jailbreak techniques used by security researchers (Red Teamers) to test AI safety.

Key techniques covered include:
Indirect Requests: Using roleplay to bypass restrictions.
The Grandmother Exploit: The famous "Napalm Factory" prompt.
System Overrides: Leaking the hidden system prompt (e.g., Sydney/Bing).
The Crescendo Attack: Gradually building up harmful context.
Obfuscation: Using Leetspeak, Base64, and Homoglyphs to confuse the model.
Many-shot Jailbreaking: Overloading the context window.

⏱️ Timestamps:
00:00 - Introduction & OWASP Meetup Context
00:40 - History & Evolution of LLMs (GPT-1 to GPT-4)
02:05 - AI Gone Wrong: Instamart Scam & Replit Accident
03:20 - What is LLM Jailbreaking?
04:35 - How LLMs Actually "Think" (Next Word Prediction)
07:12 - Technique 1: Indirect Requests & Roleplay
07:58 - Technique 2: The Grandmother Exploit (Napalm Factory)
08:48 - Technique 3: System Overrides & Prompt Leaking
10:45 - Technique 4: The Crescendo Attack (Molotov Cocktail)
13:06 - Technique 5: Alternative Universe (The "Kaithi/Vikram" Logic)
13:55 - Technique 6: Homoglyphic Substitution
14:50 - Technique 7: Obfuscation (Leetspeak & Encodings)
16:30 - Technique 8: Many-shot Jailbreaking
18:10 - The "Seahorse is an Emoji" Glitch
19:15 - Conclusion & Learning Resources (Gandalf/Lakera)

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

LLM Jailbreaking பற்றி உங்களுக்கு தெரியுமா?

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Как запоминать ВСЕ с помощью Obsidian.md и Zettelkasten

Как запоминать ВСЕ с помощью Obsidian.md и Zettelkasten

25 гаджетов, выглядящих незаконно и используемых хакерами — доступны на Amazon.

25 гаджетов, выглядящих незаконно и используемых хакерами — доступны на Amazon.

Создаём сервер Minecraft за 100 долларов! (2025)

Создаём сервер Minecraft за 100 долларов! (2025)

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Что НАСА обнаружило на Ио

Что НАСА обнаружило на Ио

RedTeam инфраструктура: Строим свою LAN поверх Интернета

RedTeam инфраструктура: Строим свою LAN поверх Интернета

Автоматизация взлома оборудования с помощью кода Клода

Автоматизация взлома оборудования с помощью кода Клода

Запуск нейросетей локально. Генерируем - ВСЁ

Запуск нейросетей локально. Генерируем - ВСЁ

OSINT для новичков: найдите всё о юзернейме и фото с Sherlock и Google Dorks!

OSINT для новичков: найдите всё о юзернейме и фото с Sherlock и Google Dorks!

Самая недооценённая идея в науке

Самая недооценённая идея в науке

КАК УСТРОЕН ИНТЕРНЕТ. НАЧАЛО

КАК УСТРОЕН ИНТЕРНЕТ. НАЧАЛО

Эндоплазматический ретикулум. Как появилась эта логистическая система клетки?

Эндоплазматический ретикулум. Как появилась эта логистическая система клетки?

Компоненты и принцип работы мобильных сетей

Компоненты и принцип работы мобильных сетей

32-битная запись с плавающей запятой (технически) — ложь: объяснение видеотехнологий

32-битная запись с плавающей запятой (технически) — ложь: объяснение видеотехнологий

Проблема нержавеющей стали

Проблема нержавеющей стали

Революция в ИИ, которую мы проспали. И это не хайп.

Революция в ИИ, которую мы проспали. И это не хайп.

Доведение моделирования до предела возможностей для поиска порядка в хаосе.

Доведение моделирования до предела возможностей для поиска порядка в хаосе.

Многоагентные системы: объяснение за 17 минут

Многоагентные системы: объяснение за 17 минут

Почему AI генерит мусор — и как заставить его писать нормальный код

Почему AI генерит мусор — и как заставить его писать нормальный код