Кэширование с мгновенным откликом: сократите затраты на ИИ на 90%.
Автор: Prompt Engineering
Загружено: 2026-05-27
Просмотров: 8764
Описание:
Спасибо компании Descope за спонсорство этого видео, ознакомьтесь с Agent Identify Hub: https://descope.plug.dev/BWwF1nd
Я объясняю, почему цены на модели ИИ растут в большинстве лабораторий, в то время как DeepSeek снизила цену на V4 Pro на 75%, и почему оперативное кэширование является ключевым фактором. Я объясняю две фазы запроса LLM (вычислительно-ограниченное предварительное заполнение против декодирования, ограниченного памятью), что хранит кэш ключ-значение и почему повторное использование кэшированных префиксов может снизить стоимость и задержку, ссылаясь на экономию, о которой говорится в статье «Не ломайте кэш». Затем я рассказываю, как многоголовочный механизм скрытого внимания (MLA) DeepSeek уменьшает кэш ключ-значение настолько, чтобы хранить его на распределенном дисковом массиве вместо дорогостоящего HBM, что позволяет снизить стоимость попадания в кэш. В заключение я поделюсь структурой запросов Anthropic/Claude Code, обеспечивающей сохранение кэша, и основными способами борьбы с кэшированием (изменения моделей/инструментов, динамические системные запросы, наивная компакция, обновления), а также шаблонами, благоприятствующими кэшированию, такими как инструменты режима планирования, безопасная для кэша компакция и использование команды /rewind.
00:00 Ценовые войны ИИ
01:11 Объяснение кэширования подсказок
02:29 Что хранит кэш ключ-значение
03:53 Дисковое кэширование DeepSeek
05:55 Идентификация агента спонсора
07:48 Слои кэширования кода Клода
08:42 Пять способов обойти кэш
11:22 Сообщения, а не подсказки
12:17 Функции, дружественные к кэшу
Мое приложение для преобразования голоса в текст: whryte.com
Веб-сайт: https://engineerprompt.ai/
Курс RAG «За пределами основ»:
https://prompt-s-site.thinkific.com/c...
Подпишитесь на рассылку новостей localgpt:
https://tally.so/r/3y9bb0
Давайте общаться:
🦾 Discord: / discord
☕ Купите мне кофе: https://ko-fi.com/promptengineering
|🔴 Patreon: / promptengineering
💼 Консультации: https://calendly.com/engineerprompt/c...
📧 Контакт для деловых вопросов: [email protected]
Стать участником: http://tinyurl.com/y5h28s6h
💻 Предварительно настроенная виртуальная машина localGPT: https://bit.ly/localGPT (используйте код: PromptEngineering для скидки 50%).
Подпишитесь на рассылку новостей localgpt:
https://tally.so/r/3y9bb0
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: