Chain of Thought: Introducing Remote Labor Index (RLI)

Автор: Scale AI

Загружено: 2025-12-24

Просмотров: 1749048

Описание: Introducing the Remote Labor Index, RLI. Brad Kenstler, Head of Agent Capabilities and Environments, discusses RLI with Bing Liu, Head of Research, Madhu Sehwag, Research Scientist, and Mantas Mazeika, Research Scientist at the Center for AI Safety.

The Remote Labor Index (RLI) is a benchmark that empirically measures the capability of AI agents to perform real-world, economically valuable remote work.

0:00 Introduction
1:00 Overview of RLI
5:11 Benchmarking Freelance work
10:32 Comparing RLI to other professional domain benchmarks
12:18 Deep dive on RLI tasks
17:27 Making tasks representative of real-world work
22:50 Rubrics vs judge-based evaluation
26:15 Bottlenecks on agentic capabilities
29:30 Which agents does RLI evaluate
34:04 Failure modes of RLI
37:30 Implications on the future of remote labor
42:10 Unlocking performance improvements on RLI

Learn more about the benchmark at: https://scale.com/leaderboard/rli

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Chain of Thought: Introducing Remote Labor Index (RLI)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Diving into Enterprise Healthcare AI for 2026

Diving into Enterprise Healthcare AI for 2026

Chain of Thought | Intro to Scale's Agentic Leaderboards

Chain of Thought | Intro to Scale's Agentic Leaderboards

Цепочка мыслей: Представляем SEAL Showdown

Цепочка мыслей: Представляем SEAL Showdown

США и Израиль ударили по Ирану. Что происходит?

США и Израиль ударили по Ирану. Что происходит?

The 8-Step Law Firm Hiring Process for Growth: Full Overview

The 8-Step Law Firm Hiring Process for Growth: Full Overview

Мобилизация! Когда, сколько, как. - Послесловие, или Выбранные места из ответов на вопросы.

Мобилизация! Когда, сколько, как. - Послесловие, или Выбранные места из ответов на вопросы.

We predicted the future of AI in 2025…were we right? plus our 2026 predictions

We predicted the future of AI in 2025…were we right? plus our 2026 predictions

Альфред Кох – Путин 1990-х, бандиты, НТВ, Навальный / вДудь

Альфред Кох – Путин 1990-х, бандиты, НТВ, Навальный / вДудь

Путин в тупике. Кремль спрятал годовщину войны. Студентов забирают на фронт

Путин в тупике. Кремль спрятал годовщину войны. Студентов забирают на фронт

What every enterprise can learn from public GenAI failures | Human in the Loop Episode 15

What every enterprise can learn from public GenAI failures | Human in the Loop Episode 15

МИНУТУ НАЗАД: Телескоп ДЖЕЙМС УЭББ только что ПОДТВЕРДИЛ ЧТО-ТО НЕВООБРАЗИМОЕ!

МИНУТУ НАЗАД: Телескоп ДЖЕЙМС УЭББ только что ПОДТВЕРДИЛ ЧТО-ТО НЕВООБРАЗИМОЕ!

Chain of Thought: MoRe Bench

Chain of Thought: MoRe Bench

СРОЧНО! Фёдоров:

СРОЧНО! Фёдоров: "Всё может быть печально". США нанесли удар по Ирану. Томагавки,ответ Ирана,Израиль

Цепочка мыслей | Подробный анализ таблицы лидеров — бенчмарк Scale MCP Atlas

Цепочка мыслей | Подробный анализ таблицы лидеров — бенчмарк Scale MCP Atlas

Chain of Thought: Introducing ResearchRubrics

Chain of Thought: Introducing ResearchRubrics

Algebra Basics: What Is Algebra? - Math Antics

Algebra Basics: What Is Algebra? - Math Antics

Deep House Mix 2024 | Deep House, Vocal House, Nu Disco, Chillout Mix by Diamond #3

Deep House Mix 2024 | Deep House, Vocal House, Nu Disco, Chillout Mix by Diamond #3

Уютный Зимний Джаз | Атмосфера Кофейни | Смуф-Джаз для Расслабления и Учебы

Уютный Зимний Джаз | Атмосфера Кофейни | Смуф-Джаз для Расслабления и Учебы

Агентская инфраструктура — проблема, о которой вы, вероятно, не думаете | Человек в петле, эпизод 14

Агентская инфраструктура — проблема, о которой вы, вероятно, не думаете | Человек в петле, эпизод 14

Дети переодеваются в супергероев — Рождественская история игрушек для детей

Дети переодеваются в супергероев — Рождественская история игрушек для детей