[Open DMQA Seminar] Sight Range Dilemma in Multi Agent Reinforcement Learning

Автор: ‍김성범[ 교수 / 산업경영공학부 ]

Загружено: 2025-11-15

Просмотров: 534

Описание: Sight range dilemma란 다중 에이전트 강화학습에서 에이전트의 시야 범위가 너무 좁으면 협력에 필요한 정보를 놓치고, 반대로 너무 넓으면 불필요한 정보가 과도하게 포함되어 학습 효율이 떨어지는 문제를 말한다. 금일 세미나에서는 이 문제를 해결하기 위한 두 가지 대표 연구인 multi-agent communication via self-supervised information aggregation (MASIA) [1]와 dynamic sight range selection (DSR) [2]을 소개한다. MASIA는 에이전트 간 통신 과정에서 발생하는 다수의 메시지를 단순히 결합하는 대신, 정보 집계와 중요 정보 추출을 통해 협력에 필요한 핵심 정보만을 효율적으로 전달하도록 설계된 방법론이다. 반면 DSR은 관측 함수에 시야 범위 제약을 직접 반영하고, 비정상성 환경에서도 안정적인 시야 범위의 탐색을 보장하기 위해 SW-UCB 기반 메타-컨트롤러를 활용하여 매 에피소드마다 최적의 시야 범위를 선택한다. 두 연구는 각각 정보 처리와 시야 조절이라는 다른 접근법으로 sight range dilemma를 완화하고, 다중 에이전트 강화학습의 성능을 향상시킨다.

참고자료
[1] Gronauer, S., & Diepold, K. (2022). Multi-agent deep reinforcement learning: a survey. Artificial Intelligence Review, 55(2), 895-943.
[2] Wang, T., Wang, J., Zheng, C., & Zhang, C. (2019). Learning nearly decomposable value functions via communication minimization. arXiv preprint arXiv:1910.05366.
[3] Guan, C., Chen, F., Yuan, L., Wang, C., Yin, H., Zhang, Z., & Yu, Y. (2022). Efficient multi-agent communication via self-supervised information aggregation. Advances in Neural Information Processing Systems, 35, 1020-1033.
[4] Liao, W. C., Wu, T. R., & Wu, I. C. (2025, May). Dynamic Sight Range Selection in Multi-Agent Reinforcement Learning. In Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems (pp. 1327-1335).

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

[Open DMQA Seminar] Sight Range Dilemma in Multi Agent Reinforcement Learning

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

[Open DMQA Seminar] DINOv2, DINOv3: Self-supervised Vision Foundation Model

[Open DMQA Seminar] DINOv2, DINOv3: Self-supervised Vision Foundation Model

[논문 리뷰] MARLadona - Towards Cooperative Team Play Using Multi-Agent Reinforcement Learning

[논문 리뷰] MARLadona - Towards Cooperative Team Play Using Multi-Agent Reinforcement Learning

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

[Open DMQA Seminar] Industrial Image Anomaly Detection

[Open DMQA Seminar] Industrial Image Anomaly Detection

Beyond Single-Modal Boundary: Cross-Modal Anomaly Detection through Visual Prototype

Beyond Single-Modal Boundary: Cross-Modal Anomaly Detection through Visual Prototype

# DMQA Lab Open AI/ML Seminar

# DMQA Lab Open AI/ML Seminar

[Open DMQA Seminar] Tabular Data Generation

[Open DMQA Seminar] Tabular Data Generation

"모든 게 국산화" 한국 군사력이 생각보다 더 어마무시한 이유 (조한범 박사)

"컴공 = 취업" 공식은 깨졌다..당신의 일자리는 안녕한가요? | SBS 뉴스토리

[Open DMQA Seminar] Reinforcement Learning with Human Feedback-PbRL 4

[Open DMQA Seminar] Reinforcement Learning with Human Feedback-PbRL 4

최근 대형사고 크게 친 김정은 때문에 북러관계 제대로 파탄났습니다

최근 대형사고 크게 친 김정은 때문에 북러관계 제대로 파탄났습니다 "푸틴은 지금 환장할 지경입니다" (김금혁 시사평론가, 진재일 교수, 김대영 군사평론가 / 북한 특집)

[Open DMQA Seminar] LLMs for Time Series

[Open DMQA Seminar] LLMs for Time Series

[Open DMQA Seminar] Transformer-Based Tabular Modeling and Transfer Learning Applications

[Open DMQA Seminar] Transformer-Based Tabular Modeling and Transfer Learning Applications

봐도 봐도 모르겠는 '양자컴퓨터'의 모든 것 l KBS 다큐 인사이트 - 퀀텀: 두 번째 불의 발견, 양자컴퓨터 25.06.12 방송

봐도 봐도 모르겠는 '양자컴퓨터'의 모든 것 l KBS 다큐 인사이트 - 퀀텀: 두 번째 불의 발견, 양자컴퓨터 25.06.12 방송

[킥] AI 다음은 양자: '루닛 첫 투자자' 정지훈 교수가 본 투자 기회

[킥] AI 다음은 양자: '루닛 첫 투자자' 정지훈 교수가 본 투자 기회

"딱 5년 남았어요" AGI 시대 오면 '이런' 인간만 살아남을 겁니다 (카이스트 김대식 교수)

ОБХОД ВСЕХ БЛОКОВ👍 БЕСПЛАТНОЕ ПРИЛОЖЕНИЕ БЕЗ РЕКЛАМЫ! ОБХОД БЛОКИРОВОК Ютуб, Телеграм, Ватсап!

ОБХОД ВСЕХ БЛОКОВ👍 БЕСПЛАТНОЕ ПРИЛОЖЕНИЕ БЕЗ РЕКЛАМЫ! ОБХОД БЛОКИРОВОК Ютуб, Телеграм, Ватсап!

[Open DMQA Seminar] Unsupervised Domain Generalization

[Open DMQA Seminar] Unsupervised Domain Generalization

[Open DMQA Seminar] Test Time Prompt Tuning in Vision Language Models

[Open DMQA Seminar] Test Time Prompt Tuning in Vision Language Models

AI 시대의 필수 지식 MCP 이 영상 하나로 끝내세요!

AI 시대의 필수 지식 MCP 이 영상 하나로 끝내세요!