AIRLab

경희대학교 AI & Robotics 연구실 AIRLab 입니다.

Q: "이 픽셀 여기 맞나요?" VLM: "아니.. 더 뒤다..!!" DepthLM: Metric Depth From Vision Language Models

🏳️1번 토큰 보내, 2번 보내지 말고 3번 보내🏴 MoR-ViT: Efficient Vision Transformer with Mixture-of-Recursions

🏳️1번 토큰 보내, 2번 보내지 말고 3번 보내🏴 MoR-ViT: Efficient Vision Transformer with Mixture-of-Recursions

🤖삐빅. 인간 시대의 끝이 도래했다..🤖 RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

🤖삐빅. 인간 시대의 끝이 도래했다..🤖 RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

타겟이 없는곳에서 이정도의 정합성을? HiGS-Calib: Hierarchical 3DGS based Targetless LiDAR-Camera Calibration

타겟이 없는곳에서 이정도의 정합성을? HiGS-Calib: Hierarchical 3DGS based Targetless LiDAR-Camera Calibration

시뮬레이터에서 폐관수련..? X-SIM: Cross-Embodiment Learning via Real-to-Sim-to-Real

시뮬레이터에서 폐관수련..? X-SIM: Cross-Embodiment Learning via Real-to-Sim-to-Real

OpenVLA 너 더 좋아질 수 있어! Fine-Tuning Vision-Language-Action Models:Optimizing Speed and Success

OpenVLA 너 더 좋아질 수 있어! Fine-Tuning Vision-Language-Action Models:Optimizing Speed and Success

뎁스 카메라 여러개 쓰는데 간섭이 문제인가요? 제가 딱 해결해 드림. DRIM: Depth Restoration With Interference Mitigation

뎁스 카메라 여러개 쓰는데 간섭이 문제인가요? 제가 딱 해결해 드림. DRIM: Depth Restoration With Interference Mitigation

사진? 완벽히 이해했어!(이해 못했음) Is a Picture Worth a Thousand Words? Spatial Reasoning in VLM

사진? 완벽히 이해했어!(이해 못했음) Is a Picture Worth a Thousand Words? Spatial Reasoning in VLM

카메라와 라이다를 Gaussian splatting과 함께 드셔보세요 Robust LiDAR-Camera Calibration With 2D Gaussian Splatting

카메라와 라이다를 Gaussian splatting과 함께 드셔보세요 Robust LiDAR-Camera Calibration With 2D Gaussian Splatting

보인다 보여~👀 Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models

보인다 보여~👀 Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models

초대형 DINO가 온다.. DINOv3: Self-Supervised Learning for Vision at Unprecedented Scale

초대형 DINO가 온다.. DINOv3: Self-Supervised Learning for Vision at Unprecedented Scale

안보인다는건 핑계야! DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

안보인다는건 핑계야! DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

Diffusion? "느려..." CARP: Visuomotor Policy Learning via Coarse-to-Fine AutoRegressive Prediction

뭐라고? 로봇 데이터가 복사가 된다고?! 🖨️🖨️🖨️ Constraint-Preserving Data Generation for Visuomotor Policy Learning

뭐라고? 로봇 데이터가 복사가 된다고?! 🖨️🖨️🖨️ Constraint-Preserving Data Generation for Visuomotor Policy Learning

텍스트로 로봇을 제어한다고? CLIP-RT: Learning Robotic Policies from Natural Language Supervision

텍스트로 로봇을 제어한다고? CLIP-RT: Learning Robotic Policies from Natural Language Supervision

I have a Robot~🦾 I have a twin~🪞 Uh! RoboTwin:Dual-Arm Robot Benchmark with Generative Digital Twins

I have a Robot~🦾 I have a twin~🪞 Uh! RoboTwin:Dual-Arm Robot Benchmark with Generative Digital Twins

Why Is Spatial Reasoning Hard for VLMs An Attention Mechanism Perspective on Focus Areas (ICML 2025)

Why Is Spatial Reasoning Hard for VLMs An Attention Mechanism Perspective on Focus Areas (ICML 2025)

자, 잘 봐. 이게 화살표라는거야↗️↙️↘️⬇️↙️. 이대로만 하면 돼💫 Robotic Visual Instruction (CVPR 2025)

자, 잘 봐. 이게 화살표라는거야↗️↙️↘️⬇️↙️. 이대로만 하면 돼💫 Robotic Visual Instruction (CVPR 2025)

그럴듯함을 넘어 물리 법칙까지 정확하게 PhysFlow:Multi-modal Foundation and Video Diffusion for 4D Physical Simulation

그럴듯함을 넘어 물리 법칙까지 정확하게 PhysFlow:Multi-modal Foundation and Video Diffusion for 4D Physical Simulation

오일러!🤜 라그랑지안!🤛 크로스!!!🤝 ELPINN: Eulerian Lagrangian Physics-Informed Neural Network

오일러!🤜 라그랑지안!🤛 크로스!!!🤝 ELPINN: Eulerian Lagrangian Physics-Informed Neural Network

네가 그렇게 잘해? 어디 이것도 잘하나 보자 🔎️🧐️ GENMANIP: LLM-driven Simulation for Instruction-Following Manipulation

네가 그렇게 잘해? 어디 이것도 잘하나 보자 🔎️🧐️ GENMANIP: LLM-driven Simulation for Instruction-Following Manipulation

VLM : 방금 왼쪽 오른쪽 구분하는 상상함🤣🤣 Perspective-Aware Reasoning in VLM via Mental Imagery Simulation

VLM : 방금 왼쪽 오른쪽 구분하는 상상함🤣🤣 Perspective-Aware Reasoning in VLM via Mental Imagery Simulation

준비됐지, 팔?💪 물론이지, 다리.🦵 Visual Whole-Body Control for Legged Loco-Manipulation (CoRL 2024)

준비됐지, 팔?💪 물론이지, 다리.🦵 Visual Whole-Body Control for Legged Loco-Manipulation (CoRL 2024)

로봇 매니퓰레이션을 VLM으로 뚝딱 🦾 OmniManip: General Robotic Manipulation via Object Primitives as Constraints

로봇 매니퓰레이션을 VLM으로 뚝딱 🦾 OmniManip: General Robotic Manipulation via Object Primitives as Constraints

뭘 해야 하는지는 알겠는데 어떻게 해야 할지 모르겠다고? 잘 봐, 알려줄게👀 UAD: Unsupervised Affordance Distillation (ICRA2025)

뭘 해야 하는지는 알겠는데 어떻게 해야 할지 모르겠다고? 잘 봐, 알려줄게👀 UAD: Unsupervised Affordance Distillation (ICRA2025)

물리 법칙 무시하는 AI는 LLM이 처리했으니 안심하라고👍PhyT2V: LLM-Guided Physics-Based Video Generation (CVPR 2025)

물리 법칙 무시하는 AI는 LLM이 처리했으니 안심하라고👍PhyT2V: LLM-Guided Physics-Based Video Generation (CVPR 2025)

Normalization에 대해서 생각해본 적 있어? 🤔🤔 Transformers without Normalization (CVPR 2025)

Normalization에 대해서 생각해본 적 있어? 🤔🤔 Transformers without Normalization (CVPR 2025)

하나로 모든 걸 할 수 있는 최강자 등장💪 (두둥탁) . VGGT:Visual Geometry Grounded Transformer (CVPR 2025)

하나로 모든 걸 할 수 있는 최강자 등장💪 (두둥탁) . VGGT:Visual Geometry Grounded Transformer (CVPR 2025)

이젠 로봇 관절마저 렌더링 해버림 ㄷㄷ 🩻🩻 Differentiable Robot Rendering (CoRL 2024 Oral)

이젠 로봇 관절마저 렌더링 해버림 ㄷㄷ 🩻🩻 Differentiable Robot Rendering (CoRL 2024 Oral)

상상하라, 그러면 이해할 것이다 V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction & Planning

상상하라, 그러면 이해할 것이다 V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction & Planning