AIRLab
경희대학교 AI & Robotics 연구실 AIRLab 입니다.
Q: "이 픽셀 여기 맞나요?" VLM: "아니.. 더 뒤다..!!" DepthLM: Metric Depth From Vision Language Models
🏳️1번 토큰 보내, 2번 보내지 말고 3번 보내🏴 MoR-ViT: Efficient Vision Transformer with Mixture-of-Recursions
🤖삐빅. 인간 시대의 끝이 도래했다..🤖 RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning
타겟이 없는곳에서 이정도의 정합성을? HiGS-Calib: Hierarchical 3DGS based Targetless LiDAR-Camera Calibration
시뮬레이터에서 폐관수련..? X-SIM: Cross-Embodiment Learning via Real-to-Sim-to-Real
OpenVLA 너 더 좋아질 수 있어! Fine-Tuning Vision-Language-Action Models:Optimizing Speed and Success
뎁스 카메라 여러개 쓰는데 간섭이 문제인가요? 제가 딱 해결해 드림. DRIM: Depth Restoration With Interference Mitigation
사진? 완벽히 이해했어!(이해 못했음) Is a Picture Worth a Thousand Words? Spatial Reasoning in VLM
카메라와 라이다를 Gaussian splatting과 함께 드셔보세요 Robust LiDAR-Camera Calibration With 2D Gaussian Splatting
보인다 보여~👀 Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models
초대형 DINO가 온다.. DINOv3: Self-Supervised Learning for Vision at Unprecedented Scale
안보인다는건 핑계야! DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
Diffusion? "느려..." CARP: Visuomotor Policy Learning via Coarse-to-Fine AutoRegressive Prediction
뭐라고? 로봇 데이터가 복사가 된다고?! 🖨️🖨️🖨️ Constraint-Preserving Data Generation for Visuomotor Policy Learning
텍스트로 로봇을 제어한다고? CLIP-RT: Learning Robotic Policies from Natural Language Supervision
I have a Robot~🦾 I have a twin~🪞 Uh! RoboTwin:Dual-Arm Robot Benchmark with Generative Digital Twins
Why Is Spatial Reasoning Hard for VLMs An Attention Mechanism Perspective on Focus Areas (ICML 2025)
자, 잘 봐. 이게 화살표라는거야↗️↙️↘️⬇️↙️. 이대로만 하면 돼💫 Robotic Visual Instruction (CVPR 2025)
그럴듯함을 넘어 물리 법칙까지 정확하게 PhysFlow:Multi-modal Foundation and Video Diffusion for 4D Physical Simulation
오일러!🤜 라그랑지안!🤛 크로스!!!🤝 ELPINN: Eulerian Lagrangian Physics-Informed Neural Network
네가 그렇게 잘해? 어디 이것도 잘하나 보자 🔎️🧐️ GENMANIP: LLM-driven Simulation for Instruction-Following Manipulation
VLM : 방금 왼쪽 오른쪽 구분하는 상상함🤣🤣 Perspective-Aware Reasoning in VLM via Mental Imagery Simulation
준비됐지, 팔?💪 물론이지, 다리.🦵 Visual Whole-Body Control for Legged Loco-Manipulation (CoRL 2024)
로봇 매니퓰레이션을 VLM으로 뚝딱 🦾 OmniManip: General Robotic Manipulation via Object Primitives as Constraints
뭘 해야 하는지는 알겠는데 어떻게 해야 할지 모르겠다고? 잘 봐, 알려줄게👀 UAD: Unsupervised Affordance Distillation (ICRA2025)
물리 법칙 무시하는 AI는 LLM이 처리했으니 안심하라고👍PhyT2V: LLM-Guided Physics-Based Video Generation (CVPR 2025)
Normalization에 대해서 생각해본 적 있어? 🤔🤔 Transformers without Normalization (CVPR 2025)
하나로 모든 걸 할 수 있는 최강자 등장💪 (두둥탁) . VGGT:Visual Geometry Grounded Transformer (CVPR 2025)
이젠 로봇 관절마저 렌더링 해버림 ㄷㄷ 🩻🩻 Differentiable Robot Rendering (CoRL 2024 Oral)
상상하라, 그러면 이해할 것이다 V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction & Planning