arXivYiming Zhao, Yu Zeng, Wenxuan Huang, Zhen Fang, Qing Miao, Qisheng Su, Jiawei Zhao, Jiayin Cai, Lin Chen, Zehui Chen, Yukun Qi, Yao Hu, Xiaolong Jiang, Feng ZhaoFri, May 15, 2026, 8:43 AM PDT

score 14.7

AI video model learns to pinpoint events with interactive visual prompts

Original: VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

Source: arxiv.org ↗

Writing ELI5 summary…