@TechCrunch作者Devin Coldewey
图源:新抖
为了实现逼真的呈现,该方法将场景参数化为三个部分:遮挡物 → 人 → 背景,并通过新颖的优化目标将这些渲染解耦。为了处理在真实世界场景中可能出现的遮挡情况,该方法引入了感知遮挡的场景参数化,将场景解耦为遮挡、人和背景三个部分。此外,该方法设计了广泛的客观函数,以帮助强化将人从遮挡和背景中解耦,并确保人体模型的完整性。
论文网址:https://arxiv.org/abs/2401.00368
CogAgent还提供了可视化代理的能力,能够返回任何给定任务的计划、下一步行动和带有坐标的具体操作。它还增强了与图形用户界面相关的问题解答功能,可以处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。另外,通过改进预培训和微调,CogAgent还增强了OCR相关任务的能力。这些功能的提升使得CogAgent在多个基准测试上实现了最先进的通用性能。