1已点赞

北理工团队在遥感多模态大语言模型研究方面取得重要进展

研发快讯 2024年06月28日 11:56:51来源：北京理工大学 18440

摘要目前遥感领域视觉模型大多都遵循“一任务一架构”的范式，使得这些专才模型无法在同一架构下统一处理多模态图像和多任务推理。

　　【仪表网研发快讯】2024年5月，北京理工大学前沿交叉学院数据流体课题组近日在遥感多模态大语言模型研究中取得重要进展，相关成果以“EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain”为题发表在国际顶级期刊《IEEE Transactions on Geoscience and Remote Sensing (TGRS)》上发表。北京理工大学为唯一通讯单位，北京理工大学前沿交叉学院博士张伟和雷达技术研究院博士蔡妙鑫为共同第一作者，毛雪瑞教授为通讯作者。

　　目前遥感领域视觉模型大多都遵循“一任务一架构”的范式，使得这些专才模型无法在同一架构下统一处理多模态图像和多任务推理。最近，通用多模态大语言模型(Multi-modal Large Language Models，简称MLLMs)在自然图像领域取得了显著成功。然而MLLMs在遥感领域的发展仍处于起步阶段。为填补这一空白，毛雪瑞教授团队提出了EarthGPT遥感通才模型，将多传感器图像理解和多种遥感视觉任务都无缝集成在同一个框架中。EarthGPT可在自然语言指令下，实现光学、合成孔径雷达(SAR)图像和红外图像的理解，完成遥感场景分类、图像描述、视觉问答、目标描述、视觉定位和目标检测等多种任务(图1)。

　　图1 EarthGPT可通过自然语言交互的方式，完成多传感器遥感图像解译和多视觉推理任务

　　遥感通才模型EarthGPT包括三项关键技术：(1)视觉增强感知机制，通过混合专家编码器提炼视觉粗粒度语义信息和细粒度感知信息。(2)跨模态交互理解方法，基于大规模自然图像数据集做预训练，赋予大语言模型基本的图像理解能力和多轮对话能力。(3)统一指令微调方法，在本文构建的遥感多模态指令数据集MMRS-1M(含100万图像-文本对)上做微调，实现遥感场景下的综合图像解译能力(图2)。

图2 EarthGPT模型架构图

　　EarthGPT具备“多才多艺”的遥感视觉解译能力和多传感器图像理解能力，且表现出了卓越的开放域推理能力。该研究贡献了一个通用的多模态多任务推理框架和目前最大的MMRS-1M遥感多模态指令数据集，展示出了极大的工业界实际应用的潜力。

　　此项工作以北京理工大学为唯一通讯单位，得到了国家自然科学基金的支持。

我要评论

昵称

匿名

文明上网，理性发言。（您还可以输入200个字符)

表情

所有评论仅代表网友意见，与本站立场无关。

仪表网首页资讯首页

延伸阅读

版权与免责声明

凡本网注明"来源：仪表网"的所有作品，版权均属于仪表网，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明"来源：仪表网"。违反上述声明者，本网将追究其相关法律责任。
本网转载并注明自其它来源的作品，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品来源，并自负版权等法律责任。
如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。
合作、投稿、转载授权等相关事宜，请联系本网。联系电话：0571-87759945，QQ：1103027433。