资讯 更多 >>
两市开盘后走低 沪指向下逼近3000...
漳州举办“数字工匠”职工职业技能...
河南4名阳性人员私自返乡并瞒报情况...
山西吕梁:发现盗采矿产资源行为可举报
受害方律师:接法院通知,乐安命案...
橙色——“柑橘院士”邓秀新心中最...
刷视频相认的双胞胎姐妹:两次创业...
四川通报2021年秋冬季首批大气污染...
首轮筛查:天津73443人全部阴性!
首席气象预报员张霞:30年坚守筑牢...
动态更多 >>
你们,温暖了2021
西安市新增27个中风险地区 目前有1...
广西新增本土确诊病例1例
哈尔滨市全域均为低风险地区
寒潮将影响我国中东部地区 四川盆...
昆明至哈尔滨一航班发现1名入境复阳...
陕西研考:封控区内考生在原报考点...
北京今日最高气温仅5℃ 明起强冷空...
那年今日 | 历史上的12月22日发生...
我要找债主
会展 更多 >>
美籍酿酒师在崇礼:中国是第二故乡...
河南项城报告2名疑似新冠肺炎病例 ...
浙江绍兴确诊病例首次零新增 上虞...
广西东兴实行全员居家隔离 启动口...
新疆全方位推进乡村振兴 “富春山...
云南瑞丽市主城区全员核酸检测结果...
内蒙古满洲里累计治愈出院本土确诊...
孙海洋夫妻驱车山东阳谷:还在为孙...
大国工匠追梦“玉米强国”40载:用...
让南海“海洋热带雨林”斑斓多彩
专题报道 
当前位置: 关注 > >> 正文
 
热文:通用视觉大模型SegGPT发布,将加速自动驾驶等实体智能产业
来源:新京报     时间:2023-06-01 22:30:18


(资料图片)

讯(记者张璐)2023中关村论坛发布20项重大科技成果,北京智源人工智能研究院研发的通用视觉大模型SegGPT是其中之一。SegGPT是国际首个利用视觉提示完成任意分割任务的通用视觉模型,将加速高级别自动驾驶和通用机器人等实体智能产业的发展。

北京智源人工智能研究院院长黄铁军说,语言和视觉是智能的两种最主要形态,初步统计显示,在人工智能领域从事视觉研究的人员和相关企业占一半左右。之前,公众已经使用过人脸识别、车牌识别等相关的人工智能产品,这些产品是基于“专用视觉模型”,即每一个模型解决专门的视觉问题,比如考勤打卡系统的人脸识别模型,不能用于车辆识别。

大模型技术出现之后,通用人工智能成为新的竞争热点。用大模型技术解决语言问题时,主要靠语言的上下文关联。由于语料很丰富,语言大模型已经取得了重要突破,出现了很多成功的应用。但视觉识别的难度更大,需要非常精准。“比如自动驾驶中哪里是路,哪里是草地和行人,需要准确区分,对任意场景都能精确分割识别才能叫通用视觉。”

黄铁军介绍,SegGPT是国际首个利用视觉提示完成任意分割任务的通用视觉模型。“分割任务是计算机视觉的经典问题,也是通用视觉的基础。随便给出一个图像,AI系统需要清楚区分图像中的车、人、道路、环境等不同物体。”他说,将视觉分割做好并不容易,比如一辆车是一个整体,但车是由车窗、车轮、挡板等部件组成的,每一个部件又是独立的对象。

他表示,SegGPT模型可以实现对图像和视频中的一切要素分割,比如不同类别的动物、植物、车上的零部件、医学图像中的病灶、遥感图像等。同时,模型具有灵活推理能力,只需给出一个或几个示例图像和意图掩码,模型就能明白用户意图,从视觉场景中找到目标对象。模型还具有视频分割和追踪能力。由于视频是连续的时间序列,只需要在第一帧画面给出意图,模型就可以在后面的画面中连续检测跟踪目标。

未来,语言类的通用人工智能将更多满足信息服务类需求,视觉类的通用人工智能主要用于自动驾驶、机器人等实体类智能。“我们的模型为物理智能体,比如车或者机器人装上一双‘眼睛’,让它即使到复杂场景中也可以分清楚不同事物及其相互关系。”黄铁军说。

关键词:

热门推荐
猜你喜欢