切换到宽版
  • 816阅读
  • 1回复

[智能应用]谷歌AI提出视觉语言模型PixelLLM:能够进行细粒度定位和视觉语言对齐 [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
106217
金币
5833
道行
19523
原创
29307
奖券
17275
斑龄
190
道券
10126
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 20050(小时)
注册时间: 2007-11-29
最后登录: 2024-11-27
只看楼主 倒序阅读 使用道具 楼主  发表于: 2023-12-19
— 本帖被 兵马大元帅 执行加亮操作(2024-02-23) —
谷歌AI研究团队与加州大学圣迭戈分校的研究人员合作,提出了一种名为PixelLLM的智能模型,旨在解决大型语言模型在细粒度定位和视觉-语言对齐方面的挑战。这一模型的提出受到了人类自然行为的启发,尤其是婴儿描述其视觉环境的方式,包括手势、指向和命名。

PixelLLM的独特之处在于,它通过在语言模型的每个输出单词与像素位置之间建立密集对齐,成功地实现了对定位任务的精准处理。为了实现这一目标,研究团队在单词特征之上添加了一个微型多层感知器(MLP),使其能够回归到每个单词的像素位置。低秩微调(LoRA)的使用使得语言模型的权重可以被更新或冻结,同时模型还能够接收文本或位置提示,以提供根据提示定制的输出。



PixelLLM的整体架构包括图像编码器、提示编码器和提示特征提取器。大型语言模型被馈送以提示为条件的图片特征和可选的文本提示,输出形式为每个单词的定位和字幕。该架构具有输入或输出语言或位置的多样性组合,对于各种视觉-语言活动具有灵活性和适应性。

研究团队对PixelLLM进行了评估,应用于密集目标描述、位置条件描述和引用定位等视觉任务。令人瞩目的性能指标包括在RefCOCO引用定位上的89.8P@0.5,Visual Genome条件描述上的19.9CIDEr以及密集目标描述上的17.0mAP。通过在RefCOCO上进行的消融研究显示,与其他定位公式相比,PixelLLM在密集像素定位公式上取得了3.7点的增益。

PixelLLM的主要贡献总结如下:

1. 引入了一种新的视觉-语言模型PixelLLM,能够生成单词定位并生成图片字幕。

2. 该模型支持文本或可选的位置提示,除了图片输入。

3. 使用本地化叙述数据集进行每个单词的本地化训练。

4. 该模型能够适应各种视觉-语言任务,包括分割、位置条件字幕、引用定位和密集描述。

5. 在位置条件字幕、密集描述和引用定位与分割等方面,该模型展现出卓越的性能。

这一研究成果标志着在大型语言模型领域取得的一项重要进展,为实现更精确的视觉-语言对齐和定位打开了新的可能性。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
离线楼兰听雨

UID: 2113290

发帖
171
金币
2495
道行
319
原创
0
奖券
0
斑龄
0
道券
9
获奖
0
座驾
设备
摄影级
在线时间: 204(小时)
注册时间: 2019-08-14
最后登录: 2024-11-27
只看该作者 沙发  发表于: 2023-12-20
今天看了个视频,AI都能预测人的寿命了,真是离谱
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个