OPENAI邀请部分用户测试GPT-4 Vision 识别/整理论文数据的好帮手-学习笔记-橙子系统站

在 3 月份 OPENAI 发布 GPT-4 的时候，在其博客中就提到了 Visual Inputs 视觉输入功能，GPT-4 模型不仅支持文本内容，实际上也是支持图像识别的，只不过到现在该功能都没有公开发布。

目前已经有部分用户收到 OPENAI 发送的邀请，可以在 ChatGPT 中测试 GPT-4 with Vision (Alpha)，这个功能能实现的场景其实很多，识别图像中的物体只是最基础的应用。

在 OPENAI 自己提供的示例中，是将 Sketch 转换为代码，也就是给定一个设计文件，GPT-4 识别设计文件并帮你编写代码，这对前端工作者来说或许有不小的帮助。

还有使用场景就是类似于 OCR 识别了，例如对打印的 Excel 表格进行拍照，然后将其转换为电子簿，这类功能在很多应用里已经支持，现在 GPT-4 也支持类似功能了，不过不知道 GPT-4 是不是也用的 OCR 类技术。

在实际使用方面，用户可以批量输入内容，而不是单次输入一张图片去识别，例如可以将文本和图片穿插发送给 GPT-4，这样也可以识别并且可能还会有助于用户理解。

例如在很多论文中就有大量配图，GPT-4 (暂时不考虑输入上限问题) 可以识别论文内容搭配图片进行理解，可以增强思维链，帮助 GPT-4 给出更好的回答。

由此还能衍生出一个使用场景，那就是可以利用此功能来帮助视力障碍用户，可惜 GPT-4 的联网模式没了，不然视力障碍用户可以直接把链接发给 GPT-4，让 GPT-4 识别链接内容的同时，也可以解释网页里的配图。

OPENAI 称图像输入功能目前属于研究测试阶段，不公开提供，所以除非用户收到邀请，否则暂时无法使用此功能。

本文来源蓝点网，由本站收集整理，其版权均为原网址所有，文章内容系作者个人观点，不代表本站对观点赞同或支持。如需转载，请注明文章来源。

版权声明 1 本网站名称：橙子系统
2 本站永久网址：https://www.czgho.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 EMAIL:mail@czgho.com进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们将尽力更新找回，如无法找回请谅解。

THE END