ChatGPT迎来“炸裂”升级，GPT-4V横空出世！

北京时间9月25日晚，OpenAI宣布推出GPT-4V，新增语言、图像交互功能，并发布通知表示将在未来两周向ChatGPT Plus和 Enterprise 用户正式推出。

这一升级将给用户带来更多元化的使用方式，包括通过语音对话与ChatGPT互动，或者展示图像以更直观地交流。语音和图像功能的引入，使得ChatGPT在应用上更加丰富多样。

语音功能

语音对话能力：用户可以通过语音与AI进行对话，不需要进行键盘输入，提供更加直观便捷的交互方式；
多种语音选项：提供5种不同语音选项，男声、女生、青少年声音等；
提升语音识别精度：本次ChatGPT语音技术基于自研开源Whisper模型，生成部分基于TTS（text-to-speech）模型进行。实现高准确率语音识别和语音合成功能，能够从文本和几秒钟样本语音中生成类似于人类的音频；
与Spotify合作扩展功能：能够在不更改原创作者声音的前提下将博客翻译成其他语言；
实现在移动设备使用：目前语音功能能够在ios和安卓移动端使用。

打开ChatGPT，页面直接变成了下图，可以直接和它对话了。

听到你说话后，它还可以直接语音回复。

图像功能

支持多张图像处理：用户可以上传图像到ChatGPT进行互传，ChatGPT能够理解和处理多条图像信息；
图像处理：移动应用提供了绘图工具，用户可以圈出图像的重点来高效交互；
多模态交互：ChatGPT对用户所输入图片进行分析推理时，可以支持文字、语音和图片多种方式进行回复。
文字生成图可以支持语音进行微调：ChatGPT可以根据用户的文本生成图片，并根据用户反馈对图片进行微调。

ChatGPT 新增的图像识别功能，允许用户使用 GPT-3.5 或 GPT-4 模型上传一张或多张图像配合进行对话。比如“如何调整自行车座椅高度”，ChatGPT会给出详细步骤。

ChatGPT的图像识别功能，准确的说是升级的图像理解，不单纯是一个图像识别或者图像分割，而是结合问题来解决问题。

其实，今年3月，OpenAI上线 GPT-4 时就展示了 AI 模型的多模态功能，由于隐私问题并未向公众开放。现在，你可以将图像上传到 ChatGPT 上，并询问它图片里包含什么。再结合之前一周 OpenAI 对图像生成模型 DALL-E3 进行了更新，集成到 ChatGPT。如此一来，图像功能就更完整了。

如何实现语音交互

ChatGPT使用了一个新的文本到语音模型，可以根据给定的文本和几秒钟的语音样本，生成类似真人的语音输出。

此外，它还集成了开源语音识别系统Whisper，能够准确把用户的语音输入转换成文本。

为使语音更加丰富多样，ChatGPT还与专业声音演员合作，创造了五种不同风格的语音。这些能力加强了ChatGPT与用户的自然语音交互，使对话更加流畅和接近人类交流。

不过OpenAI表示，虽然 Whisper 可以在英语以外的语言中使用，但不鼓励在其他语言中使用，尤其是那些没有拉丁字符的语言。

而ChatGPT实现“看”的能力，就得益于GPT-4 with vision（GPT-4V），一个大型多模态语言模型，能够处理图像和文本输入，并生成文本输出。

GPT-4V(ision) 模型是在 GPT-4 模型的基础上，增加了图像处理模块，该模块能够从图像中提取特征，并将这些特征与文本特征结合起来进行处理。

虽然GPT-4V很强大，但是OpenAI 警告不要在敏感场景中使用 GPT-4V。在 GPT-4V(ision) 的系统卡中，OpenAI 将该模型的图像识别描述为 “不可靠”。

例如，在分析化学结构时，它错误地识别了芬太尼、卡芬太尼和可卡因等物质，但有时也能正确识别毒蘑菇等危险成分。

该模型容易产生幻觉，并能以权威的口吻陈述不正确的事实。”论文称：”这表明该模型并不可靠，不应被用于任何高风险任务，如识别危险化合物或食品。

这一次被修复的影像中，不只有苏之渤一个人的照片，而是展现了那届亚运会众多选手的昔日风采。

尽管有瑕疵，但新版ChatGPT还是完成了进化。这一创新助力科技领域向前迈进，值得期待其更广泛的应用场景！

声明：本站文章，有些原创，有些转载，如发现侵权侵请联系删除。本站所有原创帖均可复制、搬运，开网站就是为了大家一起乐乐，不在乎版权。对了，本站小水管，垃圾服务器，请不要采集，吐槽君纯属用爱发电，经不起折腾。

{{userData.name}}已认证

ChatGPT迎来“炸裂”升级，GPT-4V横空出世！

语音功能

图像功能

如何实现语音交互

科学家解开百年遗传之谜：掷分子骰决定蜜蜂性别

哈勃延时影片捕捉到超新星气泡 2万年前的爆炸仍在以50万英里/小时的速度膨胀