ChatGPT迎来“炸裂”升级,GPT-4V横空出世!

北京时间9月25日晚,OpenAI宣布推出GPT-4V,新增语言、图像交互功能,并发布通知表示将在未来两周向ChatGPT Plus和 Enterprise 用户正式推出。
ChatGPT迎来“炸裂”升级,GPT-4V横空出世!
这一升级将给用户带来更多元化的使用方式,包括通过语音对话与ChatGPT互动,或者展示图像以更直观地交流。语音和图像功能的引入,使得ChatGPT在应用上更加丰富多样。

语音功能

  • 语音对话能力:用户可以通过语音与AI进行对话,不需要进行键盘输入,提供更加直观便捷的交互方式;
  • 多种语音选项:提供5种不同语音选项,男声、女生、青少年声音等;
  • 提升语音识别精度:本次ChatGPT语音技术基于自研开源Whisper模型,生成部分基于TTS(text-to-speech)模型进行。实现高准确率语音识别和语音合成功能,能够从文本和几秒钟样本语音中生成类似于人类的音频;
  • 与Spotify合作扩展功能:能够在不更改原创作者声音的前提下将博客翻译成其他语言;
  • 实现在移动设备使用:目前语音功能能够在ios和安卓移动端使用。
打开ChatGPT,页面直接变成了下图,可以直接和它对话了。
ChatGPT迎来“炸裂”升级,GPT-4V横空出世!
听到你说话后,它还可以直接语音回复。
ChatGPT迎来“炸裂”升级,GPT-4V横空出世!

图像功能

  • 支持多张图像处理:用户可以上传图像到ChatGPT进行互传,ChatGPT能够理解和处理多条图像信息;
  • 图像处理:移动应用提供了绘图工具,用户可以圈出图像的重点来高效交互;
  • 多模态交互:ChatGPT对用户所输入图片进行分析推理时,可以支持文字、语音和图片多种方式进行回复。
  • 文字生成图可以支持语音进行微调:ChatGPT可以根据用户的文本生成图片,并根据用户反馈对图片进行微调。
ChatGPT 新增的图像识别功能,允许用户使用 GPT-3.5 或 GPT-4 模型上传一张或多张图像配合进行对话。比如“如何调整自行车座椅高度”,ChatGPT会给出详细步骤。
ChatGPT迎来“炸裂”升级,GPT-4V横空出世!
ChatGPT的图像识别功能,准确的说是升级的图像理解,不单纯是一个图像识别或者图像分割,而是结合问题来解决问题。

其实,今年3月,OpenAI上线 GPT-4 时就展示了 AI 模型的多模态功能,由于隐私问题并未向公众开放。现在,你可以将图像上传到 ChatGPT 上,并询问它图片里包含什么。再结合之前一周 OpenAI 对图像生成模型 DALL-E3 进行了更新,集成到 ChatGPT。如此一来,图像功能就更完整了。

如何实现语音交互

ChatGPT使用了一个新的文本到语音模型,可以根据给定的文本和几秒钟的语音样本,生成类似真人的语音输出。

此外,它还集成了开源语音识别系统Whisper,能够准确把用户的语音输入转换成文本。

为使语音更加丰富多样,ChatGPT还与专业声音演员合作,创造了五种不同风格的语音。这些能力加强了ChatGPT与用户的自然语音交互,使对话更加流畅和接近人类交流。

不过OpenAI表示,虽然 Whisper 可以在英语以外的语言中使用,但不鼓励在其他语言中使用,尤其是那些没有拉丁字符的语言。

而ChatGPT实现“看”的能力,就得益于GPT-4 with vision(GPT-4V),一个大型多模态语言模型,能够处理图像和文本输入,并生成文本输出。

ChatGPT迎来“炸裂”升级,GPT-4V横空出世!
GPT-4V(ision) 模型是在 GPT-4 模型的基础上,增加了图像处理模块,该模块能够从图像中提取特征,并将这些特征与文本特征结合起来进行处理。
ChatGPT迎来“炸裂”升级,GPT-4V横空出世!
ChatGPT迎来“炸裂”升级,GPT-4V横空出世!
虽然GPT-4V很强大,但是OpenAI 警告不要在敏感场景中使用 GPT-4V。在 GPT-4V(ision) 的系统卡中,OpenAI 将该模型的图像识别描述为 “不可靠”。

例如,在分析化学结构时,它错误地识别了芬太尼、卡芬太尼和可卡因等物质,但有时也能正确识别毒蘑菇等危险成分。

该模型容易产生幻觉,并能以权威的口吻陈述不正确的事实。”论文称:”这表明该模型并不可靠,不应被用于任何高风险任务,如识别危险化合物或食品。

这一次被修复的影像中,不只有苏之渤一个人的照片,而是展现了那届亚运会众多选手的昔日风采。

ChatGPT迎来“炸裂”升级,GPT-4V横空出世!
尽管有瑕疵,但新版ChatGPT还是完成了进化。这一创新助力科技领域向前迈进,值得期待其更广泛的应用场景!
声明:本站文章,有些原创,有些转载,如发现侵权侵请联系删除。本站所有原创帖均可复制、搬运,开网站就是为了大家一起乐乐,不在乎版权。对了,本站小水管,垃圾服务器,请不要采集,吐槽君纯属用爱发电,经不起折腾。

给TA打赏
共{{data.count}}人
人已打赏
科技

科学家解开百年遗传之谜:掷分子骰决定蜜蜂性别

2023-10-9 20:38:42

科技

哈勃延时影片捕捉到超新星气泡 2万年前的爆炸仍在以50万英里/小时的速度膨胀

2023-10-11 20:59:55

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索