语音功能
- 语音对话能力:用户可以通过语音与AI进行对话,不需要进行键盘输入,提供更加直观便捷的交互方式;
- 多种语音选项:提供5种不同语音选项,男声、女生、青少年声音等;
- 提升语音识别精度:本次ChatGPT语音技术基于自研开源Whisper模型,生成部分基于TTS(text-to-speech)模型进行。实现高准确率语音识别和语音合成功能,能够从文本和几秒钟样本语音中生成类似于人类的音频;
- 与Spotify合作扩展功能:能够在不更改原创作者声音的前提下将博客翻译成其他语言;
- 实现在移动设备使用:目前语音功能能够在ios和安卓移动端使用。
图像功能
- 支持多张图像处理:用户可以上传图像到ChatGPT进行互传,ChatGPT能够理解和处理多条图像信息;
- 图像处理:移动应用提供了绘图工具,用户可以圈出图像的重点来高效交互;
- 多模态交互:ChatGPT对用户所输入图片进行分析推理时,可以支持文字、语音和图片多种方式进行回复。
- 文字生成图可以支持语音进行微调:ChatGPT可以根据用户的文本生成图片,并根据用户反馈对图片进行微调。
其实,今年3月,OpenAI上线 GPT-4 时就展示了 AI 模型的多模态功能,由于隐私问题并未向公众开放。现在,你可以将图像上传到 ChatGPT 上,并询问它图片里包含什么。再结合之前一周 OpenAI 对图像生成模型 DALL-E3 进行了更新,集成到 ChatGPT。如此一来,图像功能就更完整了。
如何实现语音交互
此外,它还集成了开源语音识别系统Whisper,能够准确把用户的语音输入转换成文本。
为使语音更加丰富多样,ChatGPT还与专业声音演员合作,创造了五种不同风格的语音。这些能力加强了ChatGPT与用户的自然语音交互,使对话更加流畅和接近人类交流。
不过OpenAI表示,虽然 Whisper 可以在英语以外的语言中使用,但不鼓励在其他语言中使用,尤其是那些没有拉丁字符的语言。
而ChatGPT实现“看”的能力,就得益于GPT-4 with vision(GPT-4V),一个大型多模态语言模型,能够处理图像和文本输入,并生成文本输出。
例如,在分析化学结构时,它错误地识别了芬太尼、卡芬太尼和可卡因等物质,但有时也能正确识别毒蘑菇等危险成分。
该模型容易产生幻觉,并能以权威的口吻陈述不正确的事实。”论文称:”这表明该模型并不可靠,不应被用于任何高风险任务,如识别危险化合物或食品。
这一次被修复的影像中,不只有苏之渤一个人的照片,而是展现了那届亚运会众多选手的昔日风采。