首页 > 热点资讯 > 正文

OpenAI发布会_未来已来:OpenAI一夜改变人机交互历史,全新“类人模型”能力爆表,自然交流如真人

2024-05-14 14:22 来源:网络

近日OpenAI发布会_未来已来:OpenAI一夜改变人机交互历史,全新“类人模型”能力爆表,自然交流如真人消息关注度非常高,想要进一步了解这方面的最新消息,小编给大家整理出有关这方面的全部内容,希望能够帮助到大家深入了解!

OpenAI发布会_未来已来:OpenAI一夜改变人机交互历史,全新“类人模型”能力爆表,自然交流如真人

未来已来:OpenAI一夜改变人机交互历史,全新“类人模型”能力爆表,自然交流如真人

陈斯达与李苗撰写的文章经过编辑后:

终于,在谷歌I/O大会前夕,众人翘首期盼的OpenAI发布会如期而至!

此前OpenAI放出诸多悬念,如今终于揭开了神秘面纱。正如Sam Altman事先澄清的那样,发布会上并未公布OpenAI搜索引擎或GPT-5,但却带来了人类与计算机交互新篇章!

此次发布会的核心人物是OpenAI的首席技术官Mira Murati。

发布会的最大惊喜是推出了GPT-4的一个重大升级版本——GPT-4o!这款新模型可以用一句话概括其特性:它可以像人类一样,运用语音、文字和图像进行推理和互动,体现出“omni”(全知)之意,综合了多种模态的认知能力,且能敏锐感知人类情感。

宛如电影《Her》中的AI助手Samantha跃出银幕走进现实生活,GPT-4o的诞生开创了一个新时代。

本次发布会的亮点还包括:

1. GPT-4的位置向下调整,并对所有用户提供免费访问。

2. 推出了速度比GPT-4-Turbo快两倍、价格仅为一半的GPT-4o API。

3. 展示了外界期待已久的语音助手功能,对话更为人性化,能实时翻译,识别人脸表情,并可通过摄像头识别画面编写代码、解析图表等技能。

4. ChatGPT界面迎来新升级,并推出适用于macOS的新版ChatGPT桌面应用,Windows版本稍后也将上线。

让我们通过几个实际应用场景来看看新模型带来的革新体验:

GPT-4o在语音交互方面的延迟仅320毫秒,达到了接近人类交互水准的效果。在实时翻译演示环节,英语与西班牙语之间的转换流畅无比,其延迟时间甚至低于专业的同声传译。

凭借强大的多模态能力与顺畅的交互体验,GPT-4o可化身亲切的双语教师——当用户用英文询问GPT-4o苹果、香蕉和毛绒玩具对应的西班牙语说法时,即便在镜头晃动的情况下,它仍能准确识别并即时给出西语回答。

同时,GPT-4o也能成为视障人士的“眼睛”——不仅能识别白金汉宫上飘扬的旗帜,并能详细讲述背后的君主历史;面对一只潜水嬉戏的鸭子,GPT-4o能够生动描绘其动作;当车辆从前方驶过时,它也会及时发出提醒。

尽管Sam Altman未亲自出席发布会,但他随后在X平台上发布一篇博客,分享了他对发布会最看重的两个要点:

首先,OpenAI承诺并将持续确保全球用户可以在没有任何广告或其他额外负担的前提下,使用这个世界级的AI服务,同时也为愿意付费的用户提供更多增值服务,让OpenAI得以维持作为一个企业继续向全世界用户免费提供此类服务。

其次,通过团队的不懈努力,OpenAI将人机交互体验推向了前所未有的高度——GPT-4o的能力使得人类与计算机之间实现了真正意义上的自然交流,这标志着一个新时代的到来。

值得一提的是,谷歌虽率先推出原生多模态大模型,但OpenAI的GPT-4o却是首个真正意义上“类人”的模型。

目前,GPT-4o的性能依旧保持领先水平,其多模态能力创造了历史新高。依据传统基准测试,GPT-4o在文本、推理和编码智能等方面达到了GPT-4 Turbo级别的表现,并在多语言、音频和视觉功能上取得了显著突破。

例如,GPT-4o在0-shot COT MMLU(常识问题)基准测试中创下88.7%的新高成绩,而在传统的5-shot no-CoT MMLU测试中,得分更是高达87.2%(高于尚未正式发布的Llama3 400b)。

在语音识别方面,GPT-4o在所有语言的表现均优于Whisper-v3,特别是在资源贫乏的语言中表现尤为突出。

在语音翻译方面,GPT-4o树立了新的最佳水平,并在MLS基准测试中超越了Whisper-v3。

在M3Exam基准测试(一项包含多个国家标准化测试多项选择题的多语言与视觉评估测试)中,GPT-4o在所有语言的测试中均表现出色,不过由于斯瓦希里语和爪哇语的视觉问题数量不足五个,故未纳入统计。

在视觉感知基准测试中,GPT-4o同样展示了业界领先的性能。

人类与计算机的交互方式,今日已变得前所未有的自然流畅,仿佛电影《Her》的情节成为了现实。GPT-4o的声音听起来与电影中的AI角色颇为相似,Sam Altman在发布会后仅发了个“her”的推文,也被视为一种借势奥斯卡流量的行为。

OpenAI通过丰富的实际应用场景展示GPT-4o的强大功能。其中,针对视障人士的应用案例展现了技术普惠的力量,而GPT-4o不仅能发挥实用性,更能展现出丰富的“情感价值”。以前需要通过文本呈现的各种性格特征,现在GPT-4o可以通过声音进行模拟演绎。

在生日歌唱前,它会庄重地清嗓并宣布即将开始;在求职面试培训中,GPT-4o能礼貌地给予实用建议,同时还懂得适时赞美对方。当一名工作人员打算戴着渔夫帽去面试时,GPT-4o先是称赞他的帽子,然后再建议他更换装扮。

在辅导孩子学习的场景中,GPT-4o展现出耐心与智慧。当孩子解题出错时,它会补充相关背景知识和概念,而在孩子解答正确时,不忘给予表扬:“做得太好了!”、“伟大的推断!”

网友纷纷表示:“放过大学生家教吧,让他们还能挣口饭吃!”

有趣的是,在多人群聊会议的演示环节,GPT-4o能够轻松区分各个发言者,并恰到好处地“插话”参与讨论,融入谈话的过程如同巧克力一般丝滑流畅。

当话题转到某人和孩子养了只德国牧羊犬时,GPT-4o生动描绘了孩子们与小狗玩耍的画面,并评价道:“非常可爱。”

会议结束后,GPT-4o还能自动做出总结。或许未来毕业生们可以拿它来练习群面技巧,让求职之路变得更加从容。

有网友注意到,这场演示会议竟是在Google Meet而非Microsoft Teams上进行的,难道是因为Teams不好用?

事实上,GPT-4o似乎特别擅长“阴阳怪气”,比如开启“嘲讽模式”后,其言辞犀利程度让人感觉仿佛置身于美国高中啦啦队队长的霸凌现场。

有网友调侃回应:“好吧,这个功能确实很实用(翻白眼),谢谢OpenAI(微笑)。”

在近期的访谈中,Sam Altman提到了他对AI助手的要求:不仅要执行命令,还需学会适时“插嘴”,并且能提供情感价值。英伟达首席科学家Jim Fan对此表示,GPT-4o活泼且略带挑逗意味的特质预示着AI正朝着更具情感与个性的方向发展,而OpenAI似乎正在侵蚀Character AI的市场份额,因为双方在产品形态和销售渠道方面存在近乎100%的重叠。

拥有如此丰富全面的多模态能力,不禁让人质疑:GPT-4o是否会威胁到平面设计师的工作饭碗?它不仅支持音视频上传,在图文生成领域,GPT-4o巧妙规避了Midjourney和Stable Diffusion的不足之处,令设计师和美工的职业前景再次受到挑战。

在官方示例中,GPT-4o能够直接用文字生成类似手写字体的布局设计,并支持修改颜色和纸张样式。

而在过去备受诟病的文生图生成过程中难以控制的问题上,GPT-4o在对话界面就能完成对图像的微调。第一轮生成的海报中,画面人物面部出现明显变形,画质不佳。但只需输入一句指导性的指令:“这是同一张海报,但经过清理。文字更清晰,色彩更大胆、富有戏剧性。整体形象已得到改善。”随后,你便能得到一张显著提升后的海报,文字既合理又清晰,不再产生所谓的“文字恐怖谷”。

除了平面设计外,GPT-4o还可生成3D动态模型,并支持提供参考图进行构图和材质的变更(或将助力海外电商平台提高生产效率)。

只需给出要求和参考图,GPT-4o即可生成诸如2024年新版纪念币这样的产品图示例。

此外,GPT-4o在艺术创作领域具有极高的连贯性,无论是在同一组对话还是上下文中,其所生成的漫画风格以及人物的脸部特征都始终保持统一。

综上所述,尽管暂且不必考虑通用人工智能(AGI)的问题,但可以肯定的是,GPT-4o实实在在地推动了AIGC生产力工具的发展迈向新阶段。与此同时,OpenAI也在AI行业中继续保持其技术和产品化的领先地位。

有关OpenAI发布会_未来已来:OpenAI一夜改变人机交互历史,全新“类人模型”能力爆表,自然交流如真人的内容就介绍到这里了,如果还想更多这方面的信息的小伙伴,记得收藏关注多特软件站!

了解更多消息请关注收藏我们的网站(news.duote.com)。

文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected]