GPT-4 问世！新一代AI模型的五大突破-工业AI频道

OpenAI刚刚发布了其新一代的AI模型 GPT-4，它是一个大型多模态模型，可以接受图像和文本输入并生成文本输出。据悉，该模型在各种专业和学术基准上展示了人类水平的表现，现已在ChatGPT和Bing中可用。

　　ChatGPT是去年12月刚刚推出的流行的人工智能聊天机器人程序。新的GPT-4语言模型已经被吹捧为比支持ChatGPT的GPT-3.5模型有了巨大的飞跃，尽管一开始只有ChatGPT Plus的付费用户和开发者可以使用它。

　　那么，是什么让 GPT-4 与 GPT-3.5 等以前的版本区分开来？TechCrunch在"5 ways GPT-4 outsmarts ChatGPT"一文中指出，以下5个方面是新AI模型GPT-45的主要突破。

　　1. GPT-4可以辨识和理解图像

　　GPT-4将为ChatGPT提供各种新功能，但最大的亮点是传闻中的多模态功能。这种多功能机器学习系统最显着的变化是它是"多模态"的，这意味着它可以理解不止一种"模态"的信息。它可以让聊天机器人人工智能处理文本、图像，甚至最终处理视频输入。

　　之前的GPT-3 仅限于文本：它们可以读写，但仅此而已（尽管对于许多应用程序来说绰绰有余）。但是，GPT-4 可以给出图像，它将处理它们以查找相关信息。当然，你可以简单地要求它描述图片中的内容，但更重要的是，它的理解力远不止于此。

　　OpenAI提供的例子实际上是让它解释一个搞笑的超大iPhone连接器图片中的笑话，这是与Be My Eyes合作的项目，一个盲人和低视力人群使用的应用程序，让志愿者描述他们的手机看到的东西，更有启示意义。

　　在Be My Eyes的视频中，GPT-4描述了一件衣服上的图案，识别了一株植物，解释了如何到达健身房的某台机器，翻译标签（并提供食谱），阅读地图，并执行许多其他任务，以表明它真的得到了图像中的东西，如果它被问到正确的问题。它知道这件衣服是什么样子的，但它可能不知道它是否适合你的面试。

　　另外，GPT-4懂得大部分主流的程式语言，能够担任撰写程序的辅助帮手，结合前图像识别功能，OpenAI更直接拍摄一张手绘的网站草稿，让GPT-4当场生成出整个网站的代码。

　　OpenAI在示范中借由这样一张手稿，就让GPT-4直接生成出一个简单的网页。

　　2. GPT-4更难被欺骗

　　尽管今天的聊天机器人做得很好，但它们往往容易被引入歧途。稍加哄骗就能说服他们，他们有时只是在解释一个 "坏的人工智能 "会做什么，或者其他一些小虚构，就能让模型说出各种奇怪的、坦率的令人不安的事情。

　　另一方面，GPT-4已经在很多很多的恶意提示上接受了训练--这些提示是用户在过去一两年中帮助OpenAI的。考虑到这些，新模型在 "事实性、可引导性和拒绝走出护栏 "方面要比其前辈们好得多。

　　按照OpenAI的描述，GPT-3.5是一个新的训练架构的 "试运行"，他们将其中的经验教训应用于新版本，带来了"前所未有的稳定"。新模型也能更好地预测它的能力，这让人更少感到意外。

　　3. GPT-4具有有更强大的记忆力

　　这些大型语言模型是在数以百万计的网页、书籍和其他文本数据上训练出来的，但当它们真正与用户进行对话时，它们能 "记住 "的东西是有限的（人们对此表示同情）。

　　GPT-3.5和旧版ChatGPT的限制是4096个 "标记"，大约是8000个字，或者大约是一本书的4到5页。因此，在它的注意功能中，当事情经过一段时间后，它就会有点失去跟踪。

　　GPT-4的最大标记数为32,768，也就是2^15，如果你想知道为什么这个数字看起来很熟悉。这相当于约64,000字或50页的文本，这足以满足一整部戏剧或短篇小说的需要。

　　这意味着，在对话或生成文本时，它将能够记住多达50页左右的内容。因此，它将记住你在20页的聊天记录中谈到的内容，或者，在写故事或文章时，它可能会提到35页之前发生的事件。这是对注意力机制和代币计数如何工作的一个非常近似的描述，但总的想法是扩大记忆和伴随的能力。

　　4. GPT-4支持更多语言

　　人工智能世界由讲英语的人主导，从数据到测试再到研究论文，一切都是用这种语言。但是，当然，大型语言模型的功能适用于任何书面语言，并且应该在这些语言中提供。

　　GPT-4 通过证明它能够在 26 种语言（从意大利语到乌克兰语再到韩语）中高精度地回答数千个多项选择题，朝着这一点迈出了坚实的一步。虽然它最擅长罗曼语和日耳曼语，但可以很好地推广到其他语言。

　　这种对语言能力的初步测试很有希望，但远未完全接受多语言能力；测试标准一开始就是从英语翻译过来的，而且多项选择题并不能真正代表普通的语音。但它在没有经过专门训练的情况下做得很好，这说明GPT-4有可能对非英语使用者更加友好。

　　5. GPT-4有不同的"个性"

　　"可操纵性"在AI中是一个有趣的概念，指的是它们按需改变行为的能力。这可能是有用的，例如扮演一个富有同情心的倾听者的角色，也可能是危险的，例如当人们让模型相信它是邪恶的或抑郁的。

　　GPT-4 比 GPT-3.5 更原生地集成了可操纵性，用户将能够改变 "具有固定言语、语调和风格的经典ChatGPT个性"，使之更适合他们的需要。这可以通过向聊天机器人发送诸如 "回答好像您是有线电视新闻采访的人"之类的消息来完成。但实际上，您只是在向"默认"GPT-3.5 个性提出建议。现在，开发人员将能够从一开始就以第一视角、对话风格、语气或交互方式进行模拟复制。

　　GPT-4 与其前身之间的差异很多，大多数比上面这些更微妙或更具技术性。毫无疑问，随着时间的流逝，我们将学到更多，用户将最新的语言模型通过其步伐。

　　局限性和风险

　　GPT-4并不完美，与早期的GPT模型有类似的局限性。它仍然会对事实产生 "幻觉"，并出现推理错误，因此在使用语言模型输出时应谨慎行事，特别是在高风险的情况下。

　　此外，GPT-4仍然不知道2021年9月以后发生的事件，这可能导致它犯简单的推理错误，并接受错误的陈述为真实。它也可能在像人类这样的挑战性问题上失败，例如在其代码中引入安全问题。

　　GPT-4可以做出自信但不正确的预测，而且并不总是仔细检查其工作。有趣的是，基础模型善于预测其答案的准确性，但这种能力在后期训练后会降低。

　　虽然GPT-4的能力很强，但它也带来了新的风险，如产生有害的建议、错误的代码或不准确的信息。

　　OpenAI一直在努力降低这些风险，与50多位专家一起对模型进行对抗性测试，并收集更多数据以提高GPT-4拒绝危险请求的能力。因此，OpenAI对GPT-4进行了许多改进，使其比GPT-3.5更安全。

　　GPT-4比之前的版本少了82%的不恰当内容，而且它在医疗建议和自我伤害等敏感话题方面更好地遵循了政策。

　　虽然OpenAI使该模型对不良行为的抵抗力更强，但产生违反使用规则的内容仍然是可能的。OpenAI表示，GPT-4可能对社会有益或有害，因此它正在与其他研究人员合作以了解潜在的影响。

　　GPT-4的发布标志着OpenAI努力扩展深度学习的一个重要里程碑。虽然不完美，但它在各种学术和专业基准上表现出人类水平的表现，使其成为一个强大的工具。但是，在高风险上下文中使用语言模型输出时应谨慎。

　　GPT-4 项目的一个重要重点是构建一个可预测的深度学习堆栈。OpenAI 开发了基础设施和优化，在多个规模上具有可预测的行为，并且可以准确预测 GPT-4 在训练期间的最终损失。

　　OpenAI一直致力于降低风险并构建可预测扩展的深度学习堆栈，这对于未来的AI系统至关重要。

GPT-4 问世！新一代AI模型的五大突破

【CEC观察】AI+制造业，华为能提供什么？

台达支持经济学人集团Economist Impact发布全球可持续AI报告

Agentic AI 会是继AI数据分析之后，下一个大型工业AI应用吗？

热点新闻

推荐阅读

热点新闻