2024年最重要的AI趋势

新闻详细

2024年最重要的AI趋势

2024.04.19
5843

文章来源：https://www.ibm.com/blog/artificial-intelligence-trends/

本文翻译来自CSA翻译组：

翻译：何伊圣，CSA大中华区专家

审校：杨皓然，CSA翻译组轮席组长

2022年是生成式AI在公众意识中爆发的一年，2023年是它开始在商业世界扎根的一年。因此，2024年将是关乎AI未来关键的一年，因为研究人员和企业都在寻求：如何将这一技术上的进化飞跃最实际地融入我们的日常生活。

生成式AI的进化与计算机的进化是相似的，尽管时间上快很多。来自少数参与者的大规模的、集中操作的大型计算机让位给企业和研究机构使用的更小、更有效的机器。在随后的几十年里，不断的进步产生了业余爱好者可以修修补补的家用电脑。随着时间的推移，直观无代码界面的强大个人电脑变得无处不在。

生成式AI已经进入了“业余爱好者”阶段，与计算机一样，未来的发展目标是在更小的封装中实现更高的性能。2023年见证了具有开放许可证的日益高效的基础模型呈爆炸式增长，从Meta的LlaMa家族大型语言模型（LLM）的的推出开始，随后是StableLM，Falcon，Mistral和LlaMa2等。DeepFloyd和Stable Diffusion与领先的专有模型实现了相对平等。通过开源社区开发的微调技术和数据集的增强，许多开放模型现在可以在大多数基准测试上超越除最强大的闭源模型之外的所有其他模型，尽管参数数量要少得多。

随着进步的加快，最先进的型号不断扩展的功能将获得最多的媒体关注。但最有影响力的发展可能是那些专注于治理、中间件、训练技术和数据管道的发展，它们使生成式AI对企业和终端用户而言同样更加可靠、可持续和易获取。

以下是未来一年值得关注的一些重要的当前人工智能趋势。

现实核查：更现实的期望

多模态AI
小型（更小型）语言模型和开源进步
GPU短缺和云成本
模型优化越来越容易实现
自定义本地模型和数据管道
更强大的虚拟代理
监管、版权和人工智能伦理问题
影子AI（和企业AI政策）

现实检查：更现实的期望

当生成式AI第一次进入大众意识时，典型商业领袖的知识大多来自营销材料和令人窒息的新闻报道。实际经验（如果有的话）仅限于摆弄ChatGPT和DALL-E。而现在尘埃落定，商界现在对AI驱动的解决方案有了更精确的理解。

Gartner Hype Cycle将生成式AI完全定位在“期望膨胀的顶峰”，处于滑向“幻灭的低谷”的尖端[1]——换句话说，即将进入一个相对来说平平无奇的转型期——而德勤2024年第一季度的《企业AI现状》报告显示，许多领导者“期望在短期内产生实质性的变革影响”。[2]现实可能介于两者之间：生成式AI提供了独特的机会和解决方案，但它不会是所有人的一切。

现实世界的结果与炒作的结果相比，部分是一个视角问题。像ChatGPT这样的独立工具通常在大众的想象中占据中心位置，但顺利集成到已建立的服务中通常会产生更好的持久性。在当前的炒作周期之前，Google在2018年推出的“智能撰写”功能等生成式机器学习工具并没有预示着范式转变，尽管它们是当今文本生成服务的先驱。同样，许多高影响力的生成性AI工具正在作为企业环境的集成元素实施，以增强和补充现有工具，而不是彻底改变或替代现有工具：例如，Microsoft Office中的“副驾驶”功能，Adobe Photoshop中的“生成性填充”功能或生产力和协作应用中的虚拟代理。

生成式人工智能首先在日常工作流程中建立动力的地方将对 AI 工具的未来产生更大的影响，而不是任何特定AI能力的假设优势。根据最近一项IBM对企业规模公司1000多名员工的调查，推动AI采用的三大因素是：AI工具的进步，使其更容易获得；降低成本和自动化关键流程的需求；以及越来越多的人工智能嵌入到标准的现成业务应用程序中。

多模态 AI（和视频）

话虽如此，但最先进的生成式AI的雄心正在增长。下一波的进步不仅将集中在提高特定领域内的性能，而且将集中在可以将多种类型的数据作为输入的多模态模型上。虽然跨不同数据模式运行的模型并不是一个严格意义上的新现象——像CLIP这样的文本到图像模型和像Wave2Vec这样的语音到文本模型已经存在多年了——但他们通常只在一个方向上行动，并接受训练以完成特定的任务。

即将到来的跨学科模型，包括专有模型，如OpenAI的GPT-4V或谷歌的 Gemini ，以及开源模型，如 LLaVa、Adept 或 Qwen-VL，可以在自然语言处理（NLP）和计算机视觉任务之间自由移动。新模型也带来了视频：一月下旬，Google发布了Lumiere，这是一个文本到视频的扩散模型，也可以执行图像到视频的任务或使用图像作为风格参考。

多模态AI最直接的好处是更直观、多功能的人工智能应用程序和虚拟助手。例如，用户可以询问一张图片，然后得到自然语言的回答，或者大声询问如何修理东西，然后得到视觉辅助和一步一步的文字说明。

在更高的层面上，多通道AI允许模型处理更多样化的数据输入，丰富和扩展可用于训练和推理的信息。特别是视频，为整体学习提供了巨大的潜力。“有些摄像头24小时都在工作他们捕捉发生的一切，没有任何过滤，没有任何意图”斯坦福大学以人为中心的人工智能研究所（HAI）杰出教育研究员Peter Norvig说。[3] “人工智能模型以前没有这样的数据，这些模型将更好地理解一切。”

小型（更小型）语言模型和开源进步

在特定领域的模型，特别是LLM模型，我们可能已经达到了从更大的参数计数的收益递减点。Sam Altman，OpenAI的首席执行官（据说他的GPT-4型号大约有1.76万亿个参数）他在去年4月麻省理工学院的 Imagination in Action 活动中提出：“我认为我们正处在这样一个时代的尽头，它将是这些巨大的模型，我们将在其他方面使它们变得更好。我认为人们对参数计数的关注太多了。”

大模型启动了这个正在进行的人工智能黄金时代，但它们也不是没有缺点。只有最大型的公司才有足够的资金和服务器空间来训练和维护需要数千亿个参数的高能耗模型。根据华盛顿大学的一项估计，训练一个单一的GPT-3大小的模型需要每年的超过1,000个家庭的用电量；ChatGPT查询的标准日用电量相当于33,000个美国家庭的日用电量。[4]

与此同时，较小的模型对资源的依赖程度要低得多。2022 年 3 月，Deepmind 发表了一篇具有影响力的论文，该论文表明，在更多数据上训练较小的模型比在更少数据上训练较大的模型能产生更好的性能。因此，LLM 领域的大部分持续创新都集中在用更少的参数产生更大的输出。正如最近在 30 亿至 700 亿参数范围内的模型所取得的进展所证明的那样，尤其是那些基于 LLaMa、Llama 2 和 Mistral 基础模型在 2023 年构建的模型，在不牺牲太多性能的情况下，可以缩小模型的规模。

开放模式的力量将继续增长。2023年12月，Mistral 发布了一款名为“Mixtral”的专家混合（MoE）模型集成了8个神经网络，每个神经网络有70亿个参数。Mistral声称，Mixtral不仅在大多数基准测试中比Llama 2的70B参数版本的推理速度快6倍，而且它甚至可以与OpenAI的远的更大的GPT-3.5在大多数标准的基准测试。此后不久，Meta在1月宣布，它已经开始训练Llama 3模型，并确认它们将被开源。虽然细节（如模型大小）还没有得到确认，但我们有理由期待Llama 3遵循前两代建立的框架。

小模型的这些进步有三个重要的好处：

它们有助于使人工智能民主化：可以在更可实现的硬件上以更低的成本运行的更小的模型使更多的业余爱好者和机构能够研究、训练和改进现有模型。

它们可以在较小的设备上本地运行：这使得边缘计算和物联网（IoT）等场景中实现更复杂的AI。此外，在本地运行模型（如在用户的智能手机上运行）有助于避免与敏感的个人或专有数据交互时产生的许多隐私和网络安全问题。

它们使人工智能更易于解释：模型越大，就越难确定它如何以及在哪里做出重要的决策。可解释的人工智能对于理解、改进和信任人工智能系统的输出至关重要。

GPU短缺和云成本

随着硬件可用性的降低，云计算的成本也会随之增加，因此小型化的趋势将受到必要性和创业活力的推动。

斯坦福大学人工智能研究所（Stanford HAI）副主任兼研究系主任James Landay表示：“大公司（以及更多的大公司）都在尝试将人工智能能力引入公司内部，这对GPU造成了一些冲击。这不仅会给GPU产量的增加带来巨大压力，也会给创新者带来巨大压力，迫使他们提出更便宜、更容易制造和使用的硬件解决方案。”

正如O'Reilly在2023年末的报告中所解释的那样，云提供商目前承担了大部分计算负担：相对而言，只有少数人工智能采用者维护自己的基础设施，而硬件短缺只会增加设置本地服务器的障碍和成本。从长远来看，这可能会给云成本带来上行压力，因为提供商需要更新和优化自己的基础设施，以有效满足生成式AI的需求。[5]

对于企业来说，在这种不确定的环境中航行需要灵活性，在模型和部署环境方面都需要灵活性——在必要时依赖于更小、更高效的模型，在实际情况下依赖于更大、更高性能的模型。“我们不想限制人们部署（模型）的位置。”IBM首席执行官Arvind Krishna在2023年12月接受CNBC采访时说，他指的是IBM的watsonx平台。2023年12月接受CNBC采访，在提到IBM的沃森平台上。“所以如果他们想在一个大型的公共云上部署它，我们会在那里做。如果他们想在IBM部署，我们就在IBM部署。如果他们想自己做，而他们恰好有足够的基础设施，我们就会在那里做。”

模型优化越来越容易实现

开源社区最近的成果很好地满足了最大化更紧凑模型性能的趋势。

许多关键的进步不仅是由新的基础模型推动的，而且是由用于训练、调整、微调或调整预训练模型的新技术和资源（如开源数据集）推动的。2023 年流行的值得注意的模型无关技术包括：

低秩自适应（LoRA）：LoRA不是直接微调数十亿个模型参数，而是需要冻结预训练的模型权重，并在每个 transformer 模块中注入可训练层（将模型权重的变化矩阵表示为 2 个较小（较低秩）矩阵）。这大大减少了需要更新的参数数量，从而大大加快了微调速度，并减少了存储模型更新所需的内存。

量化：与降低音频或视频的比特率以减少文件大小和延迟一样，量化也会降低用于表示模型数据点的精度（例如，从16位浮点数到8位整数），以减少内存使用量并加快推理速度。QLoRA 技术将量化与LoRA相结合。

直接偏好优化（DPO）：聊天模型通常使用来自人类反馈的强化学习（RLHF）来使模型输出与人类偏好保持一致。虽然功能强大，但RLHF复杂且不稳定。DPO 承诺了类似的好处，同时计算量轻且简单得多。

随着开源模型在300-700亿个参数空间中的平行进展，这些不断发展的技术可以通过为初创公司和业余爱好者等较小的参与者提供以前无法实现的复杂AI功能来改变AI格局的动态。

自定义本地模型和数据管道

因此，2024 年的企业可以通过定制模型开发来追求差异化，而不是围绕“超级人工智能”的重新包装服务构建包装器。借助正确的数据和开发框架，现有的开源 AI 模型和工具几乎可以针对任何真实场景进行定制，从客户支持使用到供应链管理再到复杂的文档分析。

开源模型为组织提供了快速开发强大的自定义 AI 模型的机会，这些模型根据其专有数据进行训练并针对其特定需求进行了微调，而无需进行昂贵的基础设施投资。这在法律、医疗保健或金融等领域尤其重要，在这些领域中，基础模型可能无法在预训练中学习高度专业化的词汇和概念。

法律、金融和医疗保健行业也可以从足够小的模型中受益，这些模型可以在本地适当的硬件上运行。将 AI 训练、推理和检索增强生成（RAG）保持在本地，可以避免专有数据或敏感个人信息被用于训练闭源模型或以其他方式通过第三方手中的风险。使用 RAG 访问相关信息，而不是直接将所有知识存储在 LLM 本身中，有助于减小模型大小，进一步提高速度并降低成本。

随着2024年继续打造公平的模型竞争环境，竞争优势将越来越多地由专有数据管道驱动，这些数据管道可以实现行业最佳的微调。

更强大的虚拟代理

凭借更复杂、更高效的工具和一年的市场反馈，企业已准备好扩展虚拟代理的用例，而不仅仅是简单的客户体验聊天机器人。

随着人工智能系统的速度加快并整合新的信息流和格式，它们不仅扩大了通信和指令跟随的可能性，还扩大了任务自动化的可能性。“2023年是能够与AI聊天的一年。很多公司都推出了新的东西，但互动总是你输入一些东西，然后它再输入一些东西。”斯坦福大学的诺维格说。“2024年，我们将看到代理商为您完成工作的能力。预订，计划旅行，连接到其他服务。”

特别是多模态AI，大大增加了与虚拟代理进行无缝交互的机会。例如，用户可以将摄像头对准一个打开的冰箱，请求可以用现有原料制作的食谱，而不是简单地向机器人询问食谱。Be My Eyes是一款移动应用程序，可将盲人和低视力者与志愿者联系起来，帮助他们完成快速任务。该应用程序正在试验AI工具，帮助用户通过多模式人工智能直接与周围环境互动，而无需等待人类志愿者。

监管、版权和道德人工智能问题

多模态的提高和进入门槛的降低也为滥用行为打开了新的大门：深度造假、隐私问题、偏见的延续，甚至规避验证码保护措施对恶意行为者来说可能变得越来越容易。2024年1月，社交媒体上出现了一波明显的名人深度造假；截至 2023 年 5 月的研究显示，与 2022 年同期相比，在线发布的语音深度伪造数量增加了 8 倍。

监管环境的模糊性可能会在中短期内减缓采用，或者至少会更积极地实施。对新兴技术或实践的任何重大、不可逆转的投资都存在固有的风险，这些投资可能需要在未来几年内随着新立法或不断变化的政治逆风而进行重大重组，甚至成为非法投资。

2023年12月，欧盟（EU）就《人工智能法案》达成了临时协议。除其他措施外，该法案禁止不加选择地抓取图像以创建人脸识别数据库，，禁止具有潜在歧视性偏见的生物特征分类系统，禁止“社会评分”系统以及使用人工智能进行社会或经济操纵。该法案还试图界定一类“高风险”人工智能系统，这些系统可能威胁到安全、基本权利或法治，并将受到额外的监管。同样，它对所谓的“通用人工智能（GPAI）”系统，即基础模型，制定了透明度要求，包括技术文档和系统对抗测试。

然而，虽然像Mistral这样的一些关键参与者位于欧盟，但大多数开创性的人工智能发展都发生在美国。在私营部门对人工智能进行实质性立法需要国会采取行动的情况下，这在选举年是不太可能的。10月30日，拜登政府发布了一份全面的行政令详细说明了联邦机构使用人工智能技术的150项要求；几个月前，政府获得了知名人工智能开发者自愿承诺遵守一定的信任和安全规则。值得注意的是，加利福尼亚州和科罗拉多州都在积极推进各自关于人工智能方面个人数据隐私权的相关立法。

中国在向AI领域的正式限制方面采取了更加积极的行动：禁止在社交媒体上通过推荐算法进行价格歧视，并强制要求对人工智能生成的内容进行明确标识。针对生成式人工智能的拟议监管措施旨在要求用于训练大型语言模型（LLMs）的训练数据以及模型生成的内容必须是“真实准确的”，专家认为这表明了对LLM输出进行审查的措施。

与此同时，受版权保护的材料用于内容生成的AI模型训练中的作用，从语言模型到图像生成器和视频模型，仍然是一个备受争议的问题。《纽约时报》对OpenAI提起的备受瞩目的诉讼的结果可能会对人工智能立法的轨迹产生重大影响。像Glaze和Nightshade这样的对抗性工具都是在芝加哥大学开发的，可能会成为创作者和模型开发者之间的某种军备竞赛。

影子AI（和企业AI策略）

对企业来说，这种不断升级的法律、监管、经济或声誉后果的可能性，因生成式AI工具变得如此流行和容易获得而变得更加复杂。组织不仅要围绕生成式AI制定谨慎、连贯、清晰的企业政策，还要警惕影子人工智能：员工在工作场所对人工智能的“非官方”个人使用。

影子AI也被称为“影子IT”或“BYOAI”，当急躁的员工寻求快速解决方案（或只是想比谨慎的公司政策允许的更快地探索新技术）在工作场所实施生成式人工智能时就会出现影子人工智能，而无需通过IT部门的批准或监督时。许多面向消费者的服务（有些是免费的）甚至允许非技术人员即兴使用生成式人工智能工具。在安永的一项研究中，90%的受访者表示他们在工作中使用人工智能。[7]

这种进取精神脱离现实而言可以是伟大的，但热情的员工可能缺乏关于安全，隐私或法规遵从的信息或观点。这会给企业带来很大的风险。例如，员工可能会在不知情的情况下向面向公众的人工智能模型提供商业机密，而人工智能模型会持续对用户输入进行训练，或者使用受版权保护的材料来训练专有模型进行内容生成，从而使公司面临法律诉讼。

与许多正在进行的发展一样，这凸显了生成型AI的危险几乎是与其能力成线性关系的。能力越大，责任越大。

向前迈进

今年是人工智能领域的关键一年，了解和适应新兴趋势对于最大限度地发挥潜力、降低风险和负责任地扩大生成式AI的采用至关重要。

参考资料

“Gartner 将生成式 AI 置于 2023 年新兴技术炒作周期的夸大预期顶峰”，Gartner，2023 年 8 月 16 日
《德勤第一季度生成式人工智能现状报告》，德勤，2024 年 1 月
“2024 年人工智能的预期”，斯坦福大学，2023 年 12 月 8 日
“Q&A：华盛顿大学研究员讨论 ChatGPT 使用了多少能量”，华盛顿大学，2023 年 7 月 27 日
“企业中的生成式人工智能”，O'Reilly，2023 年 11 月 28 日
“Deepfaking it：America's 2024 elections agrees with AI boom”，路透社，2023 年 5 月 30 日
“组织如何阻止人工智能使用激增加剧焦虑”，安永会计师事务所，2023 年 12 月

上一篇：国内首发 | CSA大中华区启动《AI安全产业图谱（2024）》调研

下一篇：CSA大中华区牵头 | 生成式AI应用安全、大模型安全标准发布

本网站使用Cookies以使您获得最佳的体验。为了继续浏览本网站，您需同意我们对Cookies的使用。想要了解更多有关于Cookies的信息，或不希望当您使用网站时出现cookies，请阅读我们的Cookies声明和隐私声明。

全部接受

拒绝