在AI基础设施中部署大语言模型的三大举措-电子工程世界

中国企业机构已逐步在生产环境中运行或者计划运行大语言模型，但在AI基础设施的生产部署与高效运营方面仍面临诸多挑战。目前，中国正加速提升其生成式AI能力，覆盖大语言模型、软件开发、生态集成与硬件革新。随着DeepSeek、通义千问（Qwen）等高性价比模型日益普及和本地部署的深入推进，越来越多的中国企业将重心放在数据隐私、数据主权、安全性、可扩展性和低延迟等核心需求上。2025年Gartner首席信息官（CIO）和技术高管调研显示，2025年中国企业计划大幅增加在生成式AI和AI领域的技术投资，其平均增幅分别达到40.3%和33.3%（见图1），这一数据表明，相关技术将在短期内得到广泛采用。

image.png?imageView2/2/w/1000

Gartner预测，到2028年，中国70%的大型企业将为大语言模型在AI基础设施上的部署建立完善的治理框架，而2025年这一比例不足10%。

然而，要成功实现大语言模型在AI基础设施中的生产部署并非易事，需要制定复杂的技术、运维和治理战略，以确保模型达到性能指标（例如GPU算力利用率），同时保障数据安全与合规。

中国企业与全球企业的一个关键区别在于，其更倾向于在本地AI基础设施环境中部署大语言模型，这对I&O团队提出了更高要求，需要他们对重要AI基础设施技术栈有更深入的理解。AI基础设施是指AI应用构建、测试、训练与部署所需的最新、最先进的硬软件技术栈。

为了在新的AI基础设施上成功实现大语言模型的生产部署，企业应从以下三个方面着手：构建全面的生产发布策略；制定健全的治理框架；并加强与法律、安全、AI、数据团队及生态伙伴的紧密协作。这些举措为大语言模型在生产环境中的高效运行提供了坚实的保障。

构建全面的部署战略

随着企业开始在AI基础设施上部署大语言模型，I&O领导者所面临的压力日益增大，需要帮助AI开发人员和工程师在全企业范围内以更快的速度、更大的规模来推进AI项目的开发和部署。与此同时，针对不同用户和应用场景不断涌现的各种AI工具和服务，显著增加了评估与选择的难度和复杂性。此外，传统的生产发布策略与流程已无法有效支持大语言模型在AI基础设施中的生产部署需求。因此，I&O领导者亟需制定完善的生产发布战略，以保障部署工作的顺利进行。

然而，要为大语言模型在AI基础设施上的部署构建一套稳健的战略，就需要从整体视角出发，包括适配AI基础设施环境、为特定场景设计架构、实施技术优化以及确保符合监管框架要求。中国的I&O领导者应：

使部署策略与企业数字化转型战略保持一致
按照使用场景构建多层次部署架构以优化性能
优化模型与推理以提升效率
使用云原生技术实现灵活调度
加强合规并强化安全管理
建立全链路监控与成本控制机制

制定稳健的部署治理流程

大语言模型已经从研究原型转变为多种任务的关键核心组件，包括客户支持AI智能体、法律文档摘要、代码生成或测试工具、企业级代理型AI用例以及多模态应用等领域。然而，大语言模型在AI基础设施中的生产部署需要解决如下几个固有挑战：

资源密集
非确定性行为与提示敏感
延迟与吞吐限制
安全与隐私

因此，为了成功将大语言模型部署到AI基础设施的生产环境中，中国的I&O部门必须建立一套稳健的治理流程，采取切实可行的步骤促进资源管理、持续监控以及敏捷更新。比如：

提前规划并进行试点
确定产品部署位置
建立高效的资源管理
在大语言模型生产发布流程中嵌入安全治理与提示治理
管理版本并执行A/B测试
采用持续集成/持续交付流程
实施生产监控

促进关键利益相关方之间的紧密协作

部署大语言模型十分复杂，要求业务、法务、安全以及AI与数据团队以协同一致的方式共同工作。过去各自独立的部门如今必须从大语言模型项目的启动阶段就开展合作，以确保技术开发能够反映法律和安全方面的考量。建立跨职能的AI治理委员会至关重要，成员应包括法务、安全、数据工程与数据科学、产品管理、软件开发以及高管层的代表。

关键字：AI 基础设施 Gartner 引用地址：在AI基础设施中部署大语言模型的三大举措

上一篇：云开发者正加速向 Arm 架构迁移：构建面向 AI 时代的未来基础设施
下一篇：意法半导体与亚马逊云计算服务AWS深化战略合作

推荐阅读最新更新时间：2026-03-24 12:44

Gartner预测，到 2030 年，中国 80%的本地 AI 基础设施将采用本土研发的AI芯片

地缘政治紧张加剧，促使中国加快本土半导体生产，优先发展可靠的 AI芯片支撑核心基础设施。商业与技术洞察公司Gartner预测，到 2030 年，中国 80%的本地 AI基础设施将采用本土研发的AI芯片，而目前这一比例仅为20% 。 Gartner研究总监金玮表示：“美国政府对高性能AI加速器和先进半导体制造技术实施出口限制，推动了中国自主AI芯片的研发。作为回应，中国政府在本地 AI基础设施投资中强制要求实现自给自足，为国内 AI芯片供应商创造了庞大、受保护且较为稳定的市场。” 中国半导体企业已具备替代全球领先厂商的 AI芯片设计能力。中国 AI芯片企业采用了与算法高度契合的芯片架构（ AASA ），该架构专门针对

[网络通信]

Gartner发布四大塑造云、数据中心和边缘基础设施的未来趋势

2023年5月25日—— 在经济充满变数的这一年中，基础设施和运营（I&O）团队需要支持新的技术和工作方式，因此Gartner于近日重点发布影响2023年云、数据中心和边缘基础设施的四大趋势。 Gartner研究副总裁Paul Delory表示，“在当前的经济环境下，2023年企业面临的最大问题可能并不是IT基础设施的问题。I&O团队将受到经济和地缘政治因素的影响，并在缓解这些影响方面发挥着至关重要的作用。今年或许不是实现宏伟目标的一年，但却是重新聚焦、重新调整和重新思考基础设施的时刻。在每场危机中都蕴藏着机遇，因此，我们可能有机会在今年实现长久以来期望的积极变革。” Gartner指出，云计算、数据中心和边缘基础设

[网络通信]

芯原超低能耗NPU可为移动端大语言模型推理提供超40 TOPS算力

具备高能效比的架构，广泛适用于智慧手机和AI PC等终端设备 2025年6月9日，中国上海—— 芯原股份今日宣布其超低能耗且高性能的神经网络处理器（NPU）IP现已支持在移动端进行大语言模型（LLM）推理，AI算力可扩展至40 TOPS以上。该高能效NPU架构专为满足移动平台日益增长的生成式AI需求而设计，不仅能够为AI PC等终端设备提供强劲算力支持，而且能够应对智慧手机等移动终端对低能耗更为严苛的挑战。芯原的超低能耗NPU IP具备高度可配置、可扩展的架构，支持混合精度计算、稀疏化优化和并行处理。其设计融合了高效的内存管理与稀疏感知加速技术，显著降低计算负载与延迟，确保AI处理流畅、响应迅速。该NPU支持数百种A

[网络通信]

芯原超低能耗NPU可为移动端<font color='red'>大</font><font color='red'>语言</font><font color='red'>模型</font>推理提供超40 TOPS算力

揭秘聊天机器人的“大脑”-大语言模型

如果说正处于改变历史的“ 时刻”，那么聊天就是其首批热门应用之一。聊天机器人的诞生离不开大语言模型，这是一种基于大规模数据集进行预训练的，能够识别、总结、翻译、预测和生成文本及其他形式的内容。这类模型可以在由 NVIDIA GeFce 和 RTX 提供支持的 PC 和工作站上本地运行。大语言模型擅长总结大量文本，通过数据分类和挖掘来获取见解，以及按照用户指定的风格、语气或形式生成新文本。它们可以促进以各种语言进行的交流，甚至包括人类语言之外的非常规“语言”，例如计算机代码或蛋白质和基因序列。首代大语言模型只能处理文本，但后续迭代针对其他类型的数据进行了训练。这些多模态大语言模型可以识别和生成图像

[机器人]

揭秘聊天机器人的“大脑”-大语言模型

[机器人]

机器人基于开源的多模态语言视觉大模型

近年来，大模型的研究正在加速推进，它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求，这自然引申出一个问题：能不能充分利用大模型能力，将其迁移到机器人领域，直接规划底层动作序列呢？对此，ByDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。使用简单、少量的微调就可以把 VLM 变成 Robocs VLM，从而适用于语言交互的机器人操作任务。 OpenFlamingo 在机器人操作数据集 CALVIN 上进

[机器人]

CPU在AI基础设施中的核心地位

人工智能并非面向单一工作负载或依赖统一基础设施，其工作负载具有多样性，需要通过系统级的协同策略来实现高效、可扩展的性能。在此策略中，智能层居于核心地位，作为系统的协调中枢，统一调度云端、数据中心、边缘端以及新兴的物理AI系统中的各类计算资源。这些是Futurum 最新报告《处于 AI 和数据中心变革的中心》的核心结论，该报告深入剖析了 AI 当前面临的关键转折点，并阐明了 Arm 在其中的核心作用。以下是报告提炼出的五个关键要点。 01AI 是一项系统挑战尽管 AI 加速器常被热议，但 Futurum 的报告指出：真正决定 AI 规模化性能表现的，是整个系统的智能编排能力。无论是协调异构计算、管理数据流动，还是在

[单片机]

云开发者正加速向 Arm 架构迁移：构建面向 AI 时代的未来基础设施

云开发者正加速采用基于 Arm 架构的平台，凭借其无可比拟的每瓦性能和成本优势，更快落地可扩展并投产的 AI 工作负载。人工智能 (AI) 正重塑数字格局，开发者也正面临全新挑战：基础设施不仅要具备强大算力，还需兼具可扩展性、成本效益和高能效等特征。当前，亚马逊云科技、谷歌、微软、Oracle Cloud Infrastructure (OCI) 及 NVIDIA 等超大规模云服务提供商与 AI 领军企业，均已基于 Arm 架构打造定制化解决方案，布局 AI 数据中心。这一趋势正在蓬勃展开。2025 年头部超大规模云服务提供商的新增服务器算力中，有近半数是基于 Arm 架构。Arm Neoverse 平台正在为量

[网络通信]