当前位置: 首页 > news >正文

AI大模型企业落地指南-笔记01

前言

AI技术的发展趋势必然是越来越普及,越来越“技术平权”的。在未来10年内,AI将以各种方式“融入”人类世界,与人类乃至世界深度融合。

一. 概念

第1章 AI与大模型概述

1.1 什么是AI

人工智能(全称Artificial Intelligence,简称AI)是计算机科学与其他学科交叉的一个领域,旨在创建具备高级智慧的机器或系统,来执行一系列需要人类智能才能完成的任务。

AI可以分为弱AI和强AI,其中弱AI专注于执行特定任务,如图像识别、语音转换、词性标注等;而强AI则具备可与人类比肩的认知能力,在广泛的领域展示出灵活的智能和自主学习的能力,因此它又被称为通用人工智能(Artificial General Intelligence,AGI)。

1.2 AI基本原理

AI的原理可以类比人脑的学习过程。人脑总结的规律在AI看来就是一个模型,AI通过输入大量历史数据并经过训练,从中提炼出一个模型,该模型能够根据新输入的数据,预测未知的属性和结果。AI的原理是通过学习大量的数据,建立模型,然后利用模型来处理新的数据。

人工智能、机器学习和深度学习、预训练模型和大模型的关系:人工智能是一个宽泛的概念,包括了机器学习,而机器学习是实现人工智能的一种方法,深度学习则是机器学习的一个重要分支。“预训练模型”是深度学习领域中的一个重要概念,通过使用大量数据进行预训练,从而极大地提升模型的性能和泛化能力。大模型是近年来深度学习领域的一个热点,它基于Transformer架构构建,参数规模达到数亿甚至数千亿个。由于其具有处理复杂任务的能力,因此代表了当前AI技术向更高层次智能化迈进的趋势。

1.3 AI应用场景

智能安防、语音助手、自动驾驶、智能制造等各领域。

1.4 大模型概述

1.4.1 基本概念

1)文生文:文生文大模型主要提供基本的常识、逻辑、推理能力,结合用户输入的提示词回答问题。ChatGPT、阿里千问等。

2)文生图:文生图大模型通常具备强大的文本理解、细节刻画和风格化能力,可基于输入的自然语言文本生成风格多样、画质精美、创意十足的绘画作品。文生图大模型的代表有Midjourney、Stable Diffusion、OpenAI的Dall·E系列、百度的文心一格等产品。

3)文生视频:文生视频大模型根据文本脚本生成连贯的具备特定风格的视频片段,代表性产品为Runaway、Pika、Sora等。

4)图生图:图生图大模型可以根据输入的图片生成新的图片。

5)图生文:图像理解与文本生成;创意联想等。

6)视频生文:视频理解、情感分析、多模态融合、自适应学习等。

7)文生音乐:文生音乐大模型可以根据用户输入的文本和风格描述,模拟特定的音乐流派,创作符合要求的音乐。

1.4.2 提示词

提示词(Prompt)可以被理解为用户向模型发出的指令。核心技巧:

假定身份;明确目标;使用关键词;具体描述;避免模糊性;提供示例;调整语气和风格;测试和调整;保持一致性;利用上下文信息。

1.4.3 大模型与传统AI的区别

1)技术原理与算法:传统AI通常依赖基于规则、模板和手工特征工程的算法,这些算法相对较为浅层,难以处理复杂的语言任务。

2)任务范围与性能:传统AI通常只能处理特定领域内相对简单的任务,如特定场景下的图像分类、语音识别等。

3)灵活性与可扩展性:传统AI在面对新的应用需求时,通常需要重新设计和实现算法和模型,因缺乏快速适应能力,显得不够灵活。

4)计算资源与推理效率:大模型的训练与使用需要大量的计算资源,尤其在大规模数据训练时,通常依赖高性能的GPU、TPU等硬件。

1.4.4 AI、AIGC、AGI的区别

AI:指由人造系统所表现出来的智能行为。这些系统能够通过学习和积累经验来执行任务,解决问题,并能在一定程度上模拟人类的认知过程。AI可以分为弱AI和强AI两大类。弱AI:也称为特定AI,指的是设计用来执行特定任务的智能系统,比如语音识别、图像识别、推荐系统等。强AI:即AGI(也称通用AI),指的是具有广泛的认知能力,能够在各种情境和任务中表现出与人类相当智能水平的系统。

AIGC:(Artificial Intelligence Generated Content,人工智能生成内容)是指使用AI技术自动生成文本、图像、音乐、视频等内容的过程。

AGI:(通用人工智能)是指一种具有广泛认知能力的智能系统,它可以像人类一样在各种情境和任务中进行学习、理解、推理和创造。AGI是人工智能研究的终极目标。

AI是一个内涵广泛的术语,包括了所有类型的人工智能系统;AIGC是AI的一个应用领域,专注于内容的自动生成;而AGI则是AI发展的终极目标,代表着与人类智能相当的系统。

1.4.5 大模型发展历程

早起神经网络 -- 反向传播算法 -- 深度学习 -- 预训练语言模型 -- 多模态和大规模预训练模型 -- 模型规模的指数级增长。

1.4.6 大模型的基本特点与原理

大模型,特别是在自然语言处理(NLP)和计算机视觉(CV)领域的深度学习模型,通常指的是参数众多、结构复杂的神经网络。基本特点如下:

1)参数规模:大模型通常包含数十亿甚至数千亿个权重参数。这些参数是在训练过程中学习得到的,它们决定了模型从输入数据中提取特征并进行预测的方式。参数的规模直接影响模型的学习能力和表示能力。

2)数据驱动:大模型的训练依赖于大规模高质量的标注数据。通过在这些数据上进行训练,模型能够学习到数据中的模式和规律。数据的多样性和质量对于模型性能至关重要。

3)预训练与微调:大模型通常采用预训练与微调相结合的策略。在预训练阶段,模型在大规模的通用数据集上进行无监督或自监督学习,学习到通用的特征表示和语言模式。在微调阶段,模型使用特定任务的标注数据进行有监督学习,通过调整预训练得到的参数来更好地适应特定任务。

4)模型架构:大模型通常采用先进的神经网络架构,如Transformer等。这些架构能够有效地处理序列数据,并捕捉长程依赖关系。

5)计算资源:大模型的参数规模庞大,它们需要大量的计算资源进行训练和推理。这通常涉及使用高性能的GPU或TPU集群,并采用分布式训练技术来加速训练过程。

6)涌现能力:当模型达到一定规模时,大模型会突然表现出显著的性能提升,展现出令人惊艳的全新能力,仿佛知晓了一些从未有人告知过的知识和逻辑,这种能力被称为涌现能力,也是大模型最为突出的能力之一。通常在模型参数达到100亿到1000亿区间时显现。涌现能力是因为模型规模的增大导致的质变,这使得大模型能够处理更加复杂、细致的任务。

7)基于人类反馈的优化:大模型输出的内容可能具有一定的随机性,因此对于其输出内容需要有一个人工监督、人类价值观对齐的过程,这个过程被称为人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)

大模型在处理和预测语言方面非常强大,但在创新能力上还有所欠缺。这主要是因为大模型的学习方式主要是基于词语之间的关联性,而非深层次地去理解和创造新的概念或想法。

1.4.7 大模型领域的著名定律Scaling Law

既然大模型的参数规模、数据量和所需计算量都如此庞大,那么这三者之间究竟存在怎样的联系?深度学习模型的性能通常随着模型规模的变化而呈现一定的规律,这个定律被称为Scaling Law。

1)Scaling Law的定义与重要性:Scaling Law在大模型领域指模型性能与模型规模(参数数量)、数据集大小及计算量之间的规律。

2)Scaling Law的核心内容:①模型规模的扩大:Scaling Law强调通过增加模型参数量、数据集大小和计算量,可以得到性能更优的模型。②幂律关系:模型参数量、数据集大小及计算量之间存在幂律关系。③涌现能力:当模型规模超过某一阈值时,模型可能会出现未预期到的涌现能力,它可以推动模型性能进一步提升。

3)Scaling Law的价值:指导模型训练;预测模型性能;推动技术创新。

1.4.8 大模型企业生态架构

1)大模型应用及智能体层:包括各种基于大模型开发的智能应用,如智能问答系统、文本生成工具、智能推荐系统等。智能体也在此作为用户的代理,建立用户与大模型之间的桥梁。

2)MaaS平台层:Model as a Service,模型即服务。模型服务化,通过API调用获得推理结果。模型管理与调度:MaaS平台负责管理多个大模型,包括模型的部署、更新、版本控制等。安全与隐私保护:在提供模型服务的过程中,MaaS平台也负责数据的加密、用户身份验证和访问控制。性能监控与优化:MaaS平台还具备性能监控功能,能够实时监控模型的运行状态,及时发现并处理性能瓶颈。模型训练:部分MaaS平台能提供训练数据和计算资源,包括数据预处理、特征工程等步骤,帮助客户训练出符合特定需求的模型,以提高模型的性能。模型微调:部分MaaS平台允许客户使用自己的数据集对预训练模型进行微调,提供微调工具和服务,使客户能够轻松地调整模型的参数和结构,以适应特定的应用场景,优化模型的性能。

3)大模型底层基础设施:包括各种预训练或微调好的大模型,如ChatGPT、Llama、ChatGLM等。这些模型已经在大量数据上进行了预训练,具备了强大的语言理解、生成和推理能力。

4)算力基础设施层:提供高性能的计算资源,以支持大模型的训练和推理,包括大规模的GPU集群、高速存储设备和网络设施等。

1.4.9 智能体

智能体是大模型兴起后的一个全新应用形态。是基于庞大的参数规模以及复杂的计算结构构建的,它将多个模型的逻辑进行了精密整合。智能体在感知、记忆、规划和执行能力等方面都有着卓越的表现,这不仅体现了其高度的自主性,也彰显了令人惊叹的智能化水平。

第2章 大模型的商业价值

2.1 企业靠大模型才能解决的业务痛点

企业在经营过程中的常见业务痛点,通过引入大模型可以妥善解决的几点如下:

1)客服团队人力不足及响应效率低下

2)数据处理与分析能力不足

3)自媒体企业内容生产效率低下

4)制造业企业设计成本高昂

5)视频制作成本高昂

6)专家经验的传承难题

7)传统AI手段通用性较差:针对特定场景利用数据训练出来的小模型,无法通过一次训练满足多个场景的需求。

8)决策支持不足

2.2 大模型应用场景介绍

2.2.1 个人生活与工作

数字化个人助理、智能家居控制、高效写作助手、儿童教育(提供个性化学习资源、智能辅导和互动式教学来辅助儿童教育)、自媒体内容创作及维护(大模型能够帮助普通人在自媒体领域提高内容创作效率和质量)。

2.2.2 企业应用

智能客服、智能营销、协同办公、智能制造、数据分析、企业知识库、AI数字人、AI编程、医疗、教育与法律顾问等。

2.3 大模型在企业中的应用与价值

企业融入大模型后,能更好的用户体验:更加智能化的产品和服务,深入了解用户需求和行为,提供智能客服支持,优化业务流程和管理流程。提升企业收入:

精准市场预测与决策支持,提升营销效果。提升科技属性等。提高生产效率。

2.4 企业为何务必关注和拥抱AI技术

全面关注并拥抱AI技术。任何忽视AI技术的企业,都必将在残酷的市场竞争中失势。行业大势所趋。借助大模型的强大技术能力,企业能够对海量的数据进行深入且全面的挖掘和剖析。

二、企业落地准备篇

第3章 大模型落地准备工作

3.1 企业大模型应用落地的常见形式

落地大模型时,企业可以根据自身的业务需求和目标选择不同的形式。员工个人办公使用、与企业数字化系统相集成、在关键环节嵌入大模型能力,实现局部的提效降本。由于这是大模型在企业落地相对容易和低成本的方式。这种形式也被称为“+AIGC”,即在原有的数字化系统里增加AIGC能力。通过选择智能体平台来提升效率。

用AI原生方式重构企业数字化系统:AI 原生(AI Native)方式指的是在产品或服务的设计、开发和运营过程中,将AI技术作为核心和基础,深度整合进企业的各个环节中,从而实现智能化的业务流程和用户体验。深度集成、创新式交互方式、数据驱动、持续学习和优化、业务模式创新、跨行业应用。

嵌入物联网设备:在当前的智能网联汽车领域,越来越多的智能座驾模块正在采用这种方案。通过将经过优化处理的大模型部署在汽车的本地设备中,车主可以体验到高性能、低延迟的智能操作,如智能导航、车辆状态监测、驾驶辅助等一系列智能化服务。人工智能电脑(AI PC)也逐渐进入了公众视野。AI PC是一种集成了先进AI技术的个人计算机,旨在借助 AI 技术的强大功能提升用户的工作、学习以及日常生活的效率。

催生新的超级个体形态:具备独特优势和强大能力的“超级个体”,甚至有条件去打造完全独立自主的“一人公司”。

3.2 大模型现有的能力边界

3.2.1 大模型现有的能力边界与瓶颈

数据依赖性太高;情感理解不足;无法实现高级思维:目前仍无法像人类一样进行演绎推理,产生抽象思维以及创新思维,主要是因为大模型的处理方式主要基于统计和概率,它们通过大量的数据进行训练,学习语言模式和关联性,但这种方式并不能赋予模型真正的理解能力;

通用性限制;多模态生成精度不足;幻觉问题:RAG技术为解决大模型准确性问题提供了可能。将大模型与外部知识库或数据集连接,当遇到问题时先检索相关信息,然后结合检索结果生成回答,可以大大提高答案的准确性和可靠性。时效性问题。

响应速度慢:大模型平均单次推理响应时间在秒级别,而传统小模型的响应时间则在毫秒级别。

可解释性差:内部工作机制相对复杂,使得人们往往难以理解其决策和生成结果。

资源和能源消耗较大;存在隐私和伦理问题;难以完全替代人工:更多的是作为辅助工具帮助人工提高工作效率,并在业务链条中的部分环节替代人工工作,仍然需要人工参与验证及修改等工作。

3.2.2 大模型未来提升方向

多模态能力增强,自然语言处理精准度提升,准确性提升,模型规模不断扩大,自主学习能力提升,可解释性和可信度提升,安全性和隐私保护能力增强:通过采用差分隐私技术,可以在保护用户隐私的同时,确保模型的训练效果不受影响;情感分析与回应能力改进,算力和资源利用更高效。

3.3 大模型落地的必备要素

大模型落地的必备要素包括数据、算力、模型和人才。

3.4 全面梳理公司已有的业务链条,寻找AI落地场景

3.4.1 选取产品与AI的创新结合点
3.4.2 用AI替代低效重复的业务环节

如果创新能力不是强项,企业可以考虑在能够通过AI降本增效的业务环节应用AI技术。识别低效、重复的业务环节;评估标准化潜力;选择适合的AI技术替代。

3.4.3 对标同行业或跨行业友商的AI方案

企业在遇到问题想解决方案时,首先看别人是不是也遇到过这个问题,别人采取了什么解决方案,而且世界上99%的问题其实别人都解决过。

第4章 大模型落地方案解析

4.1 根据不同预算和企业规模选择合适的落地方案

结合自身发展阶段和资金预算,选择适合的大模型落地方案,以实现投入产出比的最大化。

4.1.1 使用公有云大模型

对于中小型企业,由于缺乏足够的大模型自研资金与技术实力,比较适合直接通过API等方式调用公有云厂商的大模型。这种方式成本最低,投入产出比较高。

国内主要的公有云大模型服务提供商:阿里云、腾讯云、百度云和华为云。

国外的公有云大模型服务提供商:Amazon Web Services (AWS)、Google Cloud Platform (GCP)、Microsoft Azure。

具体选择哪个平台,还需要根据实际需求、预算及技术栈等因素来综合考虑。比如部分企业发展到一定规模会选择“混合云策略”,即至少选择两家公有云,同时自建IDC。

企业通过调用公有云API来实现大模型落地,需要执行以下步骤:明确需求与目标、选择公有云平台、调用与部署API、实施优化与监控,以及确保数据安全与合规性等。

4.1.2 与外部厂商合作

如果企业担心在使用公有云大模型时存在数据安全、便捷性不足等问题,可以考虑与外部大模型服务提供商合作,通过签署合作协议或分包形式建设企业专属的大模型,并将其私有化部署在企业自有数据中心中。

4.1.3 内部微调大模型

当企业无法访问公有云大模型服务,或者因数据隐私、安全、业务特殊性,以及想要拥有知识产权,不能完全依赖外部厂商进行大模型研发时,企业通常需要自主招聘专业人才进行大模型的微调。这种方式的整体成本要比完全从0到1自研大模型低一些,所需费用会随人力、算力、推理并发度、参数规模、数据规模的增加而增加,一般整体成本从几十万元到几千万元不等。

企业在进行大模型微调时,通常需要事先寻找一个开源的预训练模型作为基础。国内外常见的开源预训练模型有以下几种:

1)ChatGLM 是由清华大学推出的基于GLM(General Language Model,通用语言模型)的开源双语对话模型,特别适用于中文和英文场景。

2)Llama是由Meta推出的大语言模型,拥有巨大的参数规模和丰富的知识库。它基于深度学习技术,具有强大的自然语言理解与生成能力。

3)通义千问是阿里云推出的一款超大规模语言模型,是阿里云的MaaS平台的核心组件,具备多模态理解和多模态生成的能力。

4)百川智能是北京百川智能科技有限公司推出的大模型产品,融合了意图理解、信息检索以及强化学习技术,特别适用于知识问答、文本创作等领域。

5)Stable Diffusion是一个基于LDM(Latent Diffusion Model,潜在扩散模型)的开源图像生成模型。它通过在一个潜在表示空间中迭代去噪来生成高质量的图像,然后将表示结果解码为完整的图像。

微调大模型可以分为全微调、部分微调以及指令微调这三种方式,一般来说,在资金与人员投入方面,全微调投入最大,部分微调次之,指令微调相对最少,而由此带来的专业性效果也会呈现出相应的递减趋势。

1)全微调:是在预训练模型的基础上对整个模型的所有参数进行调整和优化的方法。这种方法旨在利用预训练模型中的通用知识,通过微调使其更好地适应特定任务需求。在全微调过程中,模型的每一层都会参与参数调整,包括底层的卷积层、池化层,以及顶层的全连接层等。这意味着模型中的每一个权重和偏置参数都会被优化,以最小化在目标任务上的预测误差。可能存在过拟合的问题。

2)部分微调:是对预训练模型的部分参数进行调整而保持其他参数不变的微调方法。通常只调整预训练模型中的顶层或某几层参数,保留底层的通用特征。顶层或某几层的微调主要是为了适应新任务的特定特征,而底层特征则用于捕捉通用模式与信息。

3)指令微调:是大模型微调中的一种重要技术,主要通过使用特定的数据集对预训练大语言模型进行深入训练,以适应特定任务或领域。这种方法通常用于模型理解与执行自然语言指令的任务。

指令微调与部分微调的区别

1)调整范围不同:指令微调主要关注模型的指令遵循能力,而部分微调更侧重于模型的某个具体任务。

2)数据需求量不同:指令微调通常使用少量数据进行调整,而部分微调可能需要更多的数据来针对特定任务进行优化。

3)泛化能力不一样:指令微调后的模型通常具有更强的泛化能力,能够适应多种下游任务,而部分微调可能更专注于提高模型在某一具体任务上的性能表现。

4.1.4 大模型+ RAG

RAG(Retrieval-Augmented Generation,检索增强生成)技术。RAG技术的核心在于其独特的双引擎架构:一方面是基于大规模语料库训练的大语言模型,负责生成流畅的文本;另一方面则是高度专业化的信息检索系统,能够从特定数据库中提取专业信息。

4.1.5 从0到1自研大模型

当使用公有云和微调大模型均无法满足企业需求时,企业会选择从0到1自研大模型。

在自研大模型的过程中,底层模型架构的选择至关重要,例如可以选择当下流行的Transformer架构或采用Diffusion Model作为模型的基础。自研大模型时,训练框架一般会采用自研框架而非开源框架。

4.2 评估大模型落地整体预算投入

主要包含数据投入、算力投入、技术投入和人力投入。

4.3 衡量AI落地的投入产出比

估算出大模型整体投入的预算费用后,企业接下来需要估算AI落地的投资回报率,即ROI。ROI(Return on Investment)是衡量企业从一项投资性商业活动中获得的经济回报的指标。衡量AI项目落地的投资回报率是一个持续且动态的过程,需要企业综合考虑多个因素,并采用科学的方法来进行分析和评估。

(未完待续)

http://www.dtcms.com/a/349134.html

相关文章:

  • Data_Formats_GRIDGeoTIFFShapeFile
  • 数据产品(2)用户画像数据分析模型
  • 【计算机视觉】CaFormer
  • 房屋装修设计管理系统的设计与实现/房屋装修管理系统
  • 审核问题——应用未配置图标的前景图和后景图
  • 深度剖析Spring AI源码(十):实战案例:智能客服系统
  • MySQL-delete tableName from ...
  • [GeographicLib] LocalCartesian用法
  • 从成本中心到价值创造者:网络安全运维的实施框架与价值流转
  • 深入两种高级并发设计模式
  • 零基础玩转STM32:深入理解ARM Cortex-M内核与寄存器编程
  • 奈飞工厂:算法优化实战
  • MySQL性能优化的5个维度
  • 02-开发环境搭建与工具链
  • 【Android Kotlin】Kotlin专题学习
  • 十一、redis 入门 之 数据持久化
  • [滑动窗口]1493. 删掉一个元素以后全为 1 的最长子数组
  • 3.6 虚拟存储器 (答案见原书 P225)
  • 国内第一本系统介绍 Obsidian 的书出版了
  • 基于Python的淘宝电商服装价格可视化分析
  • 【知识杂记】卡尔曼滤波及其变种,从理论精要到工程实践深入解析
  • AI代理需要数据完整性
  • C++ 可变参数模板(Variadic Templates)
  • 2025年09月计算机二级Java选择题每日一练——第六期
  • c#_数据持久化
  • LangGraph 那点事
  • 自定义SpringBoot的自动配置
  • 从零到精通:如何用 Python 高效查找数组中出现频率最高的元素
  • leetcode刷题记录04——top100题里的7道中等题
  • 网络编程-创建TCP协议服务器