大型语言模型 LLM:2023 年完整指南.docx

上传人:p** 文档编号:498384 上传时间:2023-09-26 格式:DOCX 页数:9 大小:72.08KB
下载 相关 举报
大型语言模型 LLM:2023 年完整指南.docx_第1页
第1页 / 共9页
大型语言模型 LLM:2023 年完整指南.docx_第2页
第2页 / 共9页
大型语言模型 LLM:2023 年完整指南.docx_第3页
第3页 / 共9页
大型语言模型 LLM:2023 年完整指南.docx_第4页
第4页 / 共9页
大型语言模型 LLM:2023 年完整指南.docx_第5页
第5页 / 共9页
大型语言模型 LLM:2023 年完整指南.docx_第6页
第6页 / 共9页
大型语言模型 LLM:2023 年完整指南.docx_第7页
第7页 / 共9页
大型语言模型 LLM:2023 年完整指南.docx_第8页
第8页 / 共9页
大型语言模型 LLM:2023 年完整指南.docx_第9页
第9页 / 共9页
亲,该文档总共9页,全部预览完了,如果喜欢就下载吧!
资源描述

《大型语言模型 LLM:2023 年完整指南.docx》由会员分享,可在线阅读,更多相关《大型语言模型 LLM:2023 年完整指南.docx(9页珍藏版)》请在第壹文秘上搜索。

1、生成式人工智能,自然语言处理大型语言模型LLM:2023年完整指南1.argeLanguageModels:CompleteGuidein2023图i大型语言模型”的搜索量大型语言模型(LLM)已经接管了互联网。2023年1月,OpenAI的ChatGPT拥有1亿月活跃用户,创下了有史以来用户增长最快的记录。对LLM的需求很高,因为有很多用例,例如:语言模型也为企业开辟了新的可能性,因为它们可以: 自动化流程ProcessAutomation 节省时间和金钱Savetimeandmoney 推动个性化DriVePerSonaliZatiOn 提高任务的准确性InCreaSeaccuracyin

2、tasks然而,大型语言模型是计算机科学的新发展。正因为如此,企业领导者可能无法及时了解这些模型。我们写这篇文章是为了用大语言模型为好奇的商业领袖提供信息: 定义Definition 例子Examples 使用案例Usecases 训I练Training 好处Benefits 挑战Benefits什么是大型语言模型?DataStructured DataTraining FoundationModel30 Signals TasksInformation ExtractionAdaptationImageCaptioning图2:基础模型,来源:ArXive大型语言模型(IIM)是在自然语言处

3、理(NLP)和自然语言生成(NLG)任务中利用深度学习的基础模型。为了帮助他们学习语言的复杂性和联系,大型语言模型在大量数据上进行了预训练。使用以下技术: 微调Fine-tuning 上下文学习In-COnteXtlearning 零/一/少镜头学习Zeroonefew-shotlearning这些模型可以适应下游(特定)任务(见图2)。1.LM本质上是一个基于变压器的神经网络,谷歌工程师在2017年一篇题为“注意力是你所需要的”的文章中介绍。该模型的目标是预测接下来可能出现的文本。模型的复杂程度和性能可以通过它有多少参数来判断。模型的参数是生成输出时考虑的因素数。大型语言模型示例有许多开源语

4、言模型可以部署在本地或私有云privatecloud中,这意味着快速的业务采用和强大的网络安全。此类别中的一些大型语言模型是: 绽放BLOOM 尼莫法学NeMOuM XLM-RoBERTa XLNet Cohere凝聚力 GLM-130B大多数领先的语言模型开发人员都是美国人,但中国和欧洲也有成功的例子,因为他们正在努力赶上生成人工智能。语言模型的用例有哪些?大型语言模型可应用于各种用例和行业,包括医疗保健、零售、科技等。以下是所有行业中存在的用例: 文本摘要 文本生成 情绪分析 内容创建 聊天机器人、虚拟助手和对话式Al 命名实体识别 语音识别和合成 图像注释 文本到语音转换合成 拼写更正

5、机器翻译 推荐系统 欺诈检测 代码生成 Textsummarization Textgeneration Sentimentanalysis Contentcreation Chatbots,virtualassistants,andconversationalAl Namedentityrecognition Speechrecognitionandsynthesis Imageannotation Text-to-speechsynthesis Spellcorrection Machinetranslation Recommendationsystems Frauddetection C

6、odegeneration如何训练大型语言模型大型语言模型是深度学习神经网络,是人工智能和机器学习的一个子集。大型语言模型首先经过预训练,以便它们学习基本的语言任务和功能。预训练是需要大量计算能力和尖端硬件的步骤。图2:预训练与微调Pre-TrainingFine-Tuning(Cheaper)LargeUnlabeled CorpusSmallLabeled Corpus(ComputationallyExpensive)图3:预训练与微调,来源:一旦模型经过预训练,就可以使用特定于任务的新数据对其进行训练,以针对特定用例对其进行微调。微调方法具有很高的计算效率,因为它需要更少的数据和功率,

7、使其成为一种更便宜的方法(见图3)o大型语言模型的4大优势I-减少体力劳动和成本语言模型可用于自动化许多过程,例如: 情绪分析 顾客服务 内容创建 欺诈检测 预测和分类自动化此类任务可以减少体力劳动和相关成本。2-增强可用性,个性化和客户满意度许多客户希望企业能够24/7全天候可用,这可以通过使用语言模型的聊天机器人和虚拟助手来实现。通过自动化内容创建,语言模型可以通过处理大量数据来了解客户行为和偏好,从而推动个性化。客户满意度和积极的品牌关系将随着可用性和个性化服务而增加。3-节省时间语言模型系统可以自动化营销、销售、人力资源和客户服务中的许多流程。例如,语言模型可以帮助数据输入、客户服务和

8、文档创建,使员工能够腾出时间来处理需要人类专业知识的更重要的任务。语言模型可以为企业节省时间的另一个领域是分析大量数据。凭借处理大量信息的能力,企业可以从复杂的数据集中快速提取见解并做出明智的决策。这可以提高运营效率、更快地解决问题和更明智的业务决策。提高任务的准确性大型语言模型能够处理大量数据,从而提高预测和分类任务的准确性。模型使用此信息来学习模式和关系,这有助于它们做出更好的预测和分组。例如,在情绪分析中,大型语言模型可以分析数千条客户评论,以了解每条评论背后的情绪,从而提高确定客户评论是正面、负面还是中立的准确性。这种准确性的提高在许多业务应用程序中至关重要,因为小错误可能会产生重大影

9、响。语言模型的挑战和局限性1-可靠性和偏置语言模型的能力仅限于它们所训练的文本训练数据,这意味着它们对世界的了解有限。这些模型学习训练数据中的关系,这些关系可能包括: 虚假信息 种族、性别和性别偏见 有语言当训练数据没有被检查和标记时,语言模型已被证明会做出种族主义或性别歧视的评论。在某些情况下,模型可能会提供虚假信息。2-上下文窗口每个大型语言模型只有一定的内存量,因此它只能接受一定数量的令牌作为输入。例如,ChatGPT的限制为2048个代币(大约1500个单词),这意味着ChatGPT无法理解输入并为超过2048个代币限制的输入生成输出。3-系统成本开发大型语言模型需要计算机系统、人力资

10、本(工程师、研究人员、科学家等)和电力方面的大量投资。资源密集型使得大型语言模型的开发仅适用于拥有大量资源的大型企业。据估计,来自英伟达和微软的威震天-图灵,项目总成本接近100亿美元。4-环境影响威震天图灵由数百台NVIDIADGXAlOO多GPU服务器开发,每台服务器使用高达6.5千瓦的功率。除了大量的电力来冷却这个巨大的框架外,这些模型还需要大量的电力并留下大量的碳足迹。根据一项研究,在GPU上训练BERT(谷歌法学硕士)大致相当于跨美飞行。1.argelanguagemodels(LLMs)havegeneratedmuchhypeinrecentmonths(seeFigure1).

11、Thedemandhasledtotheongoingdevelopmentofwebsitesandsolutionsthatleveragelanguagemodels.ChatGPTsettherecordforthefastest-growinguserbaseinJanuary2023,provingthatlanguagemodelsareheretostay.ThisisalsoshownbythefactthatBard7GoogIezSanswertoChatGPTzwasintroducedinFebruary2023.1.anguagemodelsarealsoopeni

12、ngnewpossibilitiesforbusinesses,astheycan: Automateprocesses Savetimeandmoney Drivepersonalization IncreaseaccuracyintasksYet,largelanguagemodelsareanewdevelopmentincomputerscience.Becauseofthis,businessleadersmaynotbeup-to-dateonsuchmodels.Wewrotethisarticletoinformcuriousbusinessleadersinlargelang

13、uagemodels: Definition Examples Usecases Training Benefits ChallengesWhatisalargelanguagemodel?1.argelanguagemodels(LLMs)arefoundationmodelsthatutilizedeeplearninginnaturallanguageprocessing(NLP)andnaturallanguagegeneration(NLG)tasks.ForthepurposeofhelpingthemlearnthecomplexityandlinkagesOflanguagez

14、largelanguagemodelsarepre-trainedonavastamountofdata.Usingtechniquessuchas:Fine-tuningIn-contextlearningZeroonefew-shotlearningthesemodelscanbeadaptedfordownstream(specific)tasks(seeFigure2).AnLLMisessentiallyaTransformer-basedneuralnetwork,introducedinanarticlebyGoogleengineerstitledAttentionisAllY

15、ouNeedz,in2017.1Thegoalofthemodelistopredictthetextthatislikelytocomenext.Thesophisticationandperformanceofamodelcanbejudgedbyhowmanyparametersithas.Amodelsparametersarethenumberoffactorsitconsiderswhengeneratingoutput.1.argelanguagemodelexamplesTherearemanyopen-sourcelanguagemodelsthataredeployableon-premiseorinaprivatecloud,whichtranslatestofastbusinessadoptionandrobustcybersecurity.Somelargelanguagemodelsinthiscategor

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 数据结构与算法

copyright@ 2008-2023 1wenmi网站版权所有

经营许可证编号:宁ICP备2022001189号-1

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第壹文秘网,我们立即给予删除!