2025年模型部署框架(模型 框架)

模型部署框架(模型 框架)nbsp nbsp nbsp nbsp 最近两年大模型非常的火 自己也想部署一个来玩一玩 然后去整一个服务器 搜索各种资料研究 发现很多篇文章内容 总是缺那么一两个步骤 或者衔接中少了一环 走了很多弯路 现在研究跑通之后 做了版基础小白都可用的手册篇 可运行大部分模型 如 Qwen2 7b 供大家参考 部署模型步骤大致分为以下



        最近两年大模型非常的火,自己也想部署一个来玩一玩,然后去整一个服务器,搜索各种资料研究,发现很多篇文章内容,总是缺那么一两个步骤,或者衔接中少了一环,走了很多弯路,现在研究跑通之后,做了版基础小白都可用的手册篇,可运行大部分模型,如Qwen2-7b,供大家参考。

部署模型步骤大致分为以下:

1,确定可用于部署大模型的硬件环境。

2,安装可部署模型的系统和依赖组件。

3,下载模型文件。

4,加载运行模型。

那么现在按照以上步骤,开始直入主题吧。

服务器硬件

我这里选择了带2块GPU卡的硬件服务器。

GPU的型号是RTX3090。

服务器系统和依赖组件

现在跑大模型的系统中,一般使用Ubuntu系统,所以这里我也安装了Ubuntu22的系统。

以及使用GPU所需要的NVIDIA驱动,装完之后可以查看驱动是否ok。

安装完以上之后,来安装模型依赖所必须的组件。

更新一下Ubuntu的库文件。

 

如果更新中出问题或者报错,这里大概率就是ubuntu的源问题,我们可以切换国内的源。

比如以下阿里源,为了安全起见,先保存一下源文件列表。

可直接复制以下代码到系统中,再重新更新一下库即可。

 
 

安装python组件和pip组件并查看版本

 

安装模型依赖组件。

为了方便安装,不用一个一个来,我们可以touch一个requirements.txt文件,将组件写到文件中。

 
 

运行以下命令开始安装。(这里添加了-i参数,来指定源,尝试过后发现使用清华源速度会快很多)。

 

可以看到开始安装了。。。这里根据个人网速的快慢,可能需要等待一会了。

安装完成后,继续安装以下组件。

 

如果以上组件都安装完,那么其实这里模型框架就基本上好了。

模型文件下载

接下来,我们下载模型文件,这里我们使用魔塔社区的模型库,当前的框架其实可以跑很多模型,但是由于GPU的限制,所以比较大的跑不起来,这里我们选一个相对小的模型进行下载。

魔塔社区的地址:

在模型库中搜索模型

点击进去,可以查看模型的介绍。

其中有一点需要关注的就是每个模型会有一个推荐的max_new_tokens,这个我们后面运行的时候可以用到。

选择模型文件,进行模型的下载。

模型的下载分很多种方式,这里由于我们前面安装了modelscope,所以可以采用这种方式下载。

 

这里模型我下载好了,放在以下目录中。

 到这里该准备的工作都已经完成了,不出意外,我们就可以正常的加载运行模型了。

加载运行模型

我们使用以下命令,启动一个基于 vllm 库的 OpenAI 兼容 API 服务器,它将加载指定路径下的 Qwen2.5-7B 模型,并将其命名为 Qwen2-7B (这个名字可以自己定义,在后面调用验证的时候修改为对应的就行)作为服务模型。同时,设置了最大模型长度为512个token(这里我们就可以用到刚才模型介绍里的那个参数了)。指定日志文件的位置, 将标准输出和标准错误都重定向到 mylog.out 文件中。

 

我们可以通过查看日志文件,确认模型加载的状态。

也可以看一下GPU的使用情况。

 已经正常使用GPU加载了模型。

访问验证

此时模型已启动,可以访问验证一下。

本地调用,可以使用以下代码

 

可以看到以下答复,这里就验证成功了。

以上,就是简单的本地部署大模型以及成功运行的所有操作了。

如有问题,可联系博主,一起讨论。

 

编程小号
上一篇 2025-03-20 11:40
下一篇 2025-02-05 17:40

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/63096.html