本文内容都是本人亲身经历的,一个一个安装下载测试所感,当然如果你更想用傻瓜式集成包的,那还是跳过这篇文章吧。
当然我不推荐这篇文章的操作,因为我用了差不多1h才有一副图,有N卡,就用N卡,这只是无奈之举而已,方便那些像我一样暂时没有换机子打算的人群,现在主机显卡其实也不贵。
N卡的可以参考这篇文章https://blog.csdn.net/binzai_16/article/details/130216343,但是注意还是要结合这篇文章的避坑指南,不然后续要拿时间去弥补之前所犯的错误。
把该下的东西都下好,就如下的目录清单。
git https://git-scm.com/download/win
python 3.10.6 https://link.zhihu.com/?target=https%3A//www.python.org/ftp/python/3.10.6/python-3.10.6-amd64.exe
魔法上网 自己想办法找,这个我不好推荐
1.1 建议使用如下git clone写法
之所以这样做是避免cd到某个文件夹下时,使用时,提示443或者openSSL等字眼的错误,网上说是网速或者全局的问题,其实也包括权限的问题。
git clone git的地址 “复制到的本地路径地址文件夹名”
比如我的:
git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml.git “D:SD”
1.2 编辑的第三行如下(因为用A卡)
set COMMANDLINE_ARGS=–medvram --skip-torch-cuda-test --no-half --precision full --use-cpu all
或者
set COMMANDLINE_ARGS=–precision full --no-half --opt-sub-quad-attention --lowvram --disable-nan-check --autolaunch
1.3 不使用v1.5SD模型
在文件目录下放入另一个模型,这是为了避免之后好不容易安装完了,它提示你没有模型,好不容易下载完。
错误提示:
。
如果看到运行时,还是自己生成了v1.5SD模型,那么之后就删掉它。
因此要到这个下载地址https://cyberes.github.io/stable-diffusion-models/#stable-diffusion-1-4,推荐迅雷下载,下载好后放入到我提到的文件夹中。
1.4 下载rust编辑器
看到这里你肯定会疑惑了,我们不是要用python的吗?
这个我也不知道,你下了就对了,不然后面的无法安装
因为是windows到官网选择推荐的下载方式https://www.rust-lang.org/tools/install。
执行文件,输入1即可。
测试是否安装成功。
这是因为git clone下载时会自动有个,我不知道这hash值具体有什么用的,应该类似钥匙,如果本地下载后,它们就会没有这个hash值,运行时就会提示错误。
错误类似:
reference is not a tree: 24268930bf1dce879235a7fddd0b2355b84d7ea6
2.1 在完成上述步骤后,就运行
等一会,等到命令行工具显示下载时,就停止批量工具操作,这时会产生一个的路径。
2.2 git clone命令与相应操作如下(看自己安装目录更改)
使用工具
之后在命令行到输入如下的命令。
然后到下载,也是同样的
命令行到输入如下的命令。
也是同样的操作到CLIP
到相应的目录下,输入如下命令
2.3 gitclone与安装依赖
其实操作也跟2.2类型,相应操作也是合起来如下,没有文件夹,就自己新建一个:
但是要到上面涉及到的每个目录下,检查是否有文件,有就到对应目录的命令行,执行如下命令
2.4 pip transformers时,麻烦的tokenziers错误
解决方案:网络问题,试多几次(这里我用了差不多3~4h弄成功了)
尽管之前已经安装好了rust编辑器,但是它还会提示各种千奇百怪的错误,比如我下面这个。
后面我找了网上不少答案,发现它们的回答根本就不统一,后面我问了一下chatGPT,人家的回答如下:
说人话:chatGPT不知道为什么会这样啊?
注意:
其实就是网络问题,跟你的工具版本没关系的,你多试几次,或者找找有没有更快下载的通道
错误信息表明在安装过程中构建包的wheel文件出现了问题。错误发生在运行命令时,该命令用于编译Rust代码。
具体的错误信息如下:
这个错误表明构建过程无法获取包所需的依赖项。
错误进一步说明了以下内容:
这些消息表明更新注册表和获取所需的依赖项时出现了问题。错误信息表明可能存在网络问题或者crates.io索引的临时问题。
以下是解决该问题的几个步骤:
检查网络连接:确保您拥有稳定的互联网连接,并能够访问外部资源。
重试安装:有时网络问题可能是暂时的。再次尝试运行安装命令,看看问题是否能够解决。
清除pip缓存:pip会缓存软件包以提高安装速度。然而,缓存文件有时会引发问题。您可以尝试通过运行以下命令清除pip缓存:
指定其他软件包源:您可以尝试从其他软件包源安装该软件包。例如,您可以使用选项来指定另一个软件包索引:
升级pip和setuptools:过时的pip和setuptools版本有时会引发问题。尝试运行以下命令升级它们:
安装Rust:包依赖于Rust。确保您的系统上已安装Rust并且是最新版本。您可以按照官方Rust网站(https://www.rust-lang.org/tools/install)上的说明安装Rust。
如果尝试了这些步骤后问题仍然存在,建议搜索与包相关的类似问题或错误消息,看看是否有已知的解决方案或变通方法。您可以在论坛或问题跟踪器上寻找相关信息。
如果它莫名其妙自己下载v1.5SD模型,就后续删掉,正常会得到如下结果,
其中不用管它,过会就行了。
输入网址,查看
如果没有在页面上出现那么就是成功了!
3.1 如果出现 错误
回答你问题的网址https://github.com/vladmandic/automatic/issues/382
其实就是你没等SD模型加载完,就开始生图了,过会再尝试就行了
3.2 如果出现RuntimeError: Could not allocate tensor with 402653184 bytes. There is not enough GPU video memory available!
那是因为你在使用A卡的情况下,就算有个16G内存,因为你要调的因子可能需要的算力太大,所以计算机直接不干了,解决的方法如下:
设置webui.bat的配置成medvram,以时间换空间
自己用linux虚拟机
白嫖谷歌的colar的GPU
使用一些SD的插件也同样是牺牲质量换取时间
具体可以参考这个帖子 https://www.zhihu.com/question/590045937
RustGPT是一个基于Rust和HTMX构建的Web ChatGPT克隆。Rust作为一种安全性较高的编程语言,为RustGPT提供了更好的性能和更高的安全性。而HTMX则是一个集成了HTML、CSS和JavaScript的工具,使得开发者能够轻松地构建现代化的Web应用。
项目地址:https://github.com/bitswired/rustgpt
ChatGPT是一种基于机器学习的自然语言处理技术,能够在聊天中进行语言生成。通过使用Rust和HTMX,RustGPT能够提供更多选择给开发者,并为用户带来更好的使用体验。
Rust作为一种编程语言,以其出色的性能和卓越的安全性而闻名。与其他编程语言相比,Rust在运行时更加安全,能够有效地防止内存错误和数据竞争。这使得RustGPT在运行时更加可靠,减少了潜在的漏洞和安全风险。
HTMX的引入使得RustGPT的开发变得更加便捷。HTMX将HTML、CSS和JavaScript组合在一起,使得开发者能够在一个集成的环境中进行Web应用的构建。开发者不再需要分别处理这些不同的技术,而是可以直接在HTMX中进行开发,大大提高了开发效率。
核心功能:
Rust与Axum框架: 提供性能和简易性的快速可靠服务器。
SQLite数据库: 轻巧而强大,满足所有数据持久化需求。
Server Sent Events (SSE): 实时流媒体轻松带动ChatGPT的交互。
HTMX: 无需繁重的JavaScript框架,使用简单的HTML属性使交互保持迅捷。
技术栈: 使用sqlx进行直接且类型安全的SQL查询和迁移,Tera作为受Jinja2启发的模板引擎,以及易于使用且极快的Axum框架。对于那些寻求客户端WASM魔法的人,还可以查看Yew或Leptos以获取更复杂的应用程序。
通过这些功能,RustGPT重新定义了Web开发,将Rust的强大力量与简便性相融合,为Rust爱好者和Web开发人员提供了一个全新的探索空间。
2023年3月16日,百度发布了文心一言,基于百度文心知识增强大模型研发。此前2022年8月19日,中国图象图形大会 CCIG 2022 在成都召开,百度就正式发布了 AI 艺术和创意辅助平台——文心·一格,这是百度依托飞桨、文心大模型的技术创新推出的“AI 作画”首款产品。
文心一言与文心一格,皆为百度文心大模型旗下产品。 文心一格为文生图产品,即通过文字描述可以自动生成图片; 文心一言为生成式AI对话产品,可以理解为聊天机器人,其对标ChatGPT。
其实在国外已经有相对成熟的文生图产品,比如playgroundai,体验过文心一格的绘画能力,可以说文心一格在国内来说确实是首款生成式AI文生图产品,不过比起海外的一些同类产品,还是有所区别。
文心一格生成的预设风格有限,虽然它支持上传自定义样片,但是没有详细可调的参数作为辅助,以至于并不能生成比较真实的真人图像图片。
文心一言当然也临时加上了图生文的能力,但是相对而言,生成的画面都偏一种油画或者水墨的风格,也不能生成相对较真实的场景。
而playgroundai这款产品就可以相对轻松地生成真实的图片影像。并且目前是免费开源的。
官网:playgroundai.com,需要科学上网环境。
在不到一周的时间内,OpenAI的政变大戏经历了多次反转,最终以山姆·奥特曼重返OpenAI担任CEO而结束。
有知情人士透露,在公司内部,有几名研究员联合向董事会提交了一封信。信中警告称,公司正在研发的人工智能(AI)技术可能对人类构成威胁。奥特曼是OpenAI内部积极推动生成式人工智能(AGI)的代表人物,而这个警告信似乎是他被解雇的关键因素。然而,具体信中内容尚未公开。
奥特曼是一个技术狂热者,他一直致力于寻求资金以推动AI技术的扩展。然而,公司其他几位董事会成员则主张采取更多措施来减轻潜在的威胁,这使得双方之间产生了分歧和隔阂。
随着奥特曼的回归,这场权力斗争也暂时画上了句号。
大家好,今天跟大家分享一个实战的教程。
老规矩,先看效果(明确一下目标):
随着人脸识别技术的发展,给我们的日常生活带来了许多的便利,但是同样的也存在隐私的问题。以及可能被不法分子用于做一些违法事情。
所以很多视频博主,都会给路人打码。但是手动打码是一件非常繁琐的事情,对于单帧图片还算简单,但是假设视频的帧率是 25FPS,即一秒中有25帧图片,那么一个几分钟的视频,其工作量也非常的可怕。
因此我们尝试使用程序自动去执行这样子的操作!
我们可以使用Opencv、Mediapipe和Python,实现实时模糊人脸。
我们可以分两步完成:
- 在打码之前,首先确定人脸位置
- 取出脸,模糊它,然后将处理后的人脸放回到视频帧中(视频处理类似)
(留个作业:如何实现对除了本人以外的其他人打码?)
1、在打码之前,首先确定人脸位置
老规矩,首先配置一下环境,安装必要的库(OpenCV 和 MediaPipe)
在 MediaPipe 库中提供了人脸关键点检测的模块。
详细的内容可以参考:https://google.github.io/mediapipe/solutions/face_mesh.html
当然在该项目的代码中,也提供人脸关键点检测的代码。
“facial_landmarks.py”的文件:
人脸关键点检测效果图
下面我们就一起来写一下这部分的代码:
- 首先导入必要的库以及用于人脸关键点检测的模块:
- 然后使用检测出来的人脸关键点最外围的一圈关键点绘制一个多边形(脸部轮廓)。这里使用opencv 中的convxhull() 函数可以实现:
绘制完成后的结果如下所示:
之后使用上面所提取到的人脸关键点坐标创建mask,用提取我们在视频帧中感兴趣的区域:
结果如下所示:
得到这个mask,我们就可以进一步对人脸进行模糊(打码)处理。
打码的操作,这里使用的是OpenCV 中的cv2.blur() 函数:
结果:
目前,我们已经实现对人脸进行打码操作,剩下的就是对人脸以外的区域进行提取,并合并成最终的结果即可!
对人脸以外的区域进行提取(背景),实际上对上面的mask 进行取反即可。
背景提取:
从图像的细节可以看出,背景是完全可见的,但面部区域已经变成黑色了。这是我们将在下一步中应用模糊人脸的空白区域。
最后一步,将上面两步获取的人脸mask 和背景进行相加即可,这里使用cv2.add() 即可实现我们的目标:
结果:
这是对一帧图片进行处理。
2、取出脸,模糊它,然后将处理后的人脸放回到视频帧中
上面的操作都是在单帧图片上进行处理的,如果我们需要出来的是视频的话,其实原理是完全一样的,只不过是将一个视频拆成一系列的图片即可。
稍微做一些修改:
(1)输入文件 (图片 ---> 视频)
(2)对输入的视频帧,做一个循环遍历:
您是否厌倦了手动转录数小时的录音?您想节省时间并提高工作效率吗?然后,您会很高兴听到 OpenAI 用于语音到文本转换的新 Whisper API!借助这项尖端的 AI 技术,您现在可以在 Python 程序中轻松地将音频文件转换为文本。让我们在下面探讨这是如何工作的!
创建一个新文件python-whisper-api.py并通过插入以下 python 代码行开始:
上面的 Python 代码是如何使用 OpenAI 的 Whisper API 来使用 Python 转录音频文件的示例。以下是每一行代码的作用的细分:
import os:这会导入内置的 os 模块,它允许我们与操作系统交互并执行打开文件等任务。
import openai:这将导入openai模块,该模块提供对 OpenAI 的 API 的访问。如果您尚未在本地 Python 开发环境中安装该模块,则需要使用以下命令进行安装:pip install openai
openai.api_key = "[INSERT YOUR OPENAI API KEY HERE]":这会设置 OpenAI API 的 API 密钥,这是进行 API 调用所必需的。
audio_file = open("sample.mp3", "rb"):这将以读取二进制模式打开音频文件“sample.mp3”并将其分配给变量audio_file。
transcript = openai.Audio.transcribe("whisper-1", audio_file):这是使用openai.Audio.transcribe()转录音频文件的方法。Screenpresso:强大的 Windows 屏幕捕获工具第一个参数是要使用的模型的名称(“whisper-1”),第二个参数是我们在第 4 步中打开的音频文件。该方法返回一个对象,我们将其分配transcribe()给Transcription变量transcript。
print(transcript.text):这会打印出text转录的,可通过对象的文本属性访问Transcription。
总之,此代码使用 OpenAI Whisper API 转录音频文件并打印出生成的文本转录。
让我们通过输入以下命令来运行 Python 应用程序:
您需要确保已将音频文件存储在名称为 sample.mp3 的同一文件夹中。然后您将收到由 Whisper 提供的文本抄本:
OpenAI 的 Whisper API 为 Python 编程中的语音到文本转换开辟了一个充满可能性的世界。通过利用这项新技术,您可以通过自动化转录过程来提高工作效率并节省时间。无论您是记者、研究人员,还是需要定期处理音频内容的人,Whisper API 都可以成为您的武器库中的宝贵工具。凭借其令人印象深刻的准确性和易用性,Whisper API 有望在未来彻底改变我们处理音频内容的方式。那为什么还要等?立即开始探索 Whisper API,发现您可以使用这项突破性技术实现的所有令人惊奇的事情。
微软联合创始人比尔盖茨最近在一个节目中表达了他对AI的独特观点。
他认为,AI技术的广泛应用可能最终导致人们每周只需工作三天,而不是现在的五天。
图源备注:图片由AI生成,图片授权服务商Midjourney
在他看来,虽然AI不会完全取代人类在各个领域的工作,但它能够显著提高工作效率,降低人类在生产活动中的参与度。未来,机器可以承担大部分的物质生产任务,制造食物和各种物品,而人们将有更多的时间去关注和享受生活。
当前,包括ChatGPT在内的一些AI技术已经日趋成熟,AI的应用领域正在不断扩展。随着技术的进一步发展,我们有理由相信,AI将在更多场景中替代人类的工作,进一步解放人类的双手。
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦!
Y Combinator (YC) 是2005年3月启动的美国科技创业加速器,启动了 3000 多家公司,包括大名鼎鼎的 Airbnb、Coinbase、Dropbox、Quora、Reddit、Stripe等。OpenAI 首席执行官 Sam Altman 在创办 OpenAI 之前,就是创业加速器 YC 的总裁。
LinkedIn Drake Dukes 根据 YC 最新3月份的数据,整理了这张 YC Winter 2023 入选的顶级初创公司市场地图。
本轮入选的 260 多家初创公司,是从 20,000 多个报名中脱颖而出的,录取率仅为 1.4%!而且选拔标准别具一格:52% 甚至没有产品,只有一个想法;77% 没有任何收入;26% 是完全远程;40% 是人工智能和机器学习,;印度以11家公司排名第二。LinkedIn@Drake Dukes | 完整数据
GRAVITY DATA DROP | Y Combinator Winter 2023 Batch
ChatGPT 最有实力的竞争对手 Claude 也开放 API 申请了,很大方,不仅会给免费的 API,官网也可以直接使用进行问答。
申请地址:https://www.anthropic.com/product
ChatGPT 宣布不支持 Plus 付费。原因很简单:High demand。需求量太大以至于 OpenAI 不得不暂停 Plus 的销售。之后何时开放也没有明说。
前几天 ChatGPT 就因出现大规模封号引发热议,现在竟关闭了 Plus 付费会员的申请。不少网友归因于计算资源不够了,已经不单是钱的问题。还有已经付费的网友表示庆幸:真的无法想象回到 GPT-3.5 的日子。
看到很多在用 Midjourney 生成图片的同学,仍在各种求图片 Prompt,其实这里还有另一种方式能解决。
作为当下最主流的 AI 绘图工具,Midjourney 最近重磅上线了一个新功能:通过命令对图片进行解析,将图片直接转为文字,拿到与图片的相似 Prompt。
所以!当你后面看到一张比较心仪的图片时,可以直接调用 Midjourney 的命令,对图片进行逆向解析,定制修改!
新功能刚刚上线,效果还有些不尽如人意。但可以预料,后续这将会是一个非常强大的功能。
SCISpace 是一款专门为学术研究构建的平台,已经帮助全世界各地 100 多万名研究人员撰写了高质量的研究论文,并影响了学术出版的格局。
SCISpace 对撰写论文需要的多项工具进行了深度集成,包括文本编辑、语法纠错、格式排版、插入数据、代码、媒体、注释和剽窃检测等工具。因此,作者可以基于 SCISpace 构建一个从编写、审查到格式的端到端完整工作流,并于全世界的专家进行有效合作。
BingGPT 是一款国人开发的 NewBing 开源桌面客户端,支持Linux、macOS、Windows 三个系统,并且可以将聊天记录导出为 PNG、Markdown、PDF等格式。
而且!与 Edge 浏览器的体验完全一样,覆盖到了全部的功能 (包括 AI 聊天)!又是一个可以不装 Edge 的神器!
1. AIGC 会让个人视频创作者真正成立 [之前团队才是主流]
2. AIGC 会让洗稿视频完蛋 [比如离奇历史故事,虚拟人也能讲的挺好]
3. AIGC 会让两项最基本的内容能力重新重要起来:选题和原创性
4. AIGC 时代的内容创作者的胜率,并没有变,仍然是万分之一 [文字时代差不多,视频生产形成门槛的时代,曾经变高了,现在会下降]
5. AIGC 会让直播更加繁荣 [real,social,实时互动成了人类内容创作者新的护城河]
6. 最终如果你是一个有 freestyle 能力的 insider,恭喜你,前途无量。否则,你至少是一个选题标题能力合格的 insider,这样你的流量会有更好的保障。而万一你谈论的话题的流量还有商业价值,那么你就可以把 up 主的副业转正了。
7. 上传一个视频,很多人都可以,但是别产生错觉就以为自己是 up 了。真正要靠视频内容挣钱,也就十万分之一的胜率 [90% 的话题,可能就没有足够的商业价值,不如做手机或者做键盘] 微博@李楠或kkk
站酷@网易CFun设计中心 把内部的 AIGC 工作流总结成长图进行了公开分享!非常清晰!总结工作流的核心要点,完整版高清长图在下方:
01 工具概况
常用工具
AI工具参与流程预期
02 工作落地应用
CG业务线
礼物 icon 设计
勋章类落地流程
AI 图表绘制流程 (图生图)
AI 轻拟物图标 3D 化
礼物氛围特效设计
赛事业务线
TVC分镜设计
TVC场景设计
短视频 MCN
AI选手 KOL
赛事主 KV 设计
赛事演播厅设计
AR 角色攻击特效概念图
AR 角色特效结合舞台效果AI效果生成
提案效果图落地流程
虚拟角色领域
服装设计
Next奈昔原画设计
Lora JIUMI
写实数字人设计
其他领域
AI辅助调研
AI辅助文档处理
专属字体生成
设计方案验证
◉ 点击 ?日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ 点击 ?生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!
近期,Elon Musk宣布xAI的聊天机器人Grok将在下周推出,服务对象为X Premium+订阅用户。Grok被定位为xAI对抗其他聊天机器人的解决方案,具有更多个性和对“辛辣”问题的回答。
该聊天机器人将通过X平台实时获取知识,并加入X的高级订阅服务,为Premium+套餐增色。这一推出也被视为X吸引更多用户、增加收入的举措,尤其是在广告商撤离和社交媒体平台上出现争议的情况下。
X最近重新调整了其高级订阅服务,包括三个层次,其中Premium+套餐将提供无广告浏览、创作者中心等功能,Grok将成为该套餐的一部分。
Grok的亮相将在OpenAI内部动荡的一周之后,引起了行业内的广泛关注。Grok的推出为X提供了新的增长动力,尽管面临着竞争激烈的人工智能聊天机器人市场。
Sam Alman被解雇,又曝出最新内幕!
据路透社报道,就在他被解雇的前四天,OpenAI内部的研究员曾向董事会发了一封警告信,称发现了一个可能威胁人类的强大人工智能。
知情人士表示,这封此前从未报道过的信,也是董事会最终罢免Altman的导火索之一。
据称,曾任OpenAI临时CEO的Mira Murati,在周三提到了这个名为Q*(读作Q-Star)的项目,并且在「政变」发生之前给董事会写过一封信。
董事会觉得,Altman瞒着董事会在推进可能威胁人类的项目。
与此同时,有内部研究员认为,OpenaAI在Q*上取得的进展,将会成为AGI的一个重要突破!
不过,就在刚刚,TradingStrategy.ai联创表示,「AI重大突破」这个说法已被OpenAI内部人士打假。
APEC会议上的「危险」发言
印证项目的另一事件,是Sam Altman在被解雇的一天,在APEC一次会议上的发言。
在那次会议上,他暗示了OpenAI已经开发出了比GPT-4更强大、更难以想象的东西,远超人们的期待。
模型的能力将会有一个无人预料到的飞跃。与人们的预期不同,这个飞跃是惊人的!
而这次发言,很可能也是他被解雇的导火索之一,会让Ilya等董事会成员认为,他隐瞒了许多信息。
现在正在发生的技术变革,将彻底改变我们生活方式、经济和社会结构以及其他可能性限制……这在OpenAI的历史上有四次 ,而最近一次,就是在过去几周内。
在拨开无知的面纱和探索未知的边界时,我有幸在场, 这是我职业生涯中的荣幸。
Q*就是AGI?
其中一位知情人士说,在与路透社联系后,拒绝置评的OpenAI在给员工的内部消息中,承认了一个名为Q*的项目,并在周末的活动前给董事会写了一封信。
OpenAI的一位发言人表示,这条消息由CTO Mira Murati发送,提醒员工注意某些媒体报道,但并没有对其准确性发表评论。
其中一位知情人士告诉路透社,OpenAI的一些人认为Q*(发音为Q-Star)可能是OpenAI在AGI上取得的一个突破。
在OpenAI看来,AIG可以定义为「在最具经济价值的任务中,超越人类的自主系统」。
因为巨大的算力支持,新模型可以解决某些数学问题。虽然只是可以在小学水平上做数学题,但通过这样的测试,让研究者对Q*的未来非常乐观。
根据内部人士透露,在给董事会的信中,研究人员标记了AI的实力和潜在危险,但没有具体说明信中提到的确切安全问题。
另外,研究人员还标记了一个「人工智能科学家」团队的工作,有多个消息来源证实了该团队的存在。
30多年前,Fodor和Pylyshyn提出的经典论点——神经网络由于其统计性质而从根本上缺乏人类的系统组合技能——给神经网络研究蒙上了长长的阴影
其中一位知情人士说,该小组由早期的「Code Gen」和「Math Gen」团队组成,正在探索如何优化现有的人工智能模型,以提高其推理能力,并最终进行科学工作。
项目由Ilya主导
据悉,一些OpenAI员工认为,Altman的言论应该指的是公司早些时候的一项创新,就是这项创新,能让他们开发出更强大的AI模型。
Ilya团队的这项工作,此前从未被报道过。
知情人士透露,这项由OpenAI首席科学家Ilya Sutskever主导的技术突破,引起了一些员工的担忧。他们担心公司没有合适的保障措施,来将这种先进的AI模型商业化。
在接下来的几个月里,OpenAI的高级研究人员又利用这项创新,建立了能够解决基本数学问题的系统。
经常用大模型的人都知道,数学问题对于现有的LLM,都是一项艰巨的任务。
根据The Information报道,OpenAI的两位研究员,Jakub Pachocki和Symon Sidor,利用Ilya的工作成果建立了一个名为Q*(读作「Q-Star」) 的模型。
据称,Q*模型能够解决它以前从未见过的数学问题,而这,是一个重要的技术里程碑。
最近几周内,该模型的演示一直在OpenAI内部流传,而AI的发展速度,也让安全研究人员感到震惊。
据内部人士爆料,Ilya的突破,使OpenAI不再受限于获取足够的高质量数据来训练新模型,而这,正是开发下一代模型的主要障碍。
这项研究涉及使用计算机生成的数据,而不是真实世界的数据,比如从互联网上提取的文本或图像。
多年来,Ilya一直在研究如何让GPT-4解决涉及推理的任务,比如数学或科学问题。
此前,Ilya在这个方向就有多年积累。21年,他启动了一个名为GPT-Zero的项目,这是对DeepMind AlphaZero的致敬。
GPT-Zero可以下国际象棋、围棋和将棋。而团队假设,只要给大模型更多的时间和算力,假以时日,它们一定能达到新的学术突破。
而且在半年之前,就有硅谷大佬扒出,OpenAI很有可能会将「实时检索」和模型能力结合起来,创造出难以想象的AI能力。
尤其是针对LLM亟待提高的数理和推理能力,未来有可能会有极大提升。
在提出了这种可能性之后,他于两周之后就加入了OpenAI。
对齐派 VS 加速派
而即使在昨天Altman重返CEO之位后,高管之间的潜在分歧似乎仍未消除,因为OpenAI内部对工作进度的紧张关系仍在持续。
Ilya本人似乎对这项技术持保留意见。今年7月,他组建了对齐团队,致力于限制AI系统可能给人类带来的威胁。
在OpenAI的对齐团队看来,虽然超级AI还很遥远,但他们相信它会在十年内到来。
Pachocki和Sidor的立场,大概率是在Ilya对齐团队的反面。
上周Altman被解雇后,两人也迅速辞职。而Altman复职后,两人也随之回到了公司。
而OpenAI总裁兼联创Greg Brockman,对于这项技术也持支持态度,致力于将其整合到新产品中。他同样是在Altman复职后,随之回到了公司。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/28605.html