随着全球科技公司纷纷入局AI大模型领域,竞争日益激烈,推动了版本的快速迭代。2024年初至今,头部大模型创业公司和各科技巨头持续快速进行技术迭代与升级,不断拓展大模型性能边界。
以刚刚过去的10月为例,就有30+新版本的大模型陆续推出,具体有哪些呢?一起来看

1. Movie Gen:Meta推出的AI视频生成工具,能够根据文本提示生成和编辑视频,并为视频配上同步音频。它包括创建长达16秒的高清视频、为现有视频配上音频、编辑视频以及基于照片制作定制视频的功能。Movie Gen的视频生成模型参数为30B,音频生成模型参数为13B。
https://movie-gen.org/zh-CN
2. “自我训练评估器”AI模型:这是一种新型的模型评估方法,基于自我训练的方式提高大型语言模型(LLM)的评估能力,无需人工标注数据。它通过自我生成和自我评估的数据提高判断的准确性,减少了对人工注释的依赖。
https://arxiv.org/pdf/2408.02666
3. 量化Llama3.2模型:Meta首个支持多模态能力的模型,包含小型(11B)和中型(90B)两种版本的主要视觉模型,以及轻量级的1B和3B纯文本版本,适配了Arm处理器,适用于手机、AR眼镜等边缘设备。
https://www.llama.com/
4. MarDini:融合掩码自回归(MAR)和扩散模型(DM)的优势,用于大规模视频生成。模型能处理任意数量和位置的掩码帧,支持视频插值、图像到视频生成及视频扩展等多种任务。
https://mardini-vidgen.github.io/
1. Depth Pro:零样本单目深度估计模型,能在0.3秒内从单一2D图像生成高精度的3D深度图。它不依赖相机内部参数,通过多尺度Vision Transformer架构,捕捉全局上下文信息和细微局部细节,特别擅长捕捉如毛发、细铁丝等微小细节。
https://github.com/apple/ml-depth-pro
2. MM1.5:多模态大语言模型,提供10亿到300亿参数规模,具备图像识别和自然语言推理能力。MM1.5在预训练阶段引入了高质量的OCR数据和合成图像描述,提升了对包含大量文本的图像的理解能力。此外,苹果还推出了专门用于视频理解的MM1.5-Video模型和专门处理移动设备用户界面(UI)理解的MM1.5-UI模型。
https://arxiv.org/pdf/2409.20566
字节跳动
1. GR-2机器人大模型:GR-2在预训练阶段,通过观看3800万个互联网视频片段学习人类的日常行为模式,使其具备了在多种环境中泛化的潜能。在微调阶段,GR-2通过机器人轨迹数据进一步提升动作预测和视频生成能力,展现出在超过100个任务中平均成功率达到97.7%的卓越性能。
https://t.zsxq.com/BYr4K
2. PersonaTalk AI:基于注意力机制的两阶段框架,用于实现高保真度和个性化的视觉配音。PersonaTalk能够在合成与目标音频精准唇形同步的视频的同时,保留说话者的独特说话风格和面部细节。它通过风格感知的音频编码和唇形同步几何生成,以及双注意力面部渲染器,生成具有丰富细节的面部图像,展现出比现有技术更优的性能。
https://grisoon.github.io/PersonaTalk/
1. Emu3:作为全球首个原生多模态世界模型,Emu3基于下一个token预测技术,无需依赖扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。Emu3在图像生成、视频生成、视觉语言理解等任务中表现优异,超过了多个国内外主流开源模型。
https://t.zsxq.com/BYr4K
2. OmniGen:这是一个全新的扩散模型,具有统一性和简单性的特点。OmniGen天然支持多种图像生成任务,包括文生图、图像编辑、主题驱动生成和视觉条件生成等,同时简化了工作流程,无需额外的模块如ControlNet或IP-Adapter。此外,OmniGen展现了卓越的知识迁移能力,能应对未见任务和领域。
3. Video-XL:专为小时级视频理解设计的超长视觉语言模型,Video-XL在处理长视频时表现出色,能在单个80G GPU上处理2048帧视频,并在主流视频理解基准上取得领先成绩。Video-XL通过视觉上下文潜在总结技术将视觉信息压缩成紧凑的形式,提高处理效率、减少信息丢失。
https://github.com/VectorSpaceLab/Video-XL
Embed3:多模态AI搜索模型,将输入的文本和图像数据转换成数值向量,这些向量被称为嵌入向量,代表数据的“意义”。嵌入向量是高维空间中的点,文本和图像可以被量化和比较。Embed3将文本和图像嵌入放置在同一向量空间中,能跨模态比较和检索信息,提供集成的搜索体验。基于计算嵌入向量之间的距离或相似性度量,Embed3能确定哪些数据点彼此接近,即相关性高,从而根据用户的查询检索出最相关的数据。
https://cohere.com/blog/multimodal-embed-3

打破群聊局限,为算法工程师、研究者们提供一个没有技术边界的全领域交流平台。
🧩先加入先享受,限时39元/一年!以下任何一个内容都足够值回票价🎫:
1、【免费线下沙龙】:以城市为点位,发起城市巡回沙龙,聚合同城的业界、学术界同仁,促进多元的交流与分享。
👍🏻「北京站 · 星友线下沙龙」已于10月26日成功举办,各界学者、工程师开展了一场近三个小时的畅谈交流☞参与一场学术氛围MAX的线下沙龙是种什么样的体验?
下一场城市线下沙龙,免费开放中,欢迎各位星友来选择城市
(文末扫码,39元加入即可~)
3、【优质招聘机会】:人工智能相关领域的优质招聘信息,随时随地发现新的岗位需求。
5、【更多内容分享】:陆续增加,输出自己的观点、学习与求职经验。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/49499.html