2025年sdk测试的前景(sdk测试demo)

sdk测试的前景(sdk测试demo)随着全球科技公司纷纷入局 AI 大模型领域 竞争日益激烈 推动了版本的快速迭代 2024 年初至今 头部大模型创业公司和各科技巨头持续快速进行技术迭代与升级 不断拓展大模型性能边界 以刚刚过去的 10 月为例 就有 30 新版本的大模型陆续推出 具体有哪些呢 一起来看 Meta 1 Movie Gen Meta 推出的 AI 视频生成工具 能够根据文本提示生成和编辑视频 并为视频配上同步音频 它包括创建长达 16 秒的高清视频 为现有视频配上音频 编辑视频以及基于照片制作定制视频的功能 Movie




随着全球科技公司纷纷入局AI大模型领域,竞争日益激烈,推动了版本的快速迭代。2024年初至今,头部大模型创业公司和各科技巨头持续快速进行技术迭代与升级,不断拓展大模型性能边界。


以刚刚过去的10月为例,就有30+新版本的大模型陆续推出,具体有哪些呢?一起来看


Meta


1. Movie Gen:Meta推出的AI视频生成工具,能够根据文本提示生成和编辑视频,并为视频配上同步音频。它包括创建长达16秒的高清视频、为现有视频配上音频、编辑视频以及基于照片制作定制视频的功能。Movie Gen的视频生成模型参数为30B,音频生成模型参数为13B。

https://movie-gen.org/zh-CN

2. “自我训练评估器”AI模型:这是一种新型的模型评估方法,基于自我训练的方式提高大型语言模型(LLM)的评估能力,无需人工标注数据。它通过自我生成和自我评估的数据提高判断的准确性,减少了对人工注释的依赖。

https://arxiv.org/pdf/2408.02666

3. 量化Llama3.2模型:Meta首个支持多模态能力的模型,包含小型(11B)和中型(90B)两种版本的主要视觉模型,以及轻量级的1B和3B纯文本版本,适配了Arm处理器,适用于手机、AR眼镜等边缘设备。

https://www.llama.com/

4. MarDini:融合掩码自回归(MAR)和扩散模型(DM)的优势,用于大规模视频生成。模型能处理任意数量和位置的掩码帧,支持视频插值、图像到视频生成及视频扩展等多种任务。

https://mardini-vidgen.github.io/

苹果


1. Depth Pro:零样本单目深度估计模型,能在0.3秒内从单一2D图像生成高精度的3D深度图。它不依赖相机内部参数,通过多尺度Vision Transformer架构,捕捉全局上下文信息和细微局部细节,特别擅长捕捉如毛发、细铁丝等微小细节。

https://github.com/apple/ml-depth-pro

2. MM1.5:多模态大语言模型,提供10亿到300亿参数规模,具备图像识别和自然语言推理能力。MM1.5在预训练阶段引入了高质量的OCR数据和合成图像描述,提升了对包含大量文本的图像的理解能力。此外,苹果还推出了专门用于视频理解的MM1.5-Video模型和专门处理移动设备用户界面(UI)理解的MM1.5-UI模型。

https://arxiv.org/pdf/2409.20566

字节跳动



1. GR-2机器人大模型:GR-2在预训练阶段,通过观看3800万个互联网视频片段学习人类的日常行为模式,使其具备了在多种环境中泛化的潜能。在微调阶段,GR-2通过机器人轨迹数据进一步提升动作预测和视频生成能力,展现出在超过100个任务中平均成功率达到97.7%的卓越性能。

https://t.zsxq.com/BYr4K

2. PersonaTalk AI:基于注意力机制的两阶段框架,用于实现高保真度和个性化的视觉配音。PersonaTalk能够在合成与目标音频精准唇形同步的视频的同时,保留说话者的独特说话风格和面部细节。它通过风格感知的音频编码和唇形同步几何生成,以及双注意力面部渲染器,生成具有丰富细节的面部图像,展现出比现有技术更优的性能。

https://grisoon.github.io/PersonaTalk/

北京智源人工智能实验室


1. Emu3:作为全球首个原生多模态世界模型,Emu3基于下一个token预测技术,无需依赖扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。Emu3在图像生成、视频生成、视觉语言理解等任务中表现优异,超过了多个国内外主流开源模型。

https://t.zsxq.com/BYr4K

2. OmniGen:这是一个全新的扩散模型,具有统一性和简单性的特点。OmniGen天然支持多种图像生成任务,包括文生图、图像编辑、主题驱动生成和视觉条件生成等,同时简化了工作流程,无需额外的模块如ControlNet或IP-Adapter。此外,OmniGen展现了卓越的知识迁移能力,能应对未见任务和领域。

https://huggingface.co/spaces/Shitao/OmniGen

3. Video-XL:专为小时级视频理解设计的超长视觉语言模型,Video-XL在处理长视频时表现出色,能在单个80G GPU上处理2048帧视频,并在主流视频理解基准上取得领先成绩。Video-XL通过视觉上下文潜在总结技术将视觉信息压缩成紧凑的形式,提高处理效率、减少信息丢失。

https://github.com/VectorSpaceLab/Video-XL

OpenAI


1. GPT-4O-Audio-Preview这是一个增强的多模态模型,支持音频输入和输出,能够生成自然流畅的语音响应,并分析音频输入的情感和语调。该模型适用于语音助手和虚拟客服等应用,能够进行语音到语音的互动,提供更自然的人机交互体验。与OpenAI的实时API相比,GPT-4O-Audio-Preview在处理语音生成和分析方面表现得更加细致,特别适合需要情感计算和用户体验分析的场景
https://openai.com/index/hello-gpt-4o/
2. sCM(连续时间一致性模型):sCM是OpenAI推出的扩散模型,显著提升了生成速度,声称在生成高质量内容时速度提高了50倍。该模型仅需两个采样步骤即可生成与传统扩散模型相媲美的高质量图像,解决了扩散模型在生成速度上的瓶颈。sCM的设计简化了模型构建过程,提高了训练的稳定性,展现出在图像、视频和音频生成等多个领域的广泛应用潜力。
https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/
Rhymes AI


Aria:全球首个开源多模态原生Mixture-of-Experts(MoE)模型,它能够理解和处理文本、代码、图像和视频等多种输入模态。Aria在多模态和语言任务上展现出最佳性能,与专有模型竞争,同时保持轻量级和快速的特点模型拥有64K令牌的长上下文窗口能力,能高效处理复杂的长视频和文档数据Aria的技术原理包括混合专家模型(MoE)和视觉编码器,以及四阶段训练流程,包括语言预训练、多模态预训练、长上下文预训练和多模态后训练,逐步提升模型在不同模态任务上的能力
https://rhymes.ai/
Cohere


Embed3:多模态AI搜索模型,将输入的文本和图像数据转换成数值向量,这些向量被称为嵌入向量,代表数据的“意义”。嵌入向量是高维空间中的点,文本和图像可以被量化和比较。Embed3将文本和图像嵌入放置在同一向量空间中,能跨模态比较和检索信息,提供集成的搜索体验。基于计算嵌入向量之间的距离或相似性度量,Embed3能确定哪些数据点彼此接近,即相关性高,从而根据用户的查询检索出最相关的数据。

https://cohere.com/blog/multimodal-embed-3

NVIDIA


1. Sana:文本到图像框架,能够高效生成高达4096×4096分辨率的图像。其核心设计包括深度压缩自编码器,与传统自编码器仅压缩图像8倍不同,Sana的自编码器可以将图像压缩32倍,有效减少潜在token的数量。Sana还引入了线性DiT(Diffusion Transformer),用线性注意力替换了DiT中的所有普通注意力,在保持高分辨率图像质量的同时提高了效率。Sana的高效训练和采样策略,包括Flow-DPM-Solver,减少了采样步骤,并加速了收敛。Sana-0.6B在参数量和吞吐量上与现代大型扩散模型相当,但体积更小,速度更快。
http://nvlabs.github.io/Sana/
2. Nemotron-70B:定制大语言模型,旨在提高LLM生成响应的帮助性。该模型采用了混合训练方法,结合了Bradley-Terry和Regression奖励模型,并使用了人类反馈强化学习(RLHF)方法,特别是REINFORCE算法,在理解和执行指令方面表现出色。Nemotron-70B在多项基准测试中表现出色,包括常识推理任务和流行基准测试,与Llama-3 70B、Mixtral 8x22B以及Qwen-2等模型相比具有竞争力。Nemotron-70B的技术优势包括长文本处理能力、多语言能力、架构优化和能效提升。
https://docs.api.nvidia.com/nim/reference/nvidia-llama-3_1-nemotron-70b-instruct
由于篇幅有限,本文仅展开例举了部分内容,获取更多内容,随时随地发现最新动态,欢迎加入☞深蓝学院全域交流星球文末扫码可以领取大额优惠券,一年仅39元!



【深蓝学院全域星球】


打破群聊局限,为算法工程师、研究者们提供一个没有技术边界的全领域交流平台。


🧩先加入先享受,限时39元/一年!以下任何一个内容都足够值回票价🎫:


1、【免费线下沙龙】以城市为点位,发起城市巡回沙龙,聚合同城的业界、学术界同仁,促进多元的交流与分享。

👍🏻「北京站 · 星友线下沙龙」已于10月26日成功举办,各界学者、工程师开展了一场近三个小时的畅谈交流☞参与一场学术氛围MAX的线下沙龙是种什么样的体验?

下一场城市线下沙龙,免费开放中,欢迎各位星友来选择城市

(文末扫码,39元加入即可~)


2、【最新行业动态】每周汇总五个方向(机器人、智驾、大模型、无人机、视觉)行业动态100+条,并附有完整的内容展开。

3、【优质招聘机会】:人工智能相关领域的优质招聘信息,随时随地发现新的岗位需求。


4、【精选学术资源】精选论文&代码、入门书籍与学习资源推荐、公开分享文字版QA梳理、开源数据集、开源项目汇总。


5、【更多内容分享】:陆续增加,输出自己的观点、学习与求职经验。


——「跨越群聊局限、打造技术小蓝书」


编程小号
上一篇 2025-03-30 22:46
下一篇 2025-01-25 16:30

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/49499.html