一、多模态大模型行业概述
多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。
二、我国大模型行业政策
随着当前人工智能行业的发展,大模型技术也不断发展,而为推动大模型在行业中的应用,我国及部分省市发布了多项行业政策,如2024年1月工业和信息化部等七部门发布的《关于推动未来产业创新发展的实施意见》、2023年12月国家发展改革委等部门发布的《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》等。
我国及部分省市大模型行业相关政策
层级 | 发布时间 | 发布部门 | 政策名称 | 主要内容 |
国家级 | 2023年8月 | 工业和信息化部、财政部 | 电子信息制造业2023—2024年稳增长行动方案 | 鼓励加大数据基础设施和人工智能基础设施建设,满足人工智能、大模型应用需求。 |
国家级 | 2023年12月 | 国家发展改革委等部门 | 关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见 | 建立健全算法开发利用机制,积极开展大模型创新算法及关键技术研究,提升数据分析能力,降低大模型计算的算力消耗水平。 |
国家级 | 2024年1月 | 工业和信息化部等九部门 | 原材料工业数字化转型工作方案(2024—2026年) | 建设适用于生成式人工智能的行业数据集,基于现有通用大模型技术底座进行定制化开发训练,构建细分行业大模型,面向新材料研发、供应链优化、大宗商品价格预测等应用需求,加快大模型技术深度创新。 |
国家级 | 2024年1月 | 工业和信息化部等七部门 | 关于推动未来产业创新发展的实施意见 | 超大规模新型智算中心,加快突破GPU芯片、集群低时延互连网络、异构资源管理等技术,建设超大规模智算中心,满足大模型迭代训练和应用推理需求。 |
省级 | 2023年5月 | 山西省 | 全面推进煤矿智能化和煤炭工业互联网平台建设实施方案 | 建设煤炭工业互联网平台,组建我省煤炭工业互联网平台公司,充分利用省内各类资源,建设以人工智能大模型为核心的全栈式一体化工业互联网基础平台。 |
省级 | 2023年9月 | 北京市 | 北京市促进未来产业创新发展实施方案 | 重点支持机器人技术与多模态大模型融合发展,推动机器人从“仿人”向“类人”演进,通过类人机器人感知认知一体化,实现自主修复、自我迭代能力,突破面向新环境新任务的自主适应和推理决策能力发展,抢先布局具身智能研究领域。 |
省级 | 2023年9月 | 宁夏回族自治区 | 宁夏回族自治区教育数字化战略行动计划 (2023—2027年) | 拓展平台应用功能,升级网络学习空间,建设智能化学习支持系统,探索人工智能大模型技术应用,打造覆盖全平台的智能搜索引擎。 |
省级 | 2024年1月 | 上海市 | 上海市优化政务服务提升行政效能深化“一网通办”改革行动方案(2024-2026年) | 强化智能服务中枢底层能力。夯实数字底座,探索运用大模型技术赋能政务服务,持续丰富文字识别、语音识别、图像识别、自然语言处理等人工智能模型仓库,打造高效、集约、规范、开放的智能服务生态。 |
资料来源:观研天下整理
三、大模型市场规模及预测
在市场需求的增长以及政策支持的背景下,我国大模型市场规模将不断增长,预计到2025年市场规模将突破300亿元。而多模态大模型作为AI模型的发展方向,在各项相关技术愈发成熟下,其应用领域也将愈发广泛,比如说商业定制、游戏和影视等。而随着其应用领域的不断拓展下,其需求量也将增加,预计2025年我国多模态内容市场规模800亿美元。
资料来源:观研天下整理
目前国内外已经有多家互联网相关企业推出了AI视频生成算法及工具情况,将多模态大模型应用在相关产品中,比如在2024年2月OpenAI就推出了Sora,可以通用的视觉数据模型(general purpose simulators),能生成各种持续时间(甚至长达1分钟)、宽高比和分辨率的视频和图片。
国内外部分厂商AI视频生成算法及工具情况
公司/团队 | 算法/工具名称 | 时间 | 底层模型/架构 | 核心功能及亮点 |
蚂蚁技术研究院 | CoDeF | 2023年8月 | CoDeF(内容变形场) | CoDeF是一项真实时、强细节、高保真的视频处理技术,用于完成视频风格迁移任务。 |
Runway | RunwayGen2 | 2023年3月 | DiffusionModel | Gen-2在上增添了文成视频、图生视频、及文字+图片生成视频的新功能,实现了从头直接生成视频的技术突破。 |
Meta | EMUEdit&Video | 2023年11月 | DiffusionModel | Emu Edit模型仅用文字指令就可以准确编辑图像,而通过分解文字转视频(Text-to-Video)的生成过程,Emu Video方法可以改善最终生成视频的品质和多样性。 |
谷歌 | W.A.L.T | 2023年12月 | Transformer架构+LVDM方法 | 使用因果编码器在统一的潜在空间内联合压缩图像和视频,实现跨模态的训练和生成,生成基准测试上实现了SOTA,无需使用无分类器指导。 |
字节跳动 | MagicVideoV2 | 2024年1月 | 3DMorphable+DiffusionModel | 模型可以根据用户输入的任意文本描述,生成具有出色保真度和平滑度的高分辨率视频,支持4K、8K 超高清画质,以及多种绘图风格。 |
OpenAI | Sora | 2024年2月 | Transformer架构+LDM方法 | 通用的视觉数据模型(general purpose simulators),能生成各种持续时间(甚至长达1分钟)、宽高比和分辨率的视频和图片。 |
资料来源:各模型技术文档、观研天下整理
四、多模态大模型行业融资情况
从融资情况来看,目前多模态大模型行业融资情况较为频繁,在2024年2月已经发生两起投融资事件,分别为Weitu AI 公司获得的天使轮融资和联汇科技获得的战略融资。
2023-2024年多模态大模型行业相关融资情况
企业简称 | 时间 | 事件 |
MiniMax | 2023年6月 | 2023年6月,通用大模型初创企业MiniMax完成新一轮融资,总规模超2.5亿美元,项目估值超过10亿美元,跻身AIGC独角兽行列。而在此前,MiniMax已完成两轮融资,投资方包括米哈游、IDG资本、高瓴创投、云启资本以及明势资本等。据悉,MiniMax具备自研文本、语音等多模态融合的通用大模型能力,目前已推出自研产品AI聊天应用Glow。 |
智子引擎 | 2023年8月 | 2023年8月,多模态大模型公司智子引擎完成天使+轮融资。此轮融资由两家头部投资机构联合领投,软通高科等多方跟投,竟合资本担任独家财务顾问。本融资资金将主要用于扩充团队和购买算力。 |
HiDream.ai | 2023年12月 | 2023年12月,HiDream.ai完成新一轮融资,本轮投资由科大讯飞创投基金领投,将门创投等多家机构跟投。本轮融资将用于产品研发、电商场景的市场拓展和C端产品出海方向的发展等。据悉,HiDream.ai是一家定位于围绕视觉方向,打造生成式多模态基础模型及应用的初创公司。 |
Weitu AI | 2024年2月 | 2024年2月多模态大模型初创公司香港 Weitu AI 公司完成了天使轮融资,天使轮估值一亿美金。 |
联汇科技 | 2024年2月 | 2024年2月,联汇科技完成新一轮数亿元战略融资,投资方由中国移动产业链发展基金中移和创投资、前海方舟(前海母基金管理机构)旗下中原前海基金和齐鲁前海基金等多家机构组成。据悉,本轮融资将用于多模态大模型及自主智能体的技术研发、产品创新及市场拓展,进一步扩大在运营商、能源电力、媒体等行业与重点细分市场的领先优势。 |
资料来源:公开资料、观研天下整理(XD)
观研天下®专注行业分析十一年,专业提供各行业涵盖现状解读、竞争分析、前景研判、趋势展望、策略建议等内容的研究报告。更多本行业研究详见《中国多模态大模型行业发展现状研究与投资前景分析报告(2024-2031年)》。
【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。