政策助力资本加持应用领域拓展多因素驱动下我国多模态大模型市场将不断扩大

2024-03-05 10:57

手机浏览

一、多模态大模型行业概述

多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。

二、我国大模型行业政策

随着当前人工智能行业的发展，大模型技术也不断发展，而为推动大模型在行业中的应用，我国及部分省市发布了多项行业政策，如2024年1月工业和信息化部等七部门发布的《关于推动未来产业创新发展的实施意见》、2023年12月国家发展改革委等部门发布的《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》等。

我国及部分省市大模型行业相关政策

层级	发布时间	发布部门	政策名称	主要内容
国家级	2023年8月	工业和信息化部、财政部	电子信息制造业2023—2024年稳增长行动方案	鼓励加大数据基础设施和人工智能基础设施建设，满足人工智能、大模型应用需求。
国家级	2023年12月	国家发展改革委等部门	关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见	建立健全算法开发利用机制，积极开展大模型创新算法及关键技术研究，提升数据分析能力，降低大模型计算的算力消耗水平。
国家级	2024年1月	工业和信息化部等九部门	原材料工业数字化转型工作方案（2024—2026年）	建设适用于生成式人工智能的行业数据集，基于现有通用大模型技术底座进行定制化开发训练，构建细分行业大模型，面向新材料研发、供应链优化、大宗商品价格预测等应用需求，加快大模型技术深度创新。
国家级	2024年1月	工业和信息化部等七部门	关于推动未来产业创新发展的实施意见	超大规模新型智算中心，加快突破GPU芯片、集群低时延互连网络、异构资源管理等技术，建设超大规模智算中心，满足大模型迭代训练和应用推理需求。
省级	2023年5月	山西省	全面推进煤矿智能化和煤炭工业互联网平台建设实施方案	建设煤炭工业互联网平台，组建我省煤炭工业互联网平台公司，充分利用省内各类资源，建设以人工智能大模型为核心的全栈式一体化工业互联网基础平台。
省级	2023年9月	北京市	北京市促进未来产业创新发展实施方案	重点支持机器人技术与多模态大模型融合发展，推动机器人从“仿人”向“类人”演进，通过类人机器人感知认知一体化，实现自主修复、自我迭代能力，突破面向新环境新任务的自主适应和推理决策能力发展，抢先布局具身智能研究领域。
省级	2023年9月	宁夏回族自治区	宁夏回族自治区教育数字化战略行动计划 (2023—2027年)	拓展平台应用功能，升级网络学习空间，建设智能化学习支持系统，探索人工智能大模型技术应用，打造覆盖全平台的智能搜索引擎。
省级	2024年1月	上海市	上海市优化政务服务提升行政效能深化“一网通办”改革行动方案（2024-2026年）	强化智能服务中枢底层能力。夯实数字底座，探索运用大模型技术赋能政务服务，持续丰富文字识别、语音识别、图像识别、自然语言处理等人工智能模型仓库，打造高效、集约、规范、开放的智能服务生态。

资料来源：观研天下整理

三、大模型市场规模及预测

在市场需求的增长以及政策支持的背景下，我国大模型市场规模将不断增长，预计到2025年市场规模将突破300亿元。而多模态大模型作为AI模型的发展方向，在各项相关技术愈发成熟下，其应用领域也将愈发广泛，比如说商业定制、游戏和影视等。而随着其应用领域的不断拓展下，其需求量也将增加，预计2025年我国多模态内容市场规模800亿美元。

资料来源：观研天下整理

目前国内外已经有多家互联网相关企业推出了AI视频生成算法及工具情况，将多模态大模型应用在相关产品中，比如在2024年2月OpenAI就推出了Sora，可以通用的视觉数据模型（general purpose simulators），能生成各种持续时间（甚至长达1分钟）、宽高比和分辨率的视频和图片。

国内外部分厂商AI视频生成算法及工具情况

公司/团队	算法/工具名称	时间	底层模型/架构	核心功能及亮点
蚂蚁技术研究院	CoDeF	2023年8月	CoDeF（内容变形场）	CoDeF是一项真实时、强细节、高保真的视频处理技术，用于完成视频风格迁移任务。
Runway	RunwayGen2	2023年3月	DiffusionModel	Gen-2在上增添了文成视频、图生视频、及文字+图片生成视频的新功能，实现了从头直接生成视频的技术突破。
Meta	EMUEdit&Video	2023年11月	DiffusionModel	Emu Edit模型仅用文字指令就可以准确编辑图像，而通过分解文字转视频（Text-to-Video）的生成过程，Emu Video方法可以改善最终生成视频的品质和多样性。
谷歌	W.A.L.T	2023年12月	Transformer架构+LVDM方法	使用因果编码器在统一的潜在空间内联合压缩图像和视频，实现跨模态的训练和生成，生成基准测试上实现了SOTA，无需使用无分类器指导。
字节跳动	MagicVideoV2	2024年1月	3DMorphable+DiffusionModel	模型可以根据用户输入的任意文本描述，生成具有出色保真度和平滑度的高分辨率视频，支持4K、8K 超高清画质，以及多种绘图风格。
OpenAI	Sora	2024年2月	Transformer架构+LDM方法	通用的视觉数据模型（general purpose simulators），能生成各种持续时间（甚至长达1分钟）、宽高比和分辨率的视频和图片。

资料来源：各模型技术文档、观研天下整理

四、多模态大模型行业融资情况

从融资情况来看，目前多模态大模型行业融资情况较为频繁，在2024年2月已经发生两起投融资事件，分别为Weitu AI 公司获得的天使轮融资和联汇科技获得的战略融资。

2023-2024年多模态大模型行业相关融资情况

企业简称	时间	事件
MiniMax	2023年6月	2023年6月，通用大模型初创企业MiniMax完成新一轮融资，总规模超2.5亿美元，项目估值超过10亿美元，跻身AIGC独角兽行列。而在此前，MiniMax已完成两轮融资，投资方包括米哈游、IDG资本、高瓴创投、云启资本以及明势资本等。据悉，MiniMax具备自研文本、语音等多模态融合的通用大模型能力，目前已推出自研产品AI聊天应用Glow。
智子引擎	2023年8月	2023年8月，多模态大模型公司智子引擎完成天使+轮融资。此轮融资由两家头部投资机构联合领投，软通高科等多方跟投，竟合资本担任独家财务顾问。本融资资金将主要用于扩充团队和购买算力。
HiDream.ai	2023年12月	2023年12月，HiDream.ai完成新一轮融资，本轮投资由科大讯飞创投基金领投，将门创投等多家机构跟投。本轮融资将用于产品研发、电商场景的市场拓展和C端产品出海方向的发展等。据悉，HiDream.ai是一家定位于围绕视觉方向，打造生成式多模态基础模型及应用的初创公司。
Weitu AI	2024年2月	2024年2月多模态大模型初创公司香港 Weitu AI 公司完成了天使轮融资，天使轮估值一亿美金。
联汇科技	2024年2月	2024年2月，联汇科技完成新一轮数亿元战略融资，投资方由中国移动产业链发展基金中移和创投资、前海方舟（前海母基金管理机构）旗下中原前海基金和齐鲁前海基金等多家机构组成。据悉，本轮融资将用于多模态大模型及自主智能体的技术研发、产品创新及市场拓展，进一步扩大在运营商、能源电力、媒体等行业与重点细分市场的领先优势。