一、行业相关定义
多模态(Multimodality)是指集成和处理两种或两种以上不同类型的信息或数据的方法和技术。在机器学习和人工智能领域,多模态涉及的数据类型通常包括但不限于文本、图像、视频、音频和传感器数据。多模态系统的目的是利用来自多种模态的信息来提高任务的性能,提供更丰富的用户体验,或者获得更全面的数据分析结果。
多模态大模型就是一种能够理解和处理多种类型的机器学习模型——而类型也被叫做模态,包括文本,图片,音频,视频等。这种模型可以融合多种不同模态的信息,执行更复杂和智能的任务;如视觉问答(AI 面试官),图文生成,语音识别与合成等。
二、行业市场规模
根据观研报告网发布的《中国多模态大模型行业现状深度研究与发展前景分析报告(2025-2032年)》显示,多模态模型通过融合语言模态与图像模态,将语言模态包含的文本理解与思维链能力投射在图像模态上,赋予了模型图像理解与生成功能。从 AI 技术范式来看,多模态技术通过预训练+调参的方式颠覆了传统机器视觉小模型 CNN 高度定制化的业务模式,模型的泛用性大幅度提高。
在市场需求的增长以及政策支持的背景下,我国大模型市场规模将不断增长,预计到2025年市场规模将突破300亿元。而多模态大模型作为AI模型的发展方向,在各项相关技术愈发成熟下,其应用领域也将愈发广泛,比如说商业定制、游戏和影视等。2024年上半年,国内多模态大模型行业市场规模为33.33亿元,具体如下:
资料来源:观研天下数据中心整理
三、行业供应规模
2023年生成式人工智能概念兴起至今,国产生成式人工智能大模型如雨后春笋般涌现。截至目前,我国已初步构建了较为全面的人工智能产业体系,相关企业超过4500家,核心产业规模已接近6000亿元人民币,产业链覆盖芯片、算法、数据、平台、应用等上下游关键环节。
产品数量方面,生成式人工智能产品在我国百花齐放。截至2024年7月,我国完成备案并上线、能为公众提供服务的生成式人工智能服务大模型已达190多个,我国以大模型为代表的人工智能普及率达16.4%。
产业融合方面,生成式人工智能与各行各业的融合正在我国加速落地。生成式人工智能与制造业、农业、医疗、教育等传统行业深度融合,推动产业转型升级,促进新业态、新模式的不断涌现。尤其在2024年,随着生成式人工智能技术的日趋成熟,各大科技企业的模型调用价格显著下降,从而明显降低了其他行业对生成式人工智能技术的应用成本。
截至2024年11月,我国共有309个生成式人工智能产品完成备案,北京、上海、广东三省的生成式人工智能备案产品数量占比分别达到31.1%、27.2%和11.7%。
生成式人工智能产品完成备案数量(截止2024年11月)
属地 | 数量 | 属地 | 数量 |
北京 | 96 | 上海 | 84 |
广东 | 36 | 浙江 | 25 |
江苏 | 18 | 四川 | 9 |
贵州 | 5 | 湖南 | 4 |
山东 | 4 | 天津 | 4 |
河北 | 3 | 重庆 | 3 |
海南 | 2 | 安徽 | 1 |
福建 | 1 | 河南 | 1 |
黑龙江 | 1 | 湖北 | 1 |
江西 | 1 | 辽宁 | 1 |
宁夏 | 1 | 陕西 | 1 |
云南 | 1 | 国资委 | 6 |
资料来源:中国互联网络信息中心,观研天下数据中心整理
2024年以来, 国内Al 大模型Q技术和应用逐渐从文本扩展至更多模态。随着OpenAI发布GPT-4系列多模态版本,掀起了国内外多模态理解大模型的研发热潮和广泛应用。
市场主流多模态大模型产品
模型名称 | 所属团队 | 属地 | 类型 |
ChatGPT-4o-latest | OpenAI | 海外 | 闭源 |
GPT-4o-2024-05-13 | OpenAI | 海外 | 闭源 |
Step-1V-8k | 阶跃星辰 | 国内 | 闭源 |
hunyuan-vision | 腾讯 | 国内 | 闭源 |
SenseChat-Vision 5.5 | 商汤 | 国内 | 闭源 |
Claude-3.5-Sonnet | Anthropic | 海外 | 闭源 |
InternVL2-40B | 上海人工智能实验室 | 国内 | 开源 |
Gemini-1.5-Pro | 海外 | 闭源 | |
ERNIE-4-Turbo | 百度 | 国内 | 闭源 |
Qwen2-VL-72B | 阿里云 | 国内 | 开源 |
GLM-4V-Plus | 智谱AI | 国内 | 闭源 |
MiniCPM-V2.6 | 面壁智能 | 国内 | 开源 |
GPT-4Turbo-0409 | OpenAI | 海外 | 闭源 |
海螺AI | MiniMax | 国内 | 闭源 |
Yi-Vision | 零一万物 | 国内 | 闭源 |
DeekSeek-VL-7b-chat | 深度求索 | 国内 | 开源 |
Phi-3.5-vision-Instruct | 微软 | 海外 | 开源 |
资料来源:SuperCLUE-V,观研天下数据中心整理
四、行业细分市场分析
1、C端市场
在面向C端用户的,通用行政办公类应用和消费服务应用受AI大模型影响的智能化升级节奏更快,产品化落地较快,其主因是在数据可采集的渠道更加丰富且受监管的要求较低。2024年上半年中国多模态大模型toC市场规模约为20.00亿元左右,具体如下:
资料来源:观研天下数据中心整理
2、B端市场
面向B端用户的,专业化程度较高的领域,例如医疗、金融、工业等行业的智能化升级需要更多专业领域的数据训练,相应的商业化节奏较慢,其主因是行业的特殊性导致数据安全要求较高、试错成本高、受监管要求较高等。2024年上半年中国多模态大模型toB市场规模约为13.33亿元左右,具体如下:
资料来源:观研天下数据中心整理
五、行业竞争格局
在大模型领域,国际巨头布局大模型较早,或投资或自研(微软作为 OpenAI 最大股东、谷歌自研 Gemini 系列、以及 Meta 自研 Llama 系列等),并利用大模型赋能各自原有的强势业务线,做产业升级。比如微软用 GPT-4 赋能 Azure 云服务、Office365、搜索业务等;谷歌和 Meta 利用大模型生成创意广告文案/图片赋能广告主,抑或是在广告业务的多个环节提升精准度和效率。该模式常见于大厂,大模型+原有业务即利用大模型的语言能力提升传统业务的智能化水平,同时利用传统业务积累的庞大数据资源反哺大模型持续迭代。
国内大模型的性能加速追赶海外。OpenCompass 于 2023 年 7 月由上海人工智能实验室推出,构建了一套中英文双语评测基准,旨在系统性分析国内外大模型的综合客观性能。通过其 24 年 1 月的榜单,我们观测到智谱清言 GLM-4、阿里巴巴 Qwen-Max 和百度文心一言 4.0 具有较为全面的性能,在语言和知识等基础能力维度上可比肩 GPT-4 Turbo。
目前,多模态是主流的迭代路径,互联网大厂利用生态优势将多模态能力融进具体使用场景。和海外相似,国内大模型的迭代方向也能捕捉到多模态的趋势。如百度文心一言的多模态体现在 toB 平台“智能云千帆”,帮企业将大模型运用到需要文生图、文生视频的场景;讯飞星火则将多模态能力落地在教师助手、口语训练等教育场景。多模态的训练对参数规模和算力支持要求更高,芯片供给侧的紧缺也一定程度上成为各平台算力扩张的阻碍。
国内大模型规格对比
模型名称 | 参数 | 模态 | 上下文窗口 (tokens) | 是否开源 | 所属公司 |
文心一言 4.0 | 超万亿 | 多模态(文本、视频、图像、音频) | 约 2.8 万字 | 否 | 百度 |
ChatGLM-6B | / | 多模态(文本、图像) | 12.8 万 | 是 | 智谱 AI |
Qwen-72B | 720 亿 | 多模态(文本、视频、图像、音频) | 3 万 | 是 | 阿里 |
盘古 3.0 | 100/380/710/1000 亿(四个版本) | 多模态(文本、图像) | - | 否 | 华为 |
星火开源-13B | 130 亿 | 多模态(文本、视频、图像、音频) | - | 是 | 科大讯飞 |
资料来源:观研天下数据中心整理
总体上,目前,我国多模态大模型企业不断发展,如百度、腾讯、阿里巴巴、字节跳动、华为等,凭借强大的技术实力、海量的数据资源、充足的资金支持以及丰富的行业经验,在多模态大模型领域占据重要地位。例如,百度的文心大模型在 2024 年 11 月的日均 tokens 调用量超过 1.5 亿次,用户规模达 7000 万;腾讯的混元大模型上线视频生成能力,引发关注;字节跳动的豆包视觉理解模型以低价格吸引众多客户。
人工智能创业公司方面,以智谱 AI 为代表的初创企业,通过技术创新和产品差异化,在市场中脱颖而出,获得了一定的市场份额和用户认可。如智谱 AI 完成 30 亿元人民币的新一轮融资,其 C 端产品 “清言” 用户数达 2500 万,商业化收入实现超 100% 的增长。
科研院所和高校方面,像北京智源研究院、清华大学等,在大模型评测等方面取得优秀成果,为行业发展提供了技术支持和理论指导,推动了多模态大模型技术的进步。(WWTQ)
![](http://img.chinabaogao.com/images/202103/20210318135346jzpt_m.png)
【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。