美团开源5600亿参数大模型!语音订外卖仅需3秒,实测体验来了
11月3日,美团正式开源全模态大模型LongCat-Flash-Omni,并同步上线首款AI通用助手App,开启公测。这一动作不仅标志着美团在AI领域的技术实力再上新台阶,更将为本地生活服务带来全新变革。这款总参数量达5600亿、激活参数270亿的全模态大模型,究竟有何过人之处?配套的AI助手App又能为用户带来哪些便利?让我们一探究竟。
技术突破:LongCat-Flash-Omni全模态大模型解析
模型架构与参数亮点
LongCat-Flash-Omni最引人注目的莫过于其庞大的参数规模——总参数量5600亿,激活参数270亿。这一设计在保证模型强大能力的同时,通过创新的Shortcut-Connected MoE(混合专家)架构,实现了高效推理。该架构引入”零计算专家”技术,类似于高速公路上的ETC通道,只激活必要的参数路径,大幅降低了计算资源消耗。
更令人惊叹的是,该模型支持128K tokens的超长上下文窗口,能够处理超过8分钟的音视频交互内容。这意味着用户可以进行更长时间的语音对话,或上传更长的视频进行分析,而不用担心模型”记不住”前面的内容。
多模态性能表现
作为一款全模态大模型,LongCat-Flash-Omni在文本、图像、视频、语音等多个领域均表现出色:
文本处理:延续了美团大模型系列的既有优势,在部分领域的性能较早期版本有显著提升。
图像理解:在RealWorldQA基准测试中获得74.8分,与Google的Gemini-2.5-Pro相当,优于阿里的Qwen3-Omni模型。
语音识别:在LibriSpeech数据集上的ASR(自动语音识别)准确率超越了Gemini-2.5-Pro,语音对话的自然度和人性化指标甚至优于OpenAI的GPT-4o。
视频理解:在短视频理解任务上领先于其他开源模型,长视频理解能力则与Gemini-2.5-Pro不相上下。
开源生态与技术优势
美团已将LongCat-Flash-Omni模型开源至Hugging Face平台,并提供了轻量级编解码器组件,方便开发者集成和二次开发。模型采用分块式音视频特征交织机制,视觉和音频编码器的参数量仅为6亿,实现了性能与效率的完美平衡。
在数据安全方面,模型训练采用了”渐进式早期融合”策略,有效避免了单模态数据泄露风险,符合国内《生成式AI服务管理暂行办法》的要求,为企业和个人用户提供了安全可靠的技术保障。
产品落地:AI通用助手App功能与体验
核心功能矩阵
基于LongCat-Flash-Omni大模型,美团推出的AI通用助手App具备以下核心功能:
语音通话:支持实时语音交互,响应速度比传统AI工具快30%,用户可以通过语音完成各种操作。
联网搜索:整合了美团丰富的本地生活数据,能够提供精准的餐厅推荐、外卖订餐等服务信息。
图像/文件上传:Web端支持多模态输入,用户可以上传图片或文件进行分析和处理。
视频通话:目前处于内测阶段,预计不久后将正式上线,将为用户带来更直观的交互体验。
公测信息与用户体验
目前,AI通用助手App已开启公测,iOS用户可以直接在App Store搜索”LongCat”下载体验,安卓版本预计将于11月底上线。根据早期用户的实测反馈,该App的响应速度优势明显,特别是在处理复杂查询和多模态任务时表现突出。
一位参与公测的用户表示:”用语音点外卖真的太方便了,只需说出想要的菜品和配送地址,不到3秒就能完成下单,比手动操作快多了。”
生活化应用场景
LongCat-Flash-Omni大模型和AI助手App在生活服务场景中有着广泛的应用前景:
用户端应用:
拍照识别菜品卡路里:用户只需用手机拍摄食物,AI就能分析出大致的卡路里含量,帮助健康饮食。
语音控制外卖备注:通过语音指令如”少辣+餐具”,AI能准确理解并添加到订单备注中。
商家端应用:
智能客服处理多模态咨询:商家可利用模型开发智能客服系统,自动处理包含图像的投诉,如菜品质量问题图片,并进行分类处理。
动态定价模型:结合视频客流分析,商家可以实现更精准的动态定价,优化经营效率。
行业影响:美团AI战略布局与本地生活服务升级
技术定位与竞品对比
在Omni-Bench全模态基准测试中,LongCat-Flash-Omni超越了阿里的Qwen3-Omni和Google的Gemini-2.5-Flash,接近闭源模型Gemini-2.5-Pro的水平。与OpenAI的GPT-4和百度的文心一言相比,美团的全模态模型在本地生活服务场景中具有明显优势,特别是在多模态理解和实时交互方面。
美团此举填补了开源全模态领域的空白,为行业提供了一个强大的技术基础,有望引领新一轮AI技术发展趋势。
2025年大模型开源趋势
2025年,国内科技公司正加速大模型开源步伐。除了美团的LongCat-Flash-Omni,阿里的Qwen3-Max和百度的文心5.0也相继推出开源版本。在这一趋势下,美团凭借全模态能力的差异化竞争优势,有望在开源社区中占据重要位置。
虽然目前美团尚未明确披露具体的开源协议类型,但业界推测可能采用Apache 2.0或MIT等主流开源协议,这将进一步促进开发者生态的建设和完善。
本地生活服务智能化升级
美团AI战略的推进,将对本地生活服务行业产生深远影响:
商家智能化工具升级路径:
基于LongCat-Flash-Omni模型,商家可以开发更智能的客服系统、商品推荐引擎和营销工具。
视觉分析能力将帮助商家更好地了解顾客需求,优化产品和服务。
用户体验优化方向:
多模态交互将使用户能够以更自然的方式与服务平台沟通,降低使用门槛。
个性化推荐将更加精准,满足用户多样化需求。
行业格局影响:
美团通过开源全模态模型,有望构建更开放的AI生态,吸引更多开发者和合作伙伴。
本地生活服务的智能化水平将整体提升,促进行业良性竞争和创新发展。
随着LongCat-Flash-Omni的开源和AI助手App的推出,美团正在用实际行动证明,AI技术不再是遥不可及的概念,而是能够切实改善人们日常生活的实用工具。对于普通用户而言,这意味着更便捷、更智能的服务体验;对于商家而言,则意味着更高效的运营方式和更精准的用户洞察。
美团此次的技术突破和产品落地,不仅展示了其在AI领域的实力,更为整个本地生活服务行业指明了智能化升级的方向。未来,随着更多基于LongCat-Flash-Omni的应用场景落地,我们有理由相信,AI将真正融入日常生活的方方面面,为人们带来更美好的生活体验。