当前位置：首页 > news >正文

美团开源啦，源码地址+部署脚本，全模态实时交互

news 2025/11/4 16:13:25

大家好，我是小悟。

美团LongCat-Flash系列又添新成员，LongCat-Flash-Omni正式开源了。

从「能聊天」到「能看会听」

早在今年9月，美团就悄咪咪放出了LongCat-Flash系列的前两个版本（Chat和Thinking）。

当时就因为5600亿参数的大体量还能跑得飞快被圈内人讨论了一波。但那时候的模型还停留在「文字交流」层面，说白了就是个特别能聊天的AI。

而这次新发布的Omni版本，直接把能力从「文字」扩展到了「图、文、音、视」全模态，甚至还能实时语音交互。

举个例子：你拍张菜市场的鱼摊照片，问它「这鱼新鲜不？」它能分析图片里的鱼眼、鱼鳃状态，再结合你对「新鲜」的定义，给出比菜贩子还靠谱的答案。

或者你发段方言语音吐槽加班，它不仅能转文字，可能还能用带情绪的语音回你一句：「摸鱼不如摸键盘，但打工人的命也是命啊！」

5600亿参数还能「秒回」

按常理说，模型参数越大，思考越慢。但LongCat-Flash-Omni偏不，5600亿总参数（实际激活270亿）的情况下，居然实现了低延迟的实时音视频交互。

Shortcut-Connected MoE架构（含零计算专家），简单说就是让模型遇到简单问题时直接抄答案，只对复杂问题开足马力算。就像班里学霸，基础题扫一眼就过，难题才认真动笔。

多模态感知+语音重建：给模型装了「眼睛」和「耳朵」，视觉与音频编码器负责理解图片、视频和声音，再通过大语言模型（LLM）处理信息，最后用轻量级解码器把回答变成语音波形。整个过程像流水线作业，效率拉满。

分块式特征交织：支持128K超长上下文和8分钟以上的音视频连续交互，聊久了也不会「断片」。

这点对需要分析长视频或深度对话的场景特别重要，比如看一部电影后让AI总结剧情，或者和长辈视频聊天时它能记住半小时前的话题。

开源才是真·杀手锏

比起某些闭源模型藏着掖着，美团这次直接把LongCat-Flash-Omni的代码和模型权重扔到了Hugging Face和GitHub上，还贴心地配了教程。

入口：https://longcat.aiHugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-OmniGithub：https://github.com/meituan-longcat/LongCat-Flash-Omni

安装
python >= 3.10.0 (推荐使用 Anaconda)
PyTorch >= 2.8
CUDA >= 12.9conda create -n longcat python=3.10
conda activate longcat# install SGLang
git clone -b longcat_omni_v0.5.3.post3 https://github.com/XiaoBin1992/sglang.git
pushd sglang
pip install -e "python"
popd# install longcat-flash-omni demo
git clone https://github.com/meituan-longcat/LongCat-Flash-Omni
pushd LongCat-Flash-Omni
git submodule update --init --recursive
pip install -r requirements.txt
popd单节点推理
python3 longcat_omni_demo.py \--tp-size 8 \--ep-size 8 \--model-path where_you_download_model_dir \--output-dir output多节点推理
python3 longcat_omni_demo.py \--tp-size 16 \--ep-size 16 \--nodes 2 \--node-rank $NODE_RANK \--dist-init-addr $MASTER_IP:5000 \--model-path where_you_download_model_dir \--output-dir output注意：请将$NODE_RANK 和$MASTER_IP 替换为您的 GPU 机器的相应值