谷歌Gemini多模态大模型，主要是听懂声音和分析图像。是...-佳都科技互动平台-特特股

网友提问：谷歌Gemini多模态大模型，主要是听懂声音和分析图像。是GPT-4无法企及的。贵公司的多模态大模型，拥有冻结视觉模块（Visual Encoder）和语言模型（PCITransGPT），使用大量图文数据将图像和文本知识进行对齐；l指令微调阶段：构造多样性的文本和多模态联合数据，保持视觉模块冻结，将视觉对齐模块和语言模型进行全参微调，使得模型能够具备更丰富的多模态理解能力。是否如此？

2023-12-11 14:51:59

佳都科技 (600728): 回答：投资者您好！是的，您理解得非常准确，公司TransCore-M多模态大模型能够理解文本、图像、视频等多种模态的信息，并且按照用户需求将其进行描述、提示或转化为指令代码，是个非常“聪明”的交通信息小助手。