网友提问 :谷歌Gemini多模态大模型,主要是听懂声音和分析图像。是GPT-4无法企及的。贵公司的多模态大模型,拥有冻结视觉模块(Visual Encoder)和语言模型(PCITransGPT),使用大量图文数据将图像和文本知识进行对齐;l指令微调阶段:构造多样性的文本和多模态联合数据,保持视觉模块冻结,将视觉对齐模块和语言模型进行全参微调,使得模型能够具备更丰富的多模态理解能力。是否如此?
2023-12-11 14:51:59
佳都科技 (600728): 回答:投资者您好!是的,您理解得非常准确,公司TransCore-M多模态大模型能够理解文本、图像、视频等多种模态的信息,并且按照用户需求将其进行描述、提示或转化为指令代码,是个非常“聪明”的交通信息小助手。
2023-12-11 14:51:59