大语言模型(LLM)是近几年来最火热的方向之一
可以解决各种传统NLP任务,如文本分类、命名实体识别等
可以做更高级的任务
作为聊天机器人,按照要求扮演某个角色 (强大的指令遵循能力)
做高阶的推理任务,如写代码、解数学问题等 (强大的推理能力, CoT进一步增强)
然而LLM存在固有的限制
无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站截图给出源代码、理解一张表情包的含义
无法获取更多的多模态的世界知识,如名画、名人等
免责声明:本文不代表本站的观点和立场,如有侵权请联系本平台处理。转载请说明出处
内容投诉亦朵智库 » 多模态大语言模型领域进展分享