人工智能的发展已经从单一模态的文本或图像处理,迈入了”多模态原生(Multimodal Native)”的新纪元。大语言模型(LLM)不再仅仅是”语言”模型,而是能够同时理解、推理和生成文本、图像、音频乃至视频的”大感知模型”。其中,OpenAI推出的GPT-4o(”o”代表omni,全能),以其在视觉和语音交互方面的卓越表现,成为了这一变革的标志性里程碑。它模糊了不同模态之间的界限,使得AI能够以更自然、更接近人类的方式与世界互动。
多模态原生的演进:Azure OpenAI Service 中 GPT-4o 视觉与语音交互能力的工程化落地与行业应用
Posted on |
5,548 次浏览