根据机器之心微信公众号,上线之前,内部团队已经围绕拟人度、有用性、情商、通话稳定性、对话流畅度等多个维度,对这项功能背后的豆包实时语音大模型和 GPT-4o 进行了考评。整体满意度(以 5 分为满分)方面,豆包实时语音大模型评分为 4.36,GPT-4o 为 3.18。其中,50% 的测试者对豆包实时语音大模型表现打出满分。在模型优点评测中,豆包实时语音大模型在情绪理解和情感表达方面优势明显。尤其是「一听就是 AI 与否」评测中,超过 30% 的反馈表示GPT-4o 「过于 AI 」,而豆包实时语音大模型相应比例仅为 2% 以内。