更强效果,更优成本,加量不加价:豆包大模型1.5发布,综合得分优于GPT4o发表时间:2025-01-23 18:12
作者|冰拿铁 编辑|星奈 媒体|AI大模型工场
春节将近,琳琅满目的年货纷纷上线,为节日增添喜庆氛围,而近日,大模型圈也迎来了“重磅年货”:1月22日,豆包大模型1.5正式上线,为行业送上了2025年新惊喜。 本次升级中,豆包通用模型pro、豆包通用模型lite、豆包·视觉理解模型均迈向next level,其中,全新的Doubao-1.5-pro模型综合能力显著增强,多个权威测评集综合得分优于GPT4o、Claude 3.5 Sonnet等业界一流模型,模型效果达到全球领先水平。值得一提的是,新赛季中,豆包大模型还上线了“新英雄”:豆包·实时语音模型,并在豆包 APP 全量开放。 如此种种,皆让网友直呼: “最强新年搭子来了,今年拜年我必带上豆包,让豆包和说方言的亲戚、催婚的亲戚们、爱打断别人说话的亲戚们激情对线!” 值得一提的是,能力直线提升的同时,豆包大模型1.5全产品,包括 Doubao-1.5-pro,Doubao-1.5-lite,Doubao-1.5-vision-pro 等将继续保持原有模型价格不变,加量不加价,可以说是模圈“良心年货”! 那么,具体而言,1.5都有哪些惊艳表现、在哪些维度“遥遥领先”,背后又有哪些技术支撑?让我们一起看看吧! 一·、豆包矩阵大测评:推理、奥数全carry,还能魂穿名作家? 据多个公开评测基准对豆包通用模型pro(Doubao-1.5-pro)的性能评估,Doubao-1.5-pro 在知识、代码、推理、中文权威测评基准上获得最佳成绩,综合得分优于GPT4o、Claude 3.5 Sonnet等业界一流模型,在中文处理和特定领域知识方面优势明显。 真的有那么丝滑吗?让我们上手测测吧! 首先,来一道经典的过河逻辑题,考察大模型的推理能力,解题关键在于依据人物之间的限制条件,合理规划过河的人员组合,确保所有人都安全过河。可见豆包很严谨地分了九步,最后推出正确答案,轻松通关。 接下来,上一道削弱论证题,解题的关键在于分析每个选项能否对论点进行有效削弱,这也难不倒豆包: 那么,让豆包替我去考公,能水灵灵地上岸吗?来一道据说是“历年国家公务员考试行测都爱考的一道奥数题”,即牛吃草难题,还会衍生出水库用水存水问题、可再生资源的利用问题,因为题干提供的条件过少,让考生有种无从下手的感觉。 而豆包小机灵鬼则用设未知数的方法,求出牧场原有草量,最后计算出20头牛可以吃的天数。 接下来,我可上难度了!放一道曾“吓傻西方网友”,被英国《卫报》等主流媒体报道过的奥数题,而豆包也没有被文化鸿沟吓到,顺利求出了谢丽尔的生日。 数学能力这么好,那么在“主场作战”的中文领域,豆包表现如何呢?春节将近,让豆包用李白的风格写一首诗,庆祝首个“世界非遗春节”: 可见豆包出口成章,写出了“且趁良辰歌此曲,赓扬瑞气满乾坤”的句子,还蛮大气的! 那么,写当代诗的水平如何?让其模仿痖弦《秋歌——给暖暖》写一首当代诗,豆包非常上道,写了一首《春歌,给芽芽》: “蜂蝶留下吻过的芬芳,在东园蔟簇的花丛/牧童留下悠扬的笛音,在西山隐隐的林中”…… 这波阅读理解我给满分! 接下来,上难度了!让豆包用西方史诗作品《冰与火之歌》的文风改写《三国演义》,效果惊艳,中国古典名著分分钟爆改西方中世纪文学,诸侯纷争秒变“权力的游戏”,“汉家的荣光如残阳余晖……一场关于权力、荣耀与生存的残酷博弈即将拉开帷幕。” 看过《冰与火之歌》的,都知道这里面门道有多深! 除了“不偏科”的Doubao-1.5-pro外,轻量级Doubao-1.5-pro表现也不逊色,在轻量版语言模型中也处于全球一流水平,在综合、推理、数学、专业知识权威测评指标持平或超越GPT-4omini,Cluade 3.5 Haiku。 而豆包·视觉理解模型的升级,在能力上提升外,更解决了C端用户的一些应用痛点: 比如,分辨率问题一直是影响视觉理解能力的重要因素,在过去,大模型图生文功能虽然好用,但架不住现实中图片形态不一、千奇百怪,有各种极端长宽比图像、“座机分辨率”的图片通不过“入口安检”,只能望模兴叹。而此次豆包·视觉理解模型升级后,支持任意分辨率和极端长宽比图像识别,无论是高清大图还是低分辨率的小图,亦或是极端长宽比例的图像,模型都能实现精准的特征提取和高效的计算性能。 比如,我上传了一张长宽比离谱的九寨沟旅游海报,让其帮我转化为文字版攻略,豆包·视觉理解模型轻松carry: 上传一张图片、文字多维度玩梗的复杂表情包,豆包也能分分钟理解,讲清楚玩了哪些图片梗和谐音梗: 再比如,指令遵从维度,在过去,很多大模型虽然能听得懂“简单的人话”,但对复杂指令难以精准get,一时大脑宕机。而升级后的豆包大模型可以从容应对需要遵循更复杂指令的场景,如将豆包大模型设定为UI测试专家,也能瞬间实现cosplay。 同时,新英雄上线再添惊喜:本次推出了豆包·实时语音模型,并在豆包 APP 全量开放,可将豆包 APP 升级至 7.2.0 版本后使用。 作为一款语音理解和生成一体化的模型,豆包·实时语音模型真正实现了端到端语音对话,相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。 强势升级下,豆包正成为网友的春节神队友: 听得懂奶奶的方言、想出对联且能声情并茂地读出来、教女孩做香囊给家人制造惊喜,且能“小声嘀咕”不让家人发现、在春节聚会上承担了表演节目助兴的重任,模仿猫狗叫和孙悟空、守岁后还能唱小星星、讲故事哄小孩姐睡觉…… 那么,豆包大模型为什么能实现这么好的效果,背后有哪些“技术增益魔法”?
二、训练-推理一体设计、实现「最优效果、最低成本」:“既要又要”照进现实! 1.5版本升级背后,豆包大模型有哪些技术优势?事实上,豆包大模型1.5从预训练阶段就坚持训练-推理一体设计,在最强模型效果、卓越模型性能和最优推理成本之间取得平衡。 首先,高效模型预训练,其中,豆包大模型采用了稀疏的MoE(Mixture of Experts,专家混合)架构,在预训练阶段,仅用较小参数激活的 MoE 模型,性能即可超过 Llama3.1-405B 等超大稠密预训练模型。团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能。 换句话说,这种架构在训练和推理时更高效,就像一群专家一起工作,但每次只让少数专家来处理任务,从而节省了资源和时间。 这背后巧妙的地方是,团队通过研究发现,稀疏度有一个最佳比例,既能保持高性能,又能提高效率。就像找到了一群专家中最合适的组合,既不过于庞大,也不过于精简,从而实现了性能与效率平衡。其次,豆包MoE模型用更少的激活参数就达到了甚至超过了稠密大模型的性能,性能杠杆提升了七倍,就像少数精英专家完成了大量工作,效率极高。 而在大规模推理环节,豆包同样实现了技术优化,在确保低延迟的同时,大幅提升了吞吐量,能够快速且大量地处理任务,既快又好。 最后,高效后训练流程,在PostTraining阶段,豆包构建了一套高度自主的数据生产体系,该体系通过高效标注团队与模型自提升技术的深度融合,持续且精准地优化数据质量,严格遵循内部标准,坚持不走捷径,不使用任何其他模型的数据,确保数据来源的独立性和可靠性。 这也让豆包大模型1.5在训练过程中,未使用任何其他模型生成的数据,扎实不走“捷径”,构建完全自主的数据生产体系,以标注团队与模型 self play 技术相结合,高效优化数据质量,提升数据标注多样性和难度,形成了模型性能提升的良性循环。 台上一分钟,台下十年功。技术上多管齐下,才有了呈现在一众用户眼前的“豆包大模型1.5”! 三、AI普惠风吹,豆包大模型加量不加价 当下,效果、性能和最优推理成本之间的极致平衡,让豆包大模型在各行各业中被广泛使用,tokens 调用量也屡创新高。截至去年12月中旬,豆包大模型的日均tokens使用量已超过4万亿,较7个月前首次发布时增长了33倍。数据显示,最近几个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有大幅增长。 那么,豆包大模型价格表现如何?可喜的是,此次1.5版本“加量不加价”,一如既往地走AI普惠路线。 去年5月,字节跳动正式对外发布豆包大模型。其中,Doubao-pro-32k版,模型推理输入价格仅每百万tokens 0.8元,相较同期市场上同规格模型的定价一般为每百万tokens 120元,便宜了近150倍。 此后,火山引擎一直秉承“好模型让所有企业用得起”的宗旨,在12月18日举办的火山引擎Force冬季原动力大会上,字节跳动正式发布豆包·视觉理解模型,并宣布豆包·视觉理解模型价格降至0.003元/千Tokens,比行业平均价格降低85%。 当下,Doubao-1.5-pro-32k的百万tokens输入价格仍为0.8元,命中缓存为0.16元,输出价格为2元,轻量化版本Doubao-1.5-lite-32k的百万tokens输入价格0.3元,命中缓存0.06元,输出价格0.6元。 对此,火山引擎总裁谭待曾表示:使用量足够大,才能打磨出好模型,也能大幅降低模型推理的单位成本。“大模型降价,不能只提供低价的轻量化版本,主力模型和最先进的模型也要够便宜,才能真正满足企业的复杂业务场景需求,充分验证大模型的应用价值,从而催化出超越现有产品和组织模式的创新。” 诚如所言,此次1.5版本“加量不加价”的举措,也让行业看到了火山引擎助力 AI 创新的诚意。期待进一步推广,让AI 普惠之风吹到千家万户!
|