当前位置:首页 > 报告详情

张俊林-OpenAI o1技术原理解析.pdf

上传人: 哆哆 编号:630902 2025-04-19 38页 8.57MB

1、张俊林 新浪微博首席科学家、新技术研发负责人中国中文信息学会理事,中科院软件所博士。目前担任新浪微博技术研发负责人,在此之前在阿里巴巴担任资深技术专家,负责新技术团队。这就是搜索引擎:核心技术详解、大数据日知录:架构与算法的作者,目前主要研发兴趣集中在推荐系统及自然语言处理演讲主题:OpenAI o1技术原理解析OpenAI o1技术原理解析张俊林新浪微博OpenAI o1模型的意义o1的可能训练过程强化学习与LLM融合构造o1模型大模型的“思考快与慢”人人类类大大脑脑擅擅长长快快思思考考的的系系统统1 1和和擅擅长长慢慢思思考考的的系系统统2 2,G GP PT T 4 4类类似似于于大大脑

2、脑中中的的系系统统1 1,O Op pe en nA AI I o o1 1类类似似于于大大脑脑中中的的系系统统2 2。人类大脑的两套系统o1大幅提升了大模型的复杂逻辑推理能力O O1 1相相对对G GP PT T 4 4o o在在数数学学竞竞赛赛、高高难难度度编编程程竞竞赛赛、博博士士级级专专业业能能力力方方面面成成绩绩获获得得大大幅幅提提升升复杂逻辑推理能力的极大提升强化学习 Scaling Law(1/2)S Sc ca al li in ng g L La aw w是是驱驱动动最最近近几几年年大大模模型型发发展展的的主主要要因因素素,目目前前面面临临因因数数据据短短缺缺而而曲曲线线开开

3、始始平平缓缓的的阶阶段段,不不可可持持续续。大模型发展的第一驱动力:Scaling Law强化学习Scaling Law(2/2)新新型型的的R RL L阶阶段段S Sc ca al li in ng g L La aw w,大大模模型型发发展展可可能能开开启启快快速速能能力力提提升升的的第第二二增增长长曲曲线线o1为小模型发展扫清了障碍(1/2)O1-mini的效果在某些场景甚至比规模大的多的o1-Preview要好。o1为小模型发展扫清了障碍(2/2)“能力分治”模式推进小模型技术发展:把语言、世界知识及逻辑推理三个能力解耦,语言能力靠小模型自身、逻辑推理靠类似o1的通过RL获得的深度思考

4、能力,而世界知识可以靠外挂RAG获得增强。O1引发的安全对齐新模式O1在做安全对齐方面,大概采用了类似Anthropic的“AI宪法”的思路:给定一些安全守则,指明哪些行为能做,哪些不能做,在o1逻辑推理能力提高之后,它遵循这些法则的能力也获得了极大增强,安全能力比GPT 4o强很多。Anthropic Constitutional AI“深度思考”在复杂任务中的广泛应用-大模型搜索深度思考能力善于解决长链条复杂任务,目前在LLM搜索已广泛采用,也会快速拓展到更多应用领域。Perplexity深度搜索(Open AI 所有联合创始人何时离开公司以及现在在哪个公司)Perplexity深度搜索开

5、发企业:Perplexity类似产品:Kimi探索版、ChatGPT搜索发布日期:2024年10月15日特点:将复杂问题拆解成若干子查询,通过复杂推理集成最终搜索1结果Perplexity集成OpenAI o1 mini来实现这个功能新一代搜索引擎范式OpenAI o1模型的意义o1的可能训练过程强化学习与LLM融合构造o1模型OpenAI o1的在线推理过程4.最终答案3 3.H Hi id dd de en n C CO OT T摘摘要要1 1.用用户户问问题题2 2.生生成成H Hi id dd de en n C CO OT To1的完整训练过程推演(1/3)Post-Training

6、新引入两个阶段,Inference新加入两个阶段。o1的完整训练过程推演(2/3)只强调Inference-Time Scaling大概率是不对的,也要重视增强基座模型的基础逻辑能力,两者相互促进。O Op pe en nA AI I o o1 1发发布布之之前前的的研研究究结结论论o1的完整训练过程推演(3/3)只强调Inference-Time Scaling大概率是不对的,也要重视增强基座模型的基础逻辑能力,两者相互促进。对对o o1 1的的I In nf fe er re en nc ce e-t ti im me e S Sc ca al li in ng g的的探探索索(F Fr

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
张俊林是新浪微博的首席科学家和新技术研发负责人,同时也是中国中文信息学会的理事和中科院软件所的博士。他曾在阿里巴巴担任资深技术专家,负责新技术团队。张俊林是两本书的作者,《这就是搜索引擎:核心技术详解》和《大数据日知录:架构与算法》。他的主要研发兴趣集中在推荐系统及自然语言处理。 张俊林提到了OpenAI的o1技术,这是一种大幅提升了大模型的复杂逻辑推理能力的技术。他比喻人类大脑的两套系统,系统1擅长快思考,系统2擅长慢思考,而GPT 4类似于大脑中的系统1,OpenAI o1类似于大脑中的系统2。OpenAI o1在做安全对齐方面采用了类似Anthropic的“AI宪法”的思路,遵循这些法则的能力也获得了极大增强。 他还提到了强化学习Scaling Law,这是驱动最近几年大模型发展的主要因素。o1为小模型发展扫清了障碍,o1-mini的效果在某些场景甚至比规模大的多的o1-Preview要好。 此外,张俊林还提到了蒙特卡洛树搜索(MCTS)如何应用在o1中,以及o1的完整训练过程推演。
深入了解OpenAI o1的工作原理和核心技术,探索它是如何提升大模型的复杂逻辑推理能力的。 比较o1模型和GPT 4o在数学竞赛、高难度编程竞赛和博士级专业能力方面的表现,看o1模型是否能带来大幅提升。 探讨OpenAI o1模型在推荐系统、自然语言处理等领域的应用,以及它可能为小模型发展带来的新机遇。
客服
商务合作
小程序
服务号
折叠