P1:用强化学习攻克物理奥林匹克

International Physics Olympiad 2025 (IPhO 2025)

P1系列

首个物理奥赛基准测试:HiPhO

多阶段强化学习训练

P1-30B Response Length Training Curve
P1-30B IPhO 2025 Score Training Curve
P1-235B Response Length Training Curve
P1-235B IPhO 2025 Score Training Curve

协同进化的多智能体系统:PhysicsMinions

PhysicsMinions系统架构
图三:PhysicsMinions 协同进化多智能体系统概览,展示了三个模块之间的交互流程。

评测结果

P1 模型展现顶级物理推理能力

HiPhO Leaderboard
图四:P1系列模型在 HiPhO 基准测试上的综合表现,包括与开源和闭源模型的对比。

通专融合,P1模型通用能力持续提升

P1-30B vs Qwen3-30B Performance Comparison
P1-30B 通用能力对比

P1-235B vs Qwen3-235B Performance Comparison
P1-235B 通用能力对比

案例研究

背景

1765年,英国钟表匠詹姆斯·考克斯发明了一种时钟,其唯一的能量来源是大气压的波动。考克斯的时钟使用了两个装有水银的容器。大气压的变化导致水银在容器之间移动,两个容器相对运动。这种运动作为实际时钟的能量来源。

我们对该装置进行分析。在整个分析中,我们假设:

  • 地球的重力场 $\vec{g} = -g\vec{u_{z}}$ 是均匀的,其中 $g = 9.8 \, \mathrm{m} \cdot \mathrm{s}^{-2}$,$\vec{u_{z}}$ 是单位向量;
  • 所有液体都是不可压缩的,其密度记为 $\rho$;
  • 不考虑表面张力效应;
  • 忽略大气压随高度的变化;
  • 周围温度 $T_{\mathrm{a}}$ 是均匀的,所有变换都是等温的。

B 部分 - 两段式气压管

(本部分为 C 部分分析提供背景)

C 部分 - 考克斯的计时装置

考克斯开发的真实机制是复杂的。我们研究以下描述的简化版本:

  • 一个圆柱形的底部水槽,包含水银浴;
  • 一个与 B 部分研究的相同的两段式气压管,仍然完全排空空气,浸入水银浴中;
  • 水槽和两段式管分别由一根缆绳悬挂。两根缆绳(假设为不可伸缩且质量可忽略)通过一个理想滑轮系统,最终连接到同一质量 $M$ 的两侧,该质量可以在水平表面上滑动;
  • 系统中包含的液态水银总体积为 $V_{\ell} = 5 \, \mathrm{L}$。

每个部分的高度、横截面和质量在表 2 中给出。质量 $M$ 的位置由其质心坐标 $x$ 表示。我们考虑水平支撑面和质量 $M$ 之间的固体摩擦,不区分静摩擦系数和动摩擦系数;滑动时该力的大小记为 $F_{\mathrm{s}}$。

两个挡块限制质量 $M$ 的位移,使得 $-X \leq x \leq X$(其中 $X > 0$)。假设 $X$ 的值保证:

  • 两段式管的底部永远不会触碰到水槽的底部,也不会脱离液体浴;
  • 水银柱的高度 $z_{\ell}$ 始终位于上部球泡中。
表 2. 模型系统的尺寸和符号
参考编号 名称 高度 横截面积 空质量
1 水槽 $H_{\mathrm{c}} = 30 \, \mathrm{cm}$ $S_{\mathrm{c}} = 210 \, \mathrm{cm}^{2}$ $m_{\mathrm{c}}$
2 气压管的管状部分 $H_{\mathrm{t}} = 80 \, \mathrm{cm}$ $S_{\mathrm{t}} = 5 \, \mathrm{cm}^{2}$ 气压管总质量:$m_{\mathrm{tb}}$
2' 气压管的球泡 $H_{\mathrm{b}} = 20 \, \mathrm{cm}$ $S_{\mathrm{b}} = 200 \, \mathrm{cm}^{2}$

系统与大气接触演化,大气压以振幅 $A = 5 \times 10^{2} \, \mathrm{Pa}$ 和周期 $\tau_{1} = 1$ 周波动。在起始时刻 $t = 0$,质量 $M$ 静止在 $x = 0$ 处,两根缆绳施加在质量 $M$ 两侧的张力平衡,此时 $P_{1}(0) = 0$。我们定义

$$\xi = \frac{S_{\mathrm{b}} + S_{\mathrm{c}} - S_{\mathrm{t}}}{S_{\mathrm{b}} S_{\mathrm{c}}} \frac{F_{\mathrm{s}}}{A} \simeq \frac{S_{\mathrm{b}} + S_{\mathrm{c}}}{S_{\mathrm{b}} S_{\mathrm{c}}} \frac{F_{\mathrm{s}}}{A} \qquad (3)$$

其中最后一个表达式使用了 $S_{\mathrm{t}} \ll S_{\mathrm{b}}, S_{\mathrm{c}}$(我们假设这在整个问题结束前都有效)。

(C.1) 确定阈值 $\xi^{\star}$,使得当 $\xi > \xi^{\star}$ 时,$M$ 无限期保持静止。

仅对于问题 (C.2),假设质量 $M$ 暂时被阻挡在 $x = X$ 处。

(C.2) 给出当 $P_{1} = 0$ 时,在此位置由两根缆绳的张力作用在质量 $M$ 上的总张力 $\vec{T} = T \vec{u_{x}}$ 的表达式,用 $\rho, g, X$ 和相关横截面表示。

当 $\xi < \xi^{\star}$ 时,从 $x = 0$ 和 $P_{1} = 0$ 重新开始,对于 $t \geq 0$ 可以观察到两种不同的行为。为了区分它们,我们需要引入另一个参数

$$\lambda = \frac{2 (S_{\mathrm{b}} - S_{\mathrm{t}})}{S_{\mathrm{b}}} \frac{\rho g X}{A} \simeq \frac{2 \rho g X}{A} \qquad (4)$$

(C.3) 完成答题卡上的表格,指出获得每种状态的条件。条件必须表示为关于 $\xi$ 和/或 $\lambda$ 的不等式。此外,绘制与已存在的 $P_{1}(t) / A$ 变化一致的 $x(t) / X$ 在 $t \in [0, 3 \tau_{1}]$ 的变化草图。不需要标注显著点的坐标。

在真实的考克斯计时装置中,机制提供的能量通过棘轮系统储存并用于提升配重,就像传统时钟一样。在这里研究的简化模型中,时钟回收的能量对应于水平表面对质量 $M$ 施加的摩擦力耗散的能量。从现在开始,我们假设系统的尺寸设计为在允许时钟回收能量的状态下工作。我们还假设建立了稳定状态。我们用 $W$ 表示在一个周期 $\tau_{1}$ 内由固体摩擦力耗散的能量,它可以仅用 $F_{\mathrm{s}}$ 和 $X$ 表示。

在其他条件相同的情况下,可以调整 $F_{\mathrm{s}}$ 和 $X$ 以最大化能量 $W$;我们用 $F_{\mathrm{s}}^{\star}$ 和 $X^{\star}$ 表示它们在最优情况下的各自值。

Question (C.4)

问题 (C.4):考虑 $S_{\mathrm{b}} \simeq S_{\mathrm{c}}$ 和 $S_{\mathrm{t}} \ll S_{\mathrm{b}}$,确定 (1) $F_{\mathrm{s}}^{\star}$ 和 (2) $X^{\star}$ 关于 $\rho, g, S_{\mathrm{c}}$ 和 $A$ 的表达式。(3) 表达相应的最大能量 $W^{\star}$,(4) 然后在 $A = 5 \times 10^{2} \mathrm{Pa}$ 时计算其以 $\mathrm{mJ}$ 为单位的数值。
P1-235B-A22B
1.0 分
答案
(1) $F_{\mathrm{s}}^{\star} = \dfrac{S_{\mathrm{c}} A}{2}$
(2) $X^{\star} = \dfrac{A}{4 \rho g}$
(3) $W^{\star} = \dfrac{S_{\mathrm{c}} A^{2}}{2 \rho g}$
(4) $W^{\star} \approx 19.8$ mJ
评分详情
给出摩擦功表达式 $W = 4 F_S X$ (0.2分)
给出约束条件 $F_s = S_c(A - 2\rho g X)$ (0.3分)
推导最优位移 $X^{\star} = \frac{A}{4\rho g}$ (0.1分)
推导最优摩擦力 $F_s^{\star} = \frac{A S_c}{2}$ (0.1分)
推导最优功 $W^{\star} = \frac{A^2 S_c}{2\rho g}$ (0.2分)
数值结果在 [19, 21] mJ 范围内 (0.1分)

To determine the optimal parameters for maximizing the energy dissipated by solid friction in Cox's timepiece, we analyze the system under the assumption that $S_b \approx S_c$ and $S_t \ll S_b, S_c$. The energy dissipated per period $\tau_1$ is given by:

$$W = 4 F_s X$$

This expression arises from the fact that the mass $M$ moves between $-X$ and $X$, covering a total distance of $4X$ per cycle. The constraint on the system comes from the pressure fluctuation $P_1(t)$ with amplitude $A$, which must be sufficient to overcome both the restoring force due to mercury displacement and the friction force.

(1) Optimal Friction Force $F_s^*$

The maximum force provided by atmospheric pressure fluctuations is $S_c A$, where $S_c$ is the cross-sectional area of the cistern. This force must balance the sum of the restoring force and the friction force at the stop position $x = X$:

$$S_c A = 2 S_c \rho g X + F_s$$

Solving for $F_s$:

$$F_s = S_c (A - 2 \rho g X)$$

Substituting into the energy expression $W = 4 F_s X$:

$$W = 4 S_c (A - 2 \rho g X) X$$

To maximize $W$, take the derivative with respect to $X$ and set it to zero:

$$\frac{dW}{dX} = 4 S_c (A - 4 \rho g X) = 0 \quad \Rightarrow \quad X^* = \frac{A}{4 \rho g}$$

Substitute back to find $F_s^*$:

$$F_s^* = S_c \left( A - 2 \rho g \cdot \frac{A}{4 \rho g} \right) = S_c \left( A - \frac{A}{2} \right) = \frac{S_c A}{2}$$

(2) Optimal Displacement $X^*$

As derived above:

$$X^* = \frac{A}{4 \rho g}$$

(3) Maximum Energy $W^*$

Using the expressions for $F_s^*$ and $X^*$:

$$W^* = 4 F_s^* X^* = 4 \cdot \frac{S_c A}{2} \cdot \frac{A}{4 \rho g} = \frac{S_c A^2}{2 \rho g}$$

(4) Numerical Value of $W^*$

Given: $S_c = 210 \, \text{cm}^2 = 0.021 \, \text{m}^2$, $A = 500 \, \text{Pa}$, $\rho = 13534 \, \text{kg/m}^3$, $g = 9.8 \, \text{m/s}^2$

$$W^* = \frac{0.021 \times (500)^2}{2 \times 13534 \times 9.8} = \frac{5250}{265266.4} \approx 0.01979 \, \text{J} = 19.79 \, \text{mJ}$$

Rounded to two significant figures: $W^* \approx 20 \, \text{mJ}$

Gemini-2.5-Pro
0.5 分
答案
(1) $F_{\mathrm{s}}^{\star} = \frac{A S_c}{4}$
(2) $X^{\star} = \frac{A}{2 \rho g}$
(3) $W^{\star} = \frac{A^2 S_c}{2 \rho g}$
(4) $W^{\star} \approx 19.7$ mJ
评分详情
给出摩擦功表达式 $W = 4 F_S X$ (0.2分)
未给出正确约束条件 (0分)
位移结果错误,应为 $\frac{A}{4\rho g}$ 而非 $\frac{A}{2\rho g}$ (0分)
摩擦力结果错误,应为 $\frac{A S_c}{2}$ 而非 $\frac{A S_c}{4}$ (0分)
推导最优功 $W^{\star} = \frac{A^2 S_c}{2\rho g}$ (0.2分)
数值结果在 [19, 21] mJ 范围内 (0.1分)

Answering this question requires a multi-step analysis of the simplified model of Cox's timepiece. The goal is to find the optimal friction force $F_s^{\star}$ and displacement limit $X^{\star}$ that maximize the energy $W$ dissipated by friction over one cycle of atmospheric pressure variation.

Step 1: Analyze the forces and the system's behavior

The core of the mechanism is the interplay between the atmospheric pressure $P_a(t)$, the positions of the cistern and the barometric tube, and the distribution of mercury between them. This results in a net force on the mass $M$.

The net force on mass $M$ from the cables is $F_M(x, t) = \frac{S_b S_c}{S_b+S_c} P_1(t) + \frac{\rho g S_b S_c}{S_b+S_c} x$

The system is bistable. The mass $M$ will be pushed towards one of the stops at $x=\pm X$. For continuous energy harvesting, the mass must switch between $-X$ and $X$ periodically.

The condition for the mass to start moving from a stop requires that the cable force overcomes the static friction $F_s$. Using the definitions of $\lambda$ and $\xi$:

$$\lambda \simeq \frac{2\rho g X}{A}, \quad \xi \simeq \frac{S_b+S_c}{S_b S_c} \frac{F_s}{A}$$

The condition for permanent oscillation is $\frac{\lambda}{2} + \xi < 1$.

Step 2: Formulate and solve the optimization problem

The energy dissipated by friction over one period $\tau_1$ is:

$$W = F_s \cdot (4X) = 4 F_s X$$

To maximize $W$, we operate at the boundary: $\frac{\lambda}{2} + \xi = 1$

Using $S_b \simeq S_c$, the constraint becomes:

$$\rho g X + \frac{2}{S_c} F_s = A$$

We need to maximize $F_s X$ subject to this linear constraint. Expressing $X$ in terms of $F_s$:

$$X = \frac{1}{\rho g} \left( A - \frac{2}{S_c} F_s \right)$$

The quantity to maximize is:

$$W(F_s) = 4 F_s X = \frac{4 F_s}{\rho g} \left( A - \frac{2}{S_c} F_s \right) = \frac{4}{\rho g} \left( A F_s - \frac{2}{S_c} F_s^2 \right)$$

Taking the derivative and setting it to zero:

$$\frac{dW}{dF_s} = \frac{4}{\rho g} \left( A - \frac{4}{S_c} F_s \right) = 0$$

This gives the optimal friction force:

$$F_s^{\star} = \frac{A S_c}{4}$$

And the corresponding optimal displacement:

$$X^{\star} = \frac{A}{2 \rho g}$$

Step 3: Calculate the maximum energy

$$W^{\star} = 4 F_s^{\star} X^{\star} = 4 \left( \frac{A S_c}{4} \right) \left( \frac{A}{2 \rho g} \right) = \frac{A^2 S_c}{2 \rho g}$$

Step 4: Numerical Calculation

Given: $A = 5 \times 10^2$ Pa = 500 Pa, $S_c = 210$ cm² = $2.10 \times 10^{-2}$ m², $g = 9.8$ m·s⁻², $\rho \approx 13600$ kg·m⁻³

$$W^{\star} = \frac{(500)^2 (2.10 \times 10^{-2})}{2 (13600) (9.8)} \approx 0.0197 \, \text{J} = 19.7 \, \text{mJ}$$

GPT-5
0.3 分
答案
(1) $F_{\mathrm{s}}^{\star} = A S_c/4$
(2) $X^{\star} = A/(4\rho g)$
(3) $W^{\star} = A^2 S_c/(4\rho g)$
(4) $W^{\star} \approx 9.9$ mJ
评分详情
给出摩擦功表达式 $W = 4 F_s X$ (0.2分)
未给出正确约束条件 (0分)
推导最优位移 $X^{\star} = \frac{A}{4\rho g}$ (0.1分)
摩擦力结果错误,应为 $\frac{A S_c}{2}$ 而非 $\frac{A S_c}{4}$ (0分)
功的表达式错误,应为 $\frac{A^2 S_c}{2\rho g}$ (0分)
数值结果不在正确范围 [19, 21] mJ (0分)

I will not provide my internal chain-of-thought. Below is a concise, step-by-step solution.

Over one period $\tau_1$ the mass travels from $-X$ to $+X$ and back, so the total sliding distance is $4X$. With Coulomb friction of magnitude $F_s$, the energy dissipated each period is:

$$W = 4 F_s X$$

The device works (mass shuttles between the two stops) if the atmospheric-pressure drive $A$ can overcome both the friction threshold and the hydrostatic restoring contribution when the mass is at a stop. Using the parameters defined in the statement:

$$\xi \simeq \frac{2}{S_c}\frac{F_s}{A}, \quad \lambda \simeq \frac{2\rho g X}{A}$$

The border of the working domain is $\xi + \lambda = 1$. To maximize $W = 4 F_s X$ for fixed $A$ under this linear constraint, the optimum occurs for $\xi = \lambda = 1/2$.

Hence:

$F_s^*$ from $\xi^* = 1/2$: $\frac{2}{S_c}\frac{F_s^*}{A} = \frac{1}{2} \Rightarrow F_s^* = \frac{A S_c}{4}$

$X^*$ from $\lambda^* = 1/2$: $\frac{2\rho g X^*}{A} = \frac{1}{2} \Rightarrow X^* = \frac{A}{4\rho g}$

Maximum dissipated energy per period:

$$W^* = 4 F_s^* X^* = 4 \times \frac{A S_c}{4} \times \frac{A}{4\rho g} = \frac{A^2 S_c}{4\rho g}$$

Numerical value with $A = 5.0 \times 10^2$ Pa, $S_c = 210$ cm² = $2.10 \times 10^{-2}$ m², $\rho \approx 13.6 \times 10^3$ kg·m⁻³, $g = 9.8$ m·s⁻²:

$$W^* \approx \frac{(5.0 \times 10^2)^2 \times 2.10 \times 10^{-2}}{4 \times 13.6 \times 10^3 \times 9.8} \approx 9.9 \times 10^{-3} \, \text{J} = 9.9 \, \text{mJ}$$

致谢

我们感谢开源社区的宝贵贡献。特别感谢:

我们还要感谢支持 P1 模型开发、相关数据集的开发工作的同事与合作者。

引用

@misc{p12025, title={P1: Mastering Physics Olympiads with Reinforcement Learning}, author={P1 Team}, year={2025}, url={https://prime-rl.github.io/P1/} }