DeepGym
diff --git a/Collapse file
‎deepgym/README.md‎
Copy file name to clipboardExpand all lines: deepgym/README.md
+25Lines changed: 25 additions & 0 deletions
Display the source diff
Display the rich diff b/Collapse file
‎deepgym/README.md‎
Copy file name to clipboardExpand all lines: deepgym/README.md
+25Lines changed: 25 additions & 0 deletions
Display the source diff
Display the rich diff
diff --git a/Collapse file
‎deepgym/src/deepgym/integrations/__init__.py‎
Copy file name to clipboardExpand all lines: deepgym/src/deepgym/integrations/__init__.py
+1Lines changed: 1 addition & 0 deletions b/Collapse file
‎deepgym/src/deepgym/integrations/__init__.py‎
Copy file name to clipboardExpand all lines: deepgym/src/deepgym/integrations/__init__.py
+1Lines changed: 1 addition & 0 deletions
diff --git a/Collapse file
‎deepgym/src/deepgym/integrations/dapo.py‎
Copy file name to clipboard
+177Lines changed: 177 additions & 0 deletions b/Collapse file
‎deepgym/src/deepgym/integrations/dapo.py‎
Copy file name to clipboard
+177Lines changed: 177 additions & 0 deletions
diff --git a/Collapse file
‎deepgym/tests/test_integrations.py‎
Copy file name to clipboardExpand all lines: deepgym/tests/test_integrations.py
+55-1Lines changed: 55 additions & 1 deletion b/Collapse file
‎deepgym/tests/test_integrations.py‎
Copy file name to clipboardExpand all lines: deepgym/tests/test_integrations.py
+55-1Lines changed: 55 additions & 1 deletion
@@ -98,6 +98,31 @@ trainer = GRPOTrainer(model=model, reward_funcs=[reward_fn])
 trainer.train()
 ```
 
+### Drop into DAPO
+
+```python
+from deepgym.integrations.dapo import make_dapo_reward_fn
+
+reward_fn = make_dapo_reward_fn(env)
+scores = reward_fn(completions=['def solve(x): return x'])
+```
+
+For verl-style DAPO recipes, DeepGym also exposes thin helpers to generate a
+reward module and a minimal config snippet:
+
+```python
+from deepgym.integrations.dapo import (
+    generate_dapo_reward_module,
+    generate_dapo_verl_config,
+)
+
+reward_module = generate_dapo_reward_module('coin_change')
+config_yaml = generate_dapo_verl_config(
+    train_files='data/train.parquet',
+    reward_module_path='reward_module.py',
+)
+```
+
 ### Train on repo patches with SWE-bench Pro
 
 ```python
 
@@ -2,6 +2,7 @@
 
 Available integrations:
 - axolotl: Axolotl GRPO reward functions, PRM dataset generation, config helpers
+- dapo: Thin DAPO reward/config helpers for verl-style training recipes
 - trl: HuggingFace TRL GRPOTrainer reward functions
 - verl: ByteDance verl compute_score and batch reward functions
 - openrlhf: OpenRLHF reward server FastAPI router
 
@@ -0,0 +1,177 @@
+"""DAPO integration built on top of DeepGym's reward engine.
+
+DAPO is commonly run through ``verl`` recipes rather than a standalone trainer
+API. DeepGym keeps the integration thin: expose reward callbacks and helper
+config/module generators that fit naturally into an external DAPO training run.
+"""
+
+from __future__ import annotations
+
+import asyncio
+from collections.abc import Awaitable, Callable
+
+from deepgym.core import DeepGym
+from deepgym.models import Environment
+
+
+def make_dapo_reward_fn(
+    env: Environment,
+    dg: DeepGym | None = None,
+    max_parallel: int = 32,
+) -> Callable[..., list[float]]:
+    """Create a sync reward function for DAPO-style training loops.
+
+    The callable accepts decoded completions plus arbitrary per-sample metadata
+    and returns one scalar reward per completion.
+    """
+    _dg = dg or DeepGym(mode='auto')
+
+    def reward_fn(completions: list[str], **kwargs: object) -> list[float]:
+        if not completions:
+            return []
+        batch = _dg.run_batch(
+            env,
+            completions,
+            max_parallel=min(len(completions), max_parallel),
+            **kwargs,
+        )
+        return [result.score for result in batch.results]
+
+    return reward_fn
+
+
+def make_dapo_async_reward_fn(
+    env: Environment,
+    dg: DeepGym | None = None,
+    max_parallel: int = 32,
+) -> Callable[..., Awaitable[list[float]]]:
+    """Create an async reward function for DAPO-style training loops."""
+    _dg = dg or DeepGym(mode='auto')
+
+    async def reward_fn(completions: list[str], **kwargs: object) -> list[float]:
+        if not completions:
+            return []
+        loop = asyncio.get_running_loop()
+        batch = await loop.run_in_executor(
+            None,
+            lambda: _dg.run_batch(
+                env,
+                completions,
+                max_parallel=min(len(completions), max_parallel),
+                **kwargs,
+            ),
+        )
+        return [result.score for result in batch.results]
+
+    return reward_fn
+
+
+def make_dapo_shaped_reward_fn(
+    env: Environment,
+    dg: DeepGym | None = None,
+    *,
+    component: str | None = None,
+    max_parallel: int = 32,
+) -> Callable[..., list[float]]:
+    """Return a specific shaped reward component for each completion.
+
+    If ``component`` is ``None``, the aggregate DeepGym score is returned.
+    """
+    _dg = dg or DeepGym(mode='auto')
+
+    def reward_fn(completions: list[str], **kwargs: object) -> list[float]:
+        if not completions:
+            return []
+        batch = _dg.run_batch(
+            env,
+            completions,
+            max_parallel=min(len(completions), max_parallel),
+            **kwargs,
+        )
+        if component is None:
+            return [result.score for result in batch.results]
+        return [
+            (result.reward_components or {}).get(component, result.score)
+            for result in batch.results
+        ]
+
+    return reward_fn
+
+
+_DAPO_VERL_CONFIG_TEMPLATE = """\
+# verl DAPO config with DeepGym reward scoring
+# Generated by deepgym.integrations.dapo
+#
+# Usage:
+#   1. Write the generated reward module next to your training entrypoint
+#   2. Point verl's custom reward hook at that module
+
+algorithm:
+  adv_estimator: dapo
+
+data:
+  train_files: {train_files}
+  val_files: {val_files}
+  prompt_key: {prompt_key}
+  response_key: {response_key}
+
+custom_reward_function:
+  path: {reward_module_path}
+  name: {reward_fn_name}
+
+trainer:
+  default_local_dir: {output_dir}
+  total_epochs: {epochs}
+
+rollout:
+  n: {samples_per_prompt}
+
+logging:
+  project: {project_name}
+"""
+
+
+def generate_dapo_verl_config(
+    *,
+    train_files: str,
+    reward_module_path: str,
+    reward_fn_name: str = 'reward_fn',
+    output_dir: str = 'outputs/dapo',
+    val_files: str = '',
+    prompt_key: str = 'prompt',
+    response_key: str = 'response',
+    epochs: int = 1,
+    samples_per_prompt: int = 8,
+    project_name: str = 'deepgym-dapo',
+) -> str:
+    """Generate a minimal verl-flavored DAPO config snippet.
+
+    This is intentionally thin and focuses on the reward bridge fields DeepGym
+    can own directly.
+    """
+    return _DAPO_VERL_CONFIG_TEMPLATE.format(
+        train_files=train_files,
+        val_files=val_files or train_files,
+        prompt_key=prompt_key,
+        response_key=response_key,
+        reward_module_path=reward_module_path,
+        reward_fn_name=reward_fn_name,
+        output_dir=output_dir,
+        epochs=epochs,
+        samples_per_prompt=samples_per_prompt,
+        project_name=project_name,
+    )
+
+
+_DAPO_REWARD_MODULE_TEMPLATE = """\
+from deepgym import load_environment
+from deepgym.integrations.dapo import make_dapo_reward_fn
+
+env = load_environment({env_name!r})
+reward_fn = make_dapo_reward_fn(env)
+"""
+
+
+def generate_dapo_reward_module(env_name: str) -> str:
+    """Generate a tiny reward module for external DAPO/verl jobs."""
+    return _DAPO_REWARD_MODULE_TEMPLATE.format(env_name=env_name)
@@ -7,12 +7,19 @@
 from fastapi.testclient import TestClient
 
 from deepgym.core import DeepGym
+from deepgym.integrations.dapo import (
+    generate_dapo_reward_module,
+    generate_dapo_verl_config,
+    make_dapo_async_reward_fn,
+    make_dapo_reward_fn,
+    make_dapo_shaped_reward_fn,
+)
 from deepgym.integrations.openrlhf import (
     OpenRLHFRewardRequest,
     OpenRLHFRewardResponse,
     create_openrlhf_router,
 )
-from deepgym.integrations.reward import AsyncRewardFunction, RewardFunction
+from deepgym.integrations.reward import RewardFunction
 from deepgym.integrations.trl import make_trl_async_reward_fn, make_trl_reward_fn
 from deepgym.integrations.verl import make_verl_compute_score, make_verl_reward_fn
 from deepgym.models import Environment
@@ -95,6 +102,53 @@ def test_verl_reward_fn_with_responses_key(self, env: Environment, local_dg: Dee
         assert scores[0] >= 0.5
 
 
+class TestDAPOIntegration:
+    """Verify thin DAPO integration helpers."""
+
+    def test_make_dapo_reward_fn_returns_callable(self, env: Environment) -> None:
+        fn = make_dapo_reward_fn(env=env)
+        assert callable(fn)
+
+    def test_dapo_reward_fn_scores_good_solution(self, env: Environment, local_dg: DeepGym) -> None:
+        fn = make_dapo_reward_fn(env=env, dg=local_dg)
+        scores = fn(completions=[GOOD_SOLUTION])
+        assert len(scores) == 1
+        assert scores[0] >= 0.9
+
+    def test_make_dapo_async_reward_fn_returns_callable(self, env: Environment) -> None:
+        fn = make_dapo_async_reward_fn(env=env)
+        assert callable(fn)
+
+    def test_dapo_shaped_reward_fn_returns_component(
+        self,
+        local_dg: DeepGym,
+    ) -> None:
+        shaped_env = Environment(
+            task='Return anything',
+            verifier_code=(
+                'return {"score": 0.4, "passed": False, '
+                '"reward_components": {"correctness": 0.8, "style": 0.2}}\n'
+            ),
+        )
+        fn = make_dapo_shaped_reward_fn(env=shaped_env, dg=local_dg, component='correctness')
+        scores = fn(completions=['print("hi")\n'])
+        assert scores == [0.8]
+
+    def test_generate_dapo_verl_config_contains_expected_fields(self) -> None:
+        config = generate_dapo_verl_config(
+            train_files='data/train.parquet',
+            reward_module_path='reward_module.py',
+        )
+        assert 'adv_estimator: dapo' in config
+        assert 'custom_reward_function:' in config
+        assert 'reward_module.py' in config
+
+    def test_generate_dapo_reward_module_uses_dapo_reward_fn(self) -> None:
+        module_text = generate_dapo_reward_module('coin_change')
+        assert "load_environment('coin_change')" in module_text
+        assert 'make_dapo_reward_fn' in module_text
+
+
 class TestRewardFunction:
     """Verify the universal RewardFunction class."""