Removing old patches

Removing old files
Updating with trainer config pieces
2026-04-28 23:11:37 +08:00 · 2026-03-30 10:06:08 -07:00 · 2026-03-30 09:58:05 -07:00 · 2026-03-30 09:46:24 -07:00 · 2026-03-30 09:46:24 -07:00 · 2026-03-30 09:46:24 -07:00
6 changed files with 1235 additions and 2 deletions
--- a/environments/init.py
+++ b/environments/init.py
@@ -13,6 +13,7 @@ Core layers:
 Concrete environments:
    - terminal_test_env/: Simple file-creation tasks for testing the stack
    - hermes_swe_env/: SWE-bench style tasks with Modal sandboxes
    - endless_terminals/: Terminal tasks from HuggingFace dataset with Apptainer containers
 Benchmarks (eval-only):
    - benchmarks/terminalbench_2/: Terminal-Bench 2.0 evaluation
--- a/environments/endless_terminals/init.py
+++ b/environments/endless_terminals/init.py
@@ -0,0 +1,5 @@
 """Endless Terminals Environment - Terminal task training from HuggingFace dataset."""
 from .endless_terminals_env import EndlessTerminalsEnv, EndlessTerminalsEnvConfig
 __all__ = ["EndlessTerminalsEnv", "EndlessTerminalsEnvConfig"]
--- a/environments/endless_terminals/endless_terminals_env.py
+++ b/environments/endless_terminals/endless_terminals_env.py
--- a/environments/endless_terminals/tinker_qwen.yaml
+++ b/environments/endless_terminals/tinker_qwen.yaml
@@ -0,0 +1,91 @@
 # Endless Terminals - Qwen3-4B-Instruct-2507
 # Single config for both trainer (launch_training.py) and env (endless_terminals_env.py serve)
 #
 # Usage:
 #   Terminal 1: run-api
 #   Terminal 2: cd tinker-atropos && python launch_training.py --config ../environments/endless_terminals/tinker_qwen.yaml
 #   Terminal 3: python environments/endless_terminals/endless_terminals_env.py serve --config environments/endless_terminals/tinker_qwen.yaml
 env:
  # Toolsets
  enabled_toolsets: ["terminal", "file"]
  # Model / tokenizer
  tokenizer_name: "Qwen/Qwen3-4B-Instruct-2507"
  # Agent configuration
  max_agent_turns: 16
  max_token_length: 2048
  agent_temperature: 0.6
  extra_body:
    chat_template_kwargs:
      enable_thinking: false
  tool_call_parser: "hermes"
  # Terminal backend
  terminal_backend: "docker"
  # Dataset settings
  use_dataset: true
  dataset_name: "obiwan96/endless-terminals"
  dataset_split: "train"
  dataset_cache_dir: "~/.cache/huggingface/datasets"
  tasks_base_dir: "/Users/samherring/Desktop/Projects/Hermes-Agent/endless-terminals"
  # Test execution
  test_timeout_s: 180
  default_docker_image: "ubuntu:22.04"
  max_concurrent_containers: 16
  # Training configuration
  group_size: 16
  batch_size: 64          # 4 groups × 16 rollouts per step
  total_steps: 500
  steps_per_eval: 5
  min_items_sent_before_logging: 1
  ensure_scores_are_not_same: true
  max_num_workers: 2048
  worker_timeout: 3600
  inference_weight: 1.0
  eval_limit_ratio: 0.1
  rollout_server_url: "http://localhost:8000"
  # Evaluation configuration
  num_eval_tasks: 20
  eval_split_ratio: 0.1
  # Logging
  use_wandb: true
  wandb_name: "endless-terminals-qwen3-4b"
  # System prompt
  system_prompt: >
    You are a skilled Linux system administrator and programmer.
    You have access to a terminal and file tools to complete system administration
    and programming tasks. Use the tools effectively to solve the given task,
    and verify your solution works correctly before finishing.
    Keep each command short and focused — break complex tasks into multiple steps
    rather than writing long one-liners.
 tinker:
  lora_rank: 32
  learning_rate: 0.0000005
  max_token_trainer_length: 32768
  checkpoint_dir: "./temp/"
  save_checkpoint_interval: 50
  wandb_project: "endless-terminals"
  wandb_group: null
  wandb_run_name: "qwen3-4b"
  tool_call_parser: "hermes"
 openai:
  - model_name: "Qwen/Qwen3-4B-Instruct-2507"
    base_url: "http://localhost:8001/v1"
    api_key: "x"
    weight: 1.0
    num_requests_for_eval: 64
    timeout: 600
    server_type: "sglang"
 slurm: false
 testing: false
--- a/environments/hermes_base_env.py
+++ b/environments/hermes_base_env.py
@@ -298,7 +298,6 @@ class HermesAgentBaseEnv(BaseEnv):
            return False
        server = self.server.servers[0]
        # If the server is an OpenAI server (not VLLM/SGLang), use direct mode
        from atroposlib.envs.server_handling.openai_server import OpenAIServer
        return not isinstance(server, OpenAIServer)
--- a/environments/tool_call_parsers/hermes_parser.py
+++ b/environments/tool_call_parsers/hermes_parser.py
@@ -48,7 +48,13 @@ class HermesToolCallParser(ToolCallParser):
                if not raw_json.strip():
                    continue
                try:
                    tc_data = json.loads(raw_json)
                except json.JSONDecodeError:
                    # Fix invalid backslash escapes from shell commands in JSON strings
                    # e.g. \s \w \d \n (unescaped) → \\s \\w \\d \\n
                    fixed = re.sub(r'\\([^"\\/bfnrtu0-9\n])', r'\\\\\1', raw_json)
                    tc_data = json.loads(fixed)
                tool_calls.append(
                    ChatCompletionMessageToolCall(
                        id=f"call_{uuid.uuid4().hex[:8]}",
Author	SHA1	Message	Date
Sam Herring	e3123be445	Removing old patches	2026-03-30 10:06:08 -07:00
Sam Herring	e46d5b2c13	Removing old files	2026-03-30 09:58:05 -07:00
Sam Herring	34cc666105	Updating with trainer config pieces	2026-03-30 09:46:24 -07:00
Sam Herring	d6832260f9	Fixing eval steps to be a set number of tasks	2026-03-30 09:46:24 -07:00
Sam Herring	d2652e980f	Adding random jitter for agent temp to add variance into rollouts	2026-03-30 09:46:24 -07:00
Sam Herring	89cea9fd2d	Test basic Atropos trainer	2026-03-30 09:46:24 -07:00
Sam Herring	143e72c145	Updating endless terminals env with silenced warnings	2026-03-30 09:46:24 -07:00
Sam Herring	51305b3f3d	Tool call changes	2026-03-30 09:46:24 -07:00
Sam Herring	570e52b342	Monkey patching chat template kwargs	2026-03-30 09:46:24 -07:00
Sam Herring	d6e874491d	Env changes for tool use	2026-03-30 09:46:24 -07:00
Sam Herring	dd3812dffe	Adding tool call parser default	2026-03-30 09:46:24 -07:00
Sam Herring	6e17630bac	Eval splits for holdout sets	2026-03-30 09:46:24 -07:00
Sam Herring	53b710b13f	Changing return type to be ScoredDataGroup to account for multiple trajectories	2026-03-30 09:46:24 -07:00
Sam Herring	5b1e8059cb	Added task sppecific metris and evals	2026-03-30 09:46:24 -07:00
Sam Herring	ff16a33cdd	Wandb changes	2026-03-30 09:46:24 -07:00
Sam Herring	7cfb9eb1f6	Updating config	2026-03-30 09:46:24 -07:00
Sam Herring	c7b15f8ce1	Adding config init method	2026-03-30 09:46:24 -07:00
Sam Herring	7602c462ee	Updating path vars and dataset loading	2026-03-30 09:46:24 -07:00
Sam Herring	e38c24363c	Updating to use hermes-agent backend and parse container definition out of provided .sif files	2026-03-30 09:46:24 -07:00
Sam Herring	d768b244a5	Adding endless terminal environment after rebase:	2026-03-30 09:46:24 -07:00