DAPT/TAPT scaffolding

2026-03-29 16:12:19 -04:00 · 2026-03-29 16:12:19 -04:00 · a9a7d59603
commit a9a7d59603
parent 99762c8ab3
15 changed files with 402 additions and 5 deletions
--- a/.claude/settings.json
+++ b/.claude/settings.json
@ -0,0 +1,5 @@
+{
+  "enabledPlugins": {
+    "typescript-lsp@claude-plugins-official": false
+  }
+}
--- a/.gitignore
+++ b/.gitignore
@ -1,6 +1,7 @@
 # Data (too large for git)
 data/
 models/
+checkpoints/

 # Dependencies
 ts/node_modules/
--- a/docs/TECHNICAL-GUIDE.md
+++ b/docs/TECHNICAL-GUIDE.md
@ -211,7 +211,7 @@ const result = await generateObject({
 Continue MLM pre-training on SEC filing text to create "SEC-ModernBERT-large":
 - **Training corpus:** ~450M tokens from our own 9,000 cached 10-K filings (FY2023-2024), full filing text (not just Item 1C). These are the same filings we extracted Item 1C from — we already have the raw HTML cached locally and the cleaning pipeline built (`stripHtml()` in `fast-reparse.ts`).
 - **Why not PleIAs/SEC?** The PleIAs/SEC dataset (373K filings, ~18B tokens) goes back much further in time, but: (a) one pass would take weeks on a single 3090, (b) Item 1C didn't exist before FY2023 so pre-2023 filings lack the cybersecurity disclosure vocabulary that matters most for our task, (c) the SEC filing scaling laws paper (arXiv:2512.12384) shows the largest gains come in the first 200M tokens — our 450M from recent, relevant filings is already in the sweet spot.
- **Corpus preparation:** `dapt-corpus.ts` runs `stripHtml()` on cached filing HTML (full text, no section extraction) and outputs clean text as sharded JSONL. Same HTML cleaning that handles XBRL tags, entity decoding, page artifacts, inline element boundaries — just without the Item 1C section boundary step.
+- **Corpus preparation:** `bun run ts/scripts/dapt-corpus-prep.ts` runs `stripHtml()` (from `ts/src/extract/html-cleaner.ts`) on all cached filing HTML (full text, no section extraction) and outputs clean text as sharded JSONL to `data/dapt-corpus/`. Same HTML cleaning that handles XBRL tags, entity decoding, page artifacts, inline element boundaries — just without the Item 1C section boundary step.
 - **MLM objective:** 30% masking rate (ModernBERT convention)
 - **Learning rate:** ~5e-5 (search range: 1e-5 to 1e-4)
 - **Hardware (RTX 3090):** bf16, gradient checkpointing, seq_len=1024-2048, batch_size=2-4 + gradient accumulation to effective batch 16-32
@ -335,6 +335,58 @@ Decoder (Unsloth LoRA):
 - lora_alpha: [16, 32, 64]
 - learning_rate: [1e-4, 2e-4, 5e-4]

+### 3.8 Python Training Package (`python/`)
+
+Structured Python package for all training stages. All commands run from `python/` via `uv run main.py <command>`.
+
+**Package layout:**
+
+```
+python/
+├── main.py                         # CLI: uv run main.py {dapt,finetune,eval,decoder}
+├── pyproject.toml                  # Dependencies (torch, transformers, datasets, accelerate)
+├── configs/
+│   ├── dapt/
+│   │   ├── modernbert.yaml         # ModernBERT DAPT hyperparams
+│   │   └── neobert.yaml            # NeoBERT DAPT hyperparams
+│   ├── finetune/                   # Fine-tuning configs (per ablation)
+│   └── decoder/                    # Qwen LoRA config
+└── src/
+    ├── common/
+    │   └── config.py               # Typed dataclass configs, YAML loading
+    ├── data/
+    │   └── corpus.py               # DAPT corpus loading, tokenization, chunking
+    ├── dapt/
+    │   └── train.py                # DAPT + TAPT (same MLM objective, different data)
+    ├── finetune/
+    │   ├── model.py                # Dual-head classifier architecture
+    │   └── train.py                # Classification fine-tuning
+    ├── eval/
+    │   └── metrics.py              # Macro-F1, MCC, Krippendorff's Alpha
+    └── decoder/
+        └── train.py                # Qwen LoRA experiment (Unsloth)
+```
+
+**DAPT/TAPT usage:**
+
+```bash
+# DAPT: full 10-K filings → SEC-ModernBERT-large
+uv run main.py dapt --config configs/dapt/modernbert.yaml
+
+# TAPT: continue from DAPT checkpoint on Item 1C paragraphs → SEC-cyBERT-large
+uv run main.py dapt --config configs/dapt/modernbert.yaml \
+  --model-path ../checkpoints/dapt/modernbert-large/final \
+  --data-path ../data/paragraphs/paragraphs-clean.jsonl \
+  --output-dir ../checkpoints/tapt/modernbert-large \
+  --stage tapt
+```
+
+**Config design:** YAML files define all hyperparameters (reproducible, diffable). CLI flags override key fields (`--model-path`, `--data-path`, `--output-dir`, `--stage`) for TAPT or experimentation without duplicating config files.
+
+**Corpus preparation (prerequisite):** Run `bun run ts/scripts/dapt-corpus-prep.ts` from repo root to generate `data/dapt-corpus/` shards from cached HTML. This reuses the same `stripHtml()` from `ts/src/extract/html-cleaner.ts` that powers paragraph extraction.
+
+**Checkpoints:** Saved to `checkpoints/` (gitignored). Each stage writes to `{output_dir}/final/` with the model and tokenizer.
+
 ---

 ## 4. Evaluation & Validation
--- a/python/configs/dapt/modernbert.yaml
+++ b/python/configs/dapt/modernbert.yaml
@ -0,0 +1,29 @@
+stage: dapt
+
+model:
+  name_or_path: answerdotai/ModernBERT-large
+  trust_remote_code: false
+
+data:
+  corpus_path: ../data/dapt-corpus
+  text_field: text
+  max_seq_length: 2048
+  validation_split: 0.02
+
+training:
+  output_dir: ../checkpoints/dapt/modernbert-large
+  learning_rate: 5.0e-5
+  mlm_probability: 0.30
+  num_train_epochs: 1
+  per_device_train_batch_size: 4
+  gradient_accumulation_steps: 8  # effective batch = 32
+  warmup_ratio: 0.05
+  weight_decay: 0.01
+  bf16: true
+  gradient_checkpointing: true
+  logging_steps: 50
+  save_steps: 1000
+  eval_steps: 1000
+  save_total_limit: 3
+  dataloader_num_workers: 4
+  seed: 42
--- a/python/configs/dapt/neobert.yaml
+++ b/python/configs/dapt/neobert.yaml
@ -0,0 +1,29 @@
+stage: dapt
+
+model:
+  name_or_path: chandar-lab/NeoBERT
+  trust_remote_code: true
+
+data:
+  corpus_path: ../data/dapt-corpus
+  text_field: text
+  max_seq_length: 2048  # NeoBERT supports up to 4096
+  validation_split: 0.02
+
+training:
+  output_dir: ../checkpoints/dapt/neobert
+  learning_rate: 5.0e-5
+  mlm_probability: 0.20  # NeoBERT was pre-trained with 20% masking
+  num_train_epochs: 1
+  per_device_train_batch_size: 6  # smaller model, can fit more per batch
+  gradient_accumulation_steps: 5  # effective batch = 30
+  warmup_ratio: 0.05
+  weight_decay: 0.01
+  bf16: true
+  gradient_checkpointing: true
+  logging_steps: 50
+  save_steps: 1000
+  eval_steps: 1000
+  save_total_limit: 3
+  dataloader_num_workers: 4
+  seed: 42
--- a/python/main.py
+++ b/python/main.py
@ -1,5 +1,68 @@
-def main():
-    print("Hello from sec-cybert-train!")
+"""SEC-cyBERT training CLI.
+
+Usage:
+    uv run main.py dapt --config configs/dapt/modernbert.yaml
+    uv run main.py dapt --config configs/dapt/modernbert.yaml \\
+        --model-path ../checkpoints/dapt/modernbert-large/final \\
+        --data-path ../data/paragraphs/paragraphs-clean.jsonl \\
+        --output-dir ../checkpoints/tapt/modernbert-large \\
+        --stage tapt
+"""
+
+import argparse
+import sys
+
+
+def cmd_dapt(args: argparse.Namespace) -> None:
+    from src.common.config import DAPTConfig
+    from src.dapt.train import train
+
+    config = DAPTConfig.from_yaml(args.config)
+    config.apply_overrides(
+        model_path=args.model_path,
+        data_path=args.data_path,
+        output_dir=args.output_dir,
+        stage=args.stage,
+    )
+    train(config)
+
+
+def main() -> None:
+    parser = argparse.ArgumentParser(
+        description="SEC-cyBERT training pipeline",
+        formatter_class=argparse.RawDescriptionHelpFormatter,
+    )
+    sub = parser.add_subparsers(dest="command", required=True)
+
+    # ── dapt / tapt ──
+    dapt = sub.add_parser(
+        "dapt",
+        help="Run DAPT or TAPT pre-training (masked language modeling)",
+    )
+    dapt.add_argument("--config", required=True, help="Path to YAML config file")
+    dapt.add_argument("--model-path", help="Override model name or checkpoint path")
+    dapt.add_argument("--data-path", help="Override corpus path (file or directory)")
+    dapt.add_argument("--output-dir", help="Override output directory")
+    dapt.add_argument("--stage", choices=["dapt", "tapt"], help="Override stage label")
+    dapt.set_defaults(func=cmd_dapt)
+
+    # ── finetune (placeholder) ──
+    ft = sub.add_parser("finetune", help="Fine-tune classifier (dual-head)")
+    ft.add_argument("--config", required=True, help="Path to YAML config file")
+    ft.set_defaults(func=lambda args: print("Fine-tuning not yet implemented."))
+
+    # ── eval (placeholder) ──
+    ev = sub.add_parser("eval", help="Evaluate a trained model")
+    ev.add_argument("--config", required=True, help="Path to YAML config file")
+    ev.set_defaults(func=lambda args: print("Evaluation not yet implemented."))
+
+    # ── decoder (placeholder) ──
+    dec = sub.add_parser("decoder", help="Decoder experiment (Qwen LoRA)")
+    dec.add_argument("--config", required=True, help="Path to YAML config file")
+    dec.set_defaults(func=lambda args: print("Decoder experiment not yet implemented."))
+
+    args = parser.parse_args()
+    args.func(args)


 if __name__ == "__main__":
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@ -1,7 +1,20 @@
 [project]
 name = "sec-cybert-train"
 version = "0.1.0"
-description = "Add your description here"
+description = "SEC-cyBERT training pipeline: DAPT, TAPT, fine-tuning, and evaluation"
 readme = "README.md"
 requires-python = ">=3.13"
-dependencies = []
+dependencies = [
+    "torch",
+    "transformers",
+    "datasets",
+    "accelerate",
+    "pyyaml",
+]
+
+[project.optional-dependencies]
+flash = ["flash-attn"]
+decoder = ["unsloth"]
+
+[project.scripts]
+sec-cybert = "main:main"
--- a/python/src/init.py
+++ b/python/src/init.py
--- a/python/src/common/init.py
+++ b/python/src/common/init.py
--- a/python/src/common/config.py
+++ b/python/src/common/config.py
@ -0,0 +1,87 @@
+"""Typed configuration for all training stages, loaded from YAML."""
+
+from dataclasses import dataclass, field, fields
+from pathlib import Path
+
+import yaml
+
+
+@dataclass
+class ModelConfig:
+    """Which pretrained model to load."""
+
+    name_or_path: str
+    tokenizer: str | None = None  # defaults to name_or_path if None
+    trust_remote_code: bool = False
+
+
+@dataclass
+class DAPTDataConfig:
+    """Data paths and preprocessing for DAPT/TAPT."""
+
+    corpus_path: str  # directory of JSONL shards or single JSONL file
+    text_field: str = "text"
+    max_seq_length: int = 2048
+    validation_split: float = 0.02
+
+
+@dataclass
+class TrainingConfig:
+    """HuggingFace Trainer arguments."""
+
+    output_dir: str
+    learning_rate: float = 5e-5
+    mlm_probability: float = 0.30
+    num_train_epochs: int = 1
+    per_device_train_batch_size: int = 4
+    gradient_accumulation_steps: int = 8
+    warmup_ratio: float = 0.05
+    weight_decay: float = 0.01
+    bf16: bool = True
+    gradient_checkpointing: bool = True
+    logging_steps: int = 50
+    save_steps: int = 1000
+    eval_steps: int = 1000
+    save_total_limit: int = 3
+    dataloader_num_workers: int = 4
+    seed: int = 42
+    resume_from_checkpoint: str | None = None
+
+
+@dataclass
+class DAPTConfig:
+    """Full configuration for a DAPT or TAPT run."""
+
+    model: ModelConfig
+    data: DAPTDataConfig
+    training: TrainingConfig
+    stage: str = "dapt"  # "dapt" or "tapt" — informational label
+
+    @classmethod
+    def from_yaml(cls, path: str | Path) -> "DAPTConfig":
+        with open(path) as f:
+            raw = yaml.safe_load(f)
+        return cls(
+            model=ModelConfig(**raw["model"]),
+            data=DAPTDataConfig(**raw["data"]),
+            training=TrainingConfig(**raw["training"]),
+            stage=raw.get("stage", "dapt"),
+        )
+
+    def apply_overrides(
+        self,
+        *,
+        model_path: str | None = None,
+        data_path: str | None = None,
+        output_dir: str | None = None,
+        stage: str | None = None,
+    ) -> None:
+        """Apply CLI overrides on top of YAML config."""
+        if model_path is not None:
+            self.model.name_or_path = model_path
+        if data_path is not None:
+            self.data.corpus_path = data_path
+        if output_dir is not None:
+            self.training.output_dir = output_dir
+        if stage is not None:
+            self.stage = stage
--- a/python/src/dapt/init.py
+++ b/python/src/dapt/init.py
--- a/python/src/dapt/train.py
+++ b/python/src/dapt/train.py
@ -0,0 +1,118 @@
+"""DAPT and TAPT training via HuggingFace Trainer.
+
+Both stages use the same masked language modeling objective — the only
+difference is the corpus (full filings for DAPT, Item 1C paragraphs for TAPT)
+and the starting checkpoint (base model for DAPT, DAPT checkpoint for TAPT).
+"""
+
+from pathlib import Path
+
+from transformers import (
+    AutoModelForMaskedLM,
+    AutoTokenizer,
+    DataCollatorForLanguageModeling,
+    Trainer,
+    TrainingArguments,
+)
+
+from ..common.config import DAPTConfig
+from ..data.corpus import load_corpus, tokenize_and_chunk
+
+
+def train(config: DAPTConfig) -> None:
+    """Run DAPT or TAPT training from a config."""
+    print(f"\n{'='*60}")
+    print(f"  SEC-cyBERT {config.stage.upper()} Training")
+    print(f"  Model:  {config.model.name_or_path}")
+    print(f"  Data:   {config.data.corpus_path}")
+    print(f"  Output: {config.training.output_dir}")
+    print(f"{'='*60}\n")
+
+    # Load tokenizer
+    tokenizer_name = config.model.tokenizer or config.model.name_or_path
+    tokenizer = AutoTokenizer.from_pretrained(
+        tokenizer_name,
+        trust_remote_code=config.model.trust_remote_code,
+    )
+
+    # Load model
+    model = AutoModelForMaskedLM.from_pretrained(
+        config.model.name_or_path,
+        trust_remote_code=config.model.trust_remote_code,
+    )
+    print(f"  Model parameters: {model.num_parameters() / 1e6:.0f}M")
+
+    # Load and prepare data
+    print(f"  Loading corpus from {config.data.corpus_path}...")
+    dataset = load_corpus(config.data.corpus_path, config.data.text_field)
+    print(f"  Raw documents: {len(dataset):,}")
+
+    print(f"  Tokenizing and chunking to {config.data.max_seq_length} tokens...")
+    chunked = tokenize_and_chunk(
+        dataset,
+        tokenizer,
+        text_field=config.data.text_field,
+        max_seq_length=config.data.max_seq_length,
+    )
+    print(f"  Training sequences: {len(chunked):,}")
+
+    # Train/val split
+    split = chunked.train_test_split(
+        test_size=config.data.validation_split,
+        seed=config.training.seed,
+    )
+    print(f"  Train: {len(split['train']):,} | Val: {len(split['test']):,}\n")
+
+    # Data collator — handles dynamic masking each epoch
+    collator = DataCollatorForLanguageModeling(
+        tokenizer=tokenizer,
+        mlm=True,
+        mlm_probability=config.training.mlm_probability,
+    )
+
+    # Training arguments
+    output_dir = Path(config.training.output_dir)
+    args = TrainingArguments(
+        output_dir=str(output_dir),
+        learning_rate=config.training.learning_rate,
+        num_train_epochs=config.training.num_train_epochs,
+        per_device_train_batch_size=config.training.per_device_train_batch_size,
+        gradient_accumulation_steps=config.training.gradient_accumulation_steps,
+        warmup_ratio=config.training.warmup_ratio,
+        weight_decay=config.training.weight_decay,
+        bf16=config.training.bf16,
+        gradient_checkpointing=config.training.gradient_checkpointing,
+        logging_steps=config.training.logging_steps,
+        save_steps=config.training.save_steps,
+        eval_strategy="steps",
+        eval_steps=config.training.eval_steps,
+        save_total_limit=config.training.save_total_limit,
+        dataloader_num_workers=config.training.dataloader_num_workers,
+        seed=config.training.seed,
+        report_to="none",
+        load_best_model_at_end=True,
+        metric_for_best_model="eval_loss",
+    )
+
+    trainer = Trainer(
+        model=model,
+        args=args,
+        train_dataset=split["train"],
+        eval_dataset=split["test"],
+        data_collator=collator,
+    )
+
+    # Train (with optional checkpoint resume)
+    trainer.train(resume_from_checkpoint=config.training.resume_from_checkpoint)
+
+    # Save final model + tokenizer
+    final_dir = output_dir / "final"
+    print(f"\n  Saving final model to {final_dir}...")
+    trainer.save_model(str(final_dir))
+    tokenizer.save_pretrained(str(final_dir))
+
+    # Log final eval
+    metrics = trainer.evaluate()
+    print(f"\n  Final eval loss: {metrics['eval_loss']:.4f}")
+    print(f"  Final perplexity: {2 ** metrics['eval_loss']:.2f}")
+    print(f"\n  {config.stage.upper()} training complete.")
--- a/python/src/decoder/init.py
+++ b/python/src/decoder/init.py
--- a/python/src/eval/init.py
+++ b/python/src/eval/init.py
--- a/python/src/finetune/init.py
+++ b/python/src/finetune/init.py