Skip to content

tested environment #4

Description

@aiscool007

tested environment

  • 模型:VibeThinker-1.5B(HuggingFace 版本,bf16 精度)
  • 硬件:RTX 4090 24 GB / Driver 535 / CUDA 12.1
  • 推理框架:transformers 4.46 + vLLM 0.6.1(temperature 0.3 – 0.6)

任务尝试

  1. 生成一份「微积分教学动画网页」单文件 HTML(≤400 行,纯 CSS/JS,无外部库)。
  2. 要求包含链式思考叙述 + 3 组可交互动画(导数、积分、瞬时速度)。

观察到的问题

  1. 长链式思维 <think> 极易陷入无限重复(token >200 仍无法跳出),导致 0 行代码输出。
  2. 即使显式指令“Stop thinking, output only final HTML”,仍多次卡在 but but we we … 类复读,需人工强制中断。
  3. Pass@1 实用度 ≈ 0;连续 10 次采样全部失败,无法得到可运行文件。
  4. 同样提示词换 Claude-3.5-Sonnet / DeepSeek-Coder-V2 可一次生成可用代码,侧面排除提示词设计问题。

建议

  • 建议在 repo 文档里明确适用边界:VibeThinker 当前擅长短链数学/代码解题(AIME、LiveCodeBench),不擅长长格式、单文件多媒体网页等长链式生成任务。
  • 可考虑放出「截断思维链」或「思维链最大长度」超参,方便用户强制提前结束推理进入生成。
  • 若后续版本仍保持 1.5 B,可在 RL 阶段增加「长格式生成不掉线」数据混合,或提供 7 B/14 B 版本供多媒体/文档场景使用。

正面评价

  • 小模型在数学、算法场景确实惊艳,性价比无敌;只是希望社区提前知道「能力边界」,减少试错成本。

以上反馈供作者们参考,感谢开源!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions