生成式写作

Search documents
OpenAI加码写作赛道?阿里最新大模型通用写作能力基准WritingBench,揭秘深度思考能否增进文学表达
量子位· 2025-03-20 10:56
通义智文团队 投稿 量子位 | 公众号 QbitAI 全面评估大模型 生成式写作能力 的基准来了! 就在最近,OpenAI CEO奥特曼还爆料他们已经训练了一款在创作领域表现卓越的新模型,并为其生成的故事所深深触动。 为此,阿里研究团队联合中国人民大学和上海交通大学共同开源了 WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含 1000+条评测数据,以期为生成式写作提供全面的评估。 团队进一步发现,凭借思维链技术和动态评估体系的加持, 基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1 ,为高效能 创作开辟了新路径。 WritingBench:最懂行业的写作评估基准 目前行业在评估大模型写作能力时,面临两大难题: 1、考生文思泉涌,考官身陷囹圄 更早之前,Deepseek-R1的文学创作能力也惊艳了整个科技圈,并由此引发了一场大模型创作的军备竞赛。 但一个根本性问题亟待解决—— 究竟什么才是真正的「高质量写作」? 主流基准通常使用标准化输入材料,导致真实场景中模型表现不尽如人意,例如结合财报数据的商业分析写作和招投标书撰写仍是大模型写作 的低分场景。 如下图所示,不 ...