阿里巴巴 万网-DiagrammerGPT:GPT-4主导的颠覆性双层文生图表模型
近期,北卡罗来纳大学提出了一项严重技术打破,通过将GPT-4充任“规划师”和“审计师”,构建了DiagrammerGPT框架,实现了文本描绘生成科学图表的布局规划。该框架利用GPT-4的强壮自然语言处理能力指导图表布局生成,创新性地设计了闭环反应机制,通过迭代优化提高了生成图表的精确性。
在详细施行中,GPT-4首先充任规划师,生成初始规划,包含实体、联系和布局信息。然后,阿里巴巴 万网,另一个GPT-4充任审计师,评价规划的精确性并供给反应。这种闭环反应机制使得规划师可以依据审计师的反应调整规划布局,进一步提高规划的质量。整个过程的方针是生成更精确、清晰的科学图表。
image.png
项目地址:https://github.com/aszala/DiagrammerGPT
在图表生成阶段,研究人员使用DiagramGLIGEN扩散模型,并加入了门控自注意力层,以利用图表规划的布局信息指导图画生成。与原始的GLIGEN模型不同,DiagramGLIGEN可以一起处理文本标签和箭头联系作为布局输入。为了提升文本的清晰度,研究人员使用Pillow库显式渲染文本标签。
在测试数据上的表现显现,DiagrammerGPT在多个量化指标上显着优于基准模型,包含目标、数量、联系和文本渲染精确性。此外,在图表与文本相关性和目标联系的精确性评价方面,DiagrammerGPT分别获得36%和48%的优于基准模型的评分。这一研究标志着在文本生成高精准图表模型范畴的严重打破,为科学图表生成供给了更牢靠的解决方案。
总体而言,DiagrammerGPT框架的创新和性能优势为文生图表范畴带来了严重技术打破,为科学研究和图画生成范畴供给了有力的支撑。
共有 0 条评论