关键词:大语言模型,结构信息提取,科学文本



论文题目:Structured information extraction from scientific text with large language models
论文期刊:Nature Communications
论文链接:https://www.nature.com/articles/s41467-024-45563-x

科学知识的海量累积使得研究者难以全面掌握过往的研究成果,尤其是在材料科学领域,相关信息散布在无数的学术论文中,包括文本、表格和图形等形式。此外,尽管机器学习模型在材料发现和设计流程中被越来越多地用作筛选步骤,但这种方法的有效性受到可用训练数据量的限制。近年来,自然语言处理(NLP)算法在材料科学文本结构化方面取得了显著进展,但如何准确提取命名实体之间的复杂关系仍是一个关键挑战。


最近美国劳伦斯·伯克利国家实验的团队在Nature Communications发表研究论文,通过精细调整GPT-3和Llama-2等大语言模型(LLMs),开发了一种新方法,用于同时提取科学文本中的命名实体及其关系。这种方法能够灵活处理包括列表多项信息在内的复杂相互关系,无需枚举所有可能的n元组关系或进行初步的命名实体识别。研究团队在三个联合命名实体识别和关系提取(NERRE)的材料信息提取任务上验证了该方法的有效性,展示了其在从科学文本中提取结构化知识方面的强大性能。该研究针对的是材料科学及相关交叉领域。


该研究提供了一种简单的方法来处理科学信息提取的复杂性,使得研究者可以利用大语言模型的强大能力,而无需深入了解其内部工作原理。研究发现,使用人机交互流程可以帮助减少收集完整训练集所需的时间。考虑到当前可用的 API 和接口(例如 GPT-3),该论文的方法是简单且可广泛访问的。随着大模型微调方法的进步和大模型代码库变得更加成熟,我们预计与 LLM-NERRE 兼容的可微调模型将同时变得强大、易于自我托管、可复现,并且处于研究人员的完全控制之下。


图1 用于文档级联合命名实体识别和关系提取任务的序列到序列方法概述



编译|刘培源

复杂系统视角下的科学学读书会



详情请见:
复杂系统视角下的科学学——系列线上读书会开放招募



推荐阅读
1. Nature速递:基于大语言模型的自动化学研究
2. AI何以涌现:复杂适应系统视角的ChatGPT和大语言模型
3. Nat. Human. Behav. 速递:利用大语言模型驱动和抑制人类语言网络
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
5. 龙年大运起,学习正当时!解锁集智全站内容,开启新年学习计划
6. 加入集智,一起复杂!



点击“阅读原文”,报名读书会