北京人工智能安全与治理实验室

北京人工智能安全与治理实验室是面向人工智能安全发展与治理的新型研发机构。实验室致力于构建系统化的安全与治理体系,为人工智能的创新和应用提供坚实的安全保障,引领人工智能安全与治理的新趋势。实验室与共建单位发布了“人工智能安全与治理公共服务平台”,平台可在人工智能伦理安全政策、安全风险监测、伦理安全评测方面提供服务。近期,实验室正与共建单位、合作机构共同打造人工智能伦理与安全评测体系、构建安全人工智能基础模型。实验室也将利用北京市丰富的学术资源和产业优势,推动跨学科合作,不断探索新的研究路径,解决人工智能伦理与安全领域中的紧迫迫切,布局长远议题。

news-image

北京人工智能安全与治理实验室揭牌成立

2024年9月3日,北京人工智能安全与治理实验室在中关村科技园门头沟园京西智谷揭牌成立。实验室揭牌仪式作为北京数据基础制度先行区门头沟片区揭牌仪式重点环节之一于门头沟京西智谷举行。北京市经信局、北京市委网信办、门头沟区、中关村发展集团、京能集团相关领导共同为实验室揭牌。
了解更多
观点与策略

AI安全进程

AI安全工作始于十多年前的学术论文和会议,近年来因安全风险和公开信而获得更多关注。目前,各国政府主导相关倡议,但政治变化对持续性构成挑战。为了长期成功,AI安全需要一个全球性、包容性和社区驱动的进程,以确保跨国家和时间的一致性、协调性和可扩展性。这一过程需将安全与AI治理、发展及社会效益相结合,并通过学术界、产业界、民间社会和政府间组织的支持,确保其稳定性和有效性。
了解更多

通过国际合作促进全球AI安全与治理能力建设

人工智能(AI)融合了多学科的见解,模仿自然智能,在推动社会和生态效益的同时也带来了风险。AI安全和治理旨在确保其在整个生命周期内的安全性、可靠性和可控性。目前以应对为主的风险管理需转向主动的安全框架。中国倡导通过政策、机构和全球合作实现稳健治理,并在联合国关于AI能力建设的决议中展现领导力。由联合国主导的全球包容性框架至关重要,以应对风险,确保AI助力可持续发展与人类共同未来。
了解更多

避免人工智能灾难性风险以实现人工智能健康发展

人工智能推动了全球可持续发展,但也带来了潜在风险,包括生存威胁。这些担忧包括来自人工通用智能(AGI)和超级智能的长期风险,它们可能超出人类的控制,以及当前AI系统中紧迫的短期风险,如错误、滥用和生成虚假信息。应对这些风险需要采取主动的安全解决方案、全球协作以及开发者、用户和政府的广泛意识。通过建立如全球人工智能安全委员会的机制,可以最大限度地降低风险,同时确保人工智能的稳健、伦理和有益发展,为全人类的共同未来提供保障。
了解更多
news-image

利用任务负载实现对大模型的可缩放越狱攻击

大语言模型(LLMs)容易受到越狱攻击,这类攻击可以绕过其安全机制。我们提出了一种可缩放的攻击方法,通过占用计算资源来预先绕过安全策略。我们的方法首先让LLM执行一个资源密集型任务 - 字符映射查找和解码过程,然后再呈现给LLM对应的目标指令,从而防止安全策略护栏的启动。该方法可以对攻击强度进行可缩放的强度控制。我们的研究结果表明,LLM的安全机制在资源限制下存在脆弱性和漏洞,强调了需要更为强大的防御策略。
了解更多
news-image

越狱解药: 通过稀疏表征调整解决大型语言模型运行时安全性和实用性的平衡

我们推出“越狱解药”,这是一种对大型语言模型进行实时安全控制的创新方法。与传统的防御不同,这个方法在模型求解时调整模型内部状态的稀疏集,从而在不增加计算负担的情况下实现安全和实用的平衡。通过轻微调整内部表示,这个方法可以有效防御越狱攻击,同时保持模型的性能。在九个大型语言模型和十种攻击方法上的验证表明,“越狱解药”提供了一个轻量稳定的解决方案,以便模型在更安全和性能更好的情况下部署。
了解更多
news-image

通过国际合作促进全球人工智能安全与治理能力建设

人工智能的设计、研发、部署与使用者、政策制定者等相关方不仅有义务以前沿人工智能赋能发展,更应承担预判、发现并解决潜在风险与安全隐患的责任,确保人工智能产品与服务的全周期、全流程安全、可靠、可控、可治理。
了解更多
news-image

压力提示词: 压力对大型语言模型和人类的表现有相似的影响吗?

“压力提示词”探讨了压力是否会对大型语言模型造成类似人类的影响。该研究表明,中等度的压力可以提高模型性能,而过高或过低的压力会损害性能,这与Yerkes-Dodson法则相匹配。压力提示词 可以明显地改变大型语言模型的内部状态,提供了对人工智能韧性和稳定性的新观念。
了解更多
news-image

重新思考针对人工智能存在性风险的红线

我们探讨了不同的人工智能存在性风险概念,将制定人工智能红线与应对人工智能影响的广泛努力相联系,构建了一个分析人工智能存在性风险直接影响的理论框架,并基于此提出了一系列典型的人工智能红线。通过审视人工智能存在性风险并制定这些红线,我们旨在促进对高级人工智能潜在危险的更深层次和系统性的理解,并强调主动风险管理的重要性。
了解更多
news-image

Aligner:通过由弱到强的矫正实现高效的对齐

北京大学的杨耀东团队开发了Aligner技术,这是一种与模型无关的、即插即用的模块,可以应用于任何强大的大型上游模型,以提升其在对齐任务上的表现。Aligner已被《MIT Tech Review》封面报道。目前,基于GPT-4 Turbo的Aligner-2B在Alpaca-Eval排行榜上位居第一。
了解更多

展示全部研究成果
人工智能安全与治理公共服务平台
基于自研AI安全治理动态监测引擎,北京人工智能安全与治理实验室在人工智能安全治理、风险和政策等方面建设了公共服务与监测平台