Rylan Schaeffer

Resume
Publications
Learning
Blog
Teaching
Jokes
Kernel Papers

Best-of-N Jailbreaking

John Hughes, Sara Price, Aengus Lynch, Rylan Schaeffer, Fazl Barez, Sanmi Koyejo, Henry Sleight, Erik Jones, Ethan Perez, Mrinank Sharma

arXiv preprint Under Review

December 2024

Language Models AI Safety Jailbreaking Inference-time Compute

arXiv

Abstract

Summary

Best-of-N sampling as a jailbreaking technique for large language models.