Jacob Pfau

@jacob_pfau

Alignment at UKAISI and PhD student at NYU

London

jacobpfau.com

Joined June 2019

770Posts 2KFollowers 1KFollowing

You might like

@EvanHub

@dfrsrchtwts

@ajeya_cotra

@EthanJPerez

@rohinmshah

@ohlennart

@StephenLCasper

@ARGleave

@Turn_Trout

@MariusHobbhahn

@AndrewCritchPhD

@mirandahzhang

@dpaleka

@laurolangosco

@ryan_kidd44

Jacob Pfau reposted

Cas (Stephen Casper)

@StephenLCasper

Aug 12

🧵 New paper from @AISecurityInst x @AiEleuther that I led with Kyle O’Brien: Open-weight LLM safety is both important & neglected. But we show that filtering dual-use knowledge from pre-training data improves tamper resistance *>10x* over post-training baselines.

StephenLCasper's tweet image. 🧵 New paper from @AISecurityInst x @AiEleuther that I led with Kyle O’Brien:

Open-weight LLM safety is both important &amp; neglected. But we show that filtering dual-use knowledge from pre-training data improves tamper resistance *&gt;10x* over post-training baselines.

Jacob Pfau reposted

Geoffrey Irving

@geoffreyirving

Jul 30

I am very excited that AISI is announcing over £15M in funding for AI alignment and control, in partnership with other governments, industry, VCs, and philanthropists! Here is a 🧵 about why it is important to bring more independent ideas and expertise into this space.

AI Security Institute

@AISecurityInst

Jul 30

📢Introducing the Alignment Project: A new fund for research on urgent challenges in AI alignment and control, backed by over £15 million. ▶️ Up to £1 million per project ▶️ Compute access, venture capital investment, and expert support Learn more and apply ⬇️

Jacob Pfau reposted

Geoffrey Irving

@geoffreyirving

Jun 26

Short background note about relativisation in debate protocols: if we want to model AI training protocols, we need results that hold even if our source of truth (humans for instance) is a black box that can't be introspected. 🧵

geoffreyirving's tweet image. Short background note about relativisation in debate protocols: if we want to model AI training protocols, we need results that hold even if our source of truth (humans for instance) is a black box that can't be introspected. 🧵

Peter Wildeford🇺🇸🚀

@peterwildeford

Julian

@mealreplacer

Stefan Schubert

@StefanFSchubert

Matthew Barnett

@MatthewJBar

Sam Bowman

@sleepinyourhat

EigenGender

@EigenGender

Amanda Askell

@AmandaAskell

davidad 🎇

@davidad

roon

@tszzl

Riley Goodside

@goodside

Frances Lorenz

@frances__lorenz

David Krueger

@DavidSKrueger

Robert Long

@rgblong

Miles Brundage

@Miles_Brundage

Michaël Trazzi

@MichaelTrazzi

Jacques

@JacquesThibs

Marius Hobbhahn

@MariusHobbhahn

Jonathan Mannhart 🔎🔸

@JMannhart

david rein

@idavidrein

Ben Hayum

@BenHayum

sxb

@sxbfilms

Kia

@kiaashour

Ray Liao

@rayruizhiliao

Carrie

@walls_carrie20

AlexB

@MrAlexKidd

Bala Akshay

@TheGangireddy

Yegon

@miknogey

James Aung

@jjamesaung

Arush Tagade

@atagade19

yulong

@_yulonglin

Jamie Bernardi

@The_JBernardi

Lilly Berry

@LillyBerry79444

Nadav Timor

@NadavTimor

Jane

@VanRodrigues14

divyasshree

@divyasshree_

Drew Ponder

@drew_ponder

Aron Vallinder

@aronvallinder

Andy Han

@c7ssyj4cp9

Alice in Chains in Winterland

@CPalmerEldritch

Emil Ryd

@emilaryd

sam joshua

@SAM_JOSHUA_S

Jannik Brinkmann

@jannikbrinkmann

Aashish Reddy

@_AashishReddy

Lionel Levine

@lionellevine

Avi

@siroctny3413154

Avyay M C

@Avyay_M_C

Alex J Best

@AlexJBest

Ryan Kidd

@ryan_kidd44

云创兽Ai

@Vajeat562

kingsly

@kingsly164172

Stella jeff

@SJeff52102

Sharmake Farah (sharmake.bsky.social)

@SharmakeFarah14

Bri

@TheElderZosima

Jenny Qu

@GuanniQu

eigen moomin

@eigen_moomin

Inverse Gary Marcus ⏪

@InverseMarcus

Ubleoova

@Ubleoova1814

Mojmir Stehlik

@mojmir_stehlik

Amritanshu

@Will_Hackspeare

DaftoPunko

@dafto_punko

Ollie Perrée

@OPerree

Jorge Perez

@2019_jorgeperez

Nils Nielsen

@NilsNielsen10

Dungers

@Dungers71

_skaface_

@_skaface_

John Newsom

@jnewsom98

Arthur sungapore

@ASingapore2020

Ezio Wang

@Ezio21084936435

Hayden Field

@haydenfield

Eliezer Yudkowsky ⏹️

@ESYudkowsky

Qualy the lightbulb

@QualyThe

Peter Wildeford🇺🇸🚀

@peterwildeford

Julian

@mealreplacer

Kelsey Piper

@KelseyTuoc

Matthew Barnett

@MatthewJBar

Sam Bowman

@sleepinyourhat

Jeffrey Ladish

@JeffLadish

Dustin Moskovitz

@moskov

Aella

@Aella_Girl

Nate Silver

@NateSilver538

Sam Altman

@sama

EigenGender

@EigenGender

Neel Nanda

@NeelNanda5

Amanda Askell

@AmandaAskell

davidad 🎇

@davidad

roon

@tszzl

Riley Goodside

@goodside

Frances Lorenz

@frances__lorenz

David Manheim

@davidmanheim

Eliezer Yudkowsky

@allTheYud

Constantin Venhoff

@cvenhoff00

Crazy Ass Moments in LatAm Politics

@AssLatam

Natalie Collina

@natalie_collina

Aaron Roth

@Aaroth

Jelani Nelson

@minilek

Jingfeng Wu

@uuujingfeng

Thinking Machines

@thinkymachines

Shi Feng

@ihsgnef

Jeffrey Emanuel

@doodlestein

flux

@fluxtheorist

iwsfutcmd is back!

@iwsfutcmd

Scott Gray

@scottgray76

Teemu.jpeg

@teemusphoto

Morph

@morph_labs

Math, Inc.

@mathematics_inc

Japan Society Film

@js_film_nyc

Oliver Habryka

@ohabryka

Guive Assadi

@GuiveAssadi

はるみ

@hatopomo

Andrew

@Dub__A

Benjamin Manning

@BenSManning

MEK.txt ⌨️

@michaelmicasso

Ryan Kidd

@ryan_kidd44

Saining Xie

@sainingxie

Anca Dragan

@ancadianadragan

adithya

@00aleph00

Cameron Jones

@camrobjones

Mary Letey

@maryiletey

Joel Becker

@joel_bkr

Jiawei Zhao

@jiawzhao

AA

@measure_plan

Jason Lee

@jasondeanlee

Santiago Aranguri

@santiaranguri

Mariven

@psychiel

Ernest Ryu

@ErnestRyu

hero

@1thousandfaces_

murat 🍥

@mayfer

Nick Jiang

@nickhjiang

Igor Babuschkin

@ibab

Marko Jukic

@mmjukic

Oliver Daniels

@Oliver_ADK

FarmKind

@farmkind_giving

Ben Marrow

@benmarrow

Mihir Prabhudesai

@mihirp98

Jesse Balmer

@jesse_balmer

James Payor

@jamespayor

rank decomposition

@rankdim

sarah

@littIeramblings

Grace (cross posting arc)

@kindgracekind

United States Trends

1. Jets 83.1K posts
2. Jets 83.1K posts
3. Justin Fields 9,439 posts
4. Aaron Glenn 4,549 posts
5. Sean Payton 2,576 posts
6. London 204K posts
7. #HardRockBet 3,398 posts
8. Bo Nix 3,669 posts
9. Garrett Wilson 3,441 posts
10. HAPPY BIRTHDAY JIMIN 155K posts
11. #DENvsNYJ 2,217 posts
12. Tyrod 1,706 posts
13. #OurMuseJimin 200K posts
14. #JetUp 2,003 posts
15. #30YearsofLove 176K posts
16. Bam Knight N/A
17. Peart 1,906 posts
18. Kurt Warner N/A
19. Sutton 2,826 posts
20. Breece Hall 1,964 posts

You might like

Something went wrong.

Something went wrong.