ジョン・シュルマンジョンシュルマン (John Schulman)

▼ ざっくり言うと

強化学習の代表手法 PPO を作った研究者、現在Anthropic所属です。

▼ もうちょっと詳しく

OpenAI 共同創業者の一人。PPO(Proximal Policy Optimization)という強化学習アルゴリズムの主要発案者で、これはChatGPT のRLHFでも実は使われている重要技術です。

2024年、OpenAIを離脱して Anthropic に移籍し、業界を驚かせました。「OpenAIから Anthropicへ」の人材流動を象徴する一人。派手なCEO型ではない、職人気質の研究者で、業界の信頼度は静かに高い。

PPOを「ピー・ピー・オー」と聞いて「あの論文の人ね」と即答できるとプロです。

あなたの読了: 0 / 390