ジョン・シュルマン (John Schulman)
▼ ざっくり言うと
強化学習の代表手法 PPO を作った研究者、現在Anthropic所属です。
▼ もうちょっと詳しく
OpenAI 共同創業者の一人。PPO(Proximal Policy Optimization)という強化学習アルゴリズムの主要発案者で、これはChatGPT のRLHFでも実は使われている重要技術です。
2024年、OpenAIを離脱して Anthropic に移籍し、業界を驚かせました。「OpenAIから Anthropicへ」の人材流動を象徴する一人。派手なCEO型ではない、職人気質の研究者で、業界の信頼度は静かに高い。
PPOを「ピー・ピー・オー」と聞いて「あの論文の人ね」と即答できるとプロです。
あなたの読了: 0 / 390 語

