MiaoLu3

Miao Lu MiaoLu3

Ph.D. student at Stanford MS&E

Pinned Loading

Regularized-Preference-Optimization Regularized-Preference-Optimization Public

Forked from YSLIU627/Regularized-Preference-Optimization

Code for: [NeurIPS 2024] Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer

Python
MEX MEX Public

Forked from agentification/MEX

Code for: [NeurIPS 2023] Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration

Python
YSLIU627/RL-for-Markov-Exchange-Economy YSLIU627/RL-for-Markov-Exchange-Economy Public

Codes for the ICML 2022 accepted paper: *Welfare Maximization in Competitive Equilibrium: Reinforcement Learning for Markov Exchange Economy*.

Jupyter Notebook 6
Learning-Pruning-Friendly-Networks-via-Frank-Wolfe-One-Shot-Any-Sparsity-and-No-Retraining Learning-Pruning-Friendly-Networks-via-Frank-Wolfe-One-Shot-Any-Sparsity-and-No-Retraining Public

Code for: [ICLR 2022] Learning Pruning-Friendly Networks via Frank-Wolfe: One-Shot, Any-Sparsity, and No Retraining

Python 2 1
RL-SCPO RL-SCPO Public

Forked from MIRALab-USTC/RL-SCPO

Code for: [AAAI 2022] Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization

Python
MiaoLu3.github.io MiaoLu3.github.io Public

Personal Website

PostScript 1