JASA

On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization

Authors

Cong Fang Weijie J. Su Jiancong Xiao Ziniu Li Xingyu Xie Emily Getzen Qi Long

Research Topics

High-Dimensional Statistics Computational Statistics

View Full Paper

Paper Information

Journal:
Journal of the American Statistical Association
DOI:
10.1080/01621459.2025.2555067
Added to Tracker:
Sep 24, 2025

Author Details

Cong Fang

Author

Weijie J. Su

Author

Jiancong Xiao

Author

Ziniu Li

Author

Xingyu Xie

Author

Emily Getzen

Author

Qi Long

Author

Research Topics & Keywords

High-Dimensional Statistics

Research Area

Computational Statistics

Research Area

Citation Information

APA Format


                                
                                    
                                    Cong Fang
                                
                                    
                                        , 
                                    
                                    Weijie J. Su
                                
                                    
                                        , 
                                    
                                    Jiancong Xiao
                                
                                    
                                        , 
                                    
                                    Ziniu Li
                                
                                    
                                        , 
                                    
                                    Xingyu Xie
                                
                                    
                                        , 
                                    
                                    Emily Getzen
                                
                                    
                                         & 
                                    
                                    Qi Long
                                
                                . 
                                On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization. 
                                Journal of the American Statistical Association
                                , 10.1080/01621459.2025.2555067.

BibTeX Format


@article{paper541,

  title = { On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization },

  author = { 
                                
                                    Cong Fang
                                
                                     and Weijie J. Su
                                
                                     and Jiancong Xiao
                                
                                     and Ziniu Li
                                
                                     and Xingyu Xie
                                
                                     and Emily Getzen
                                
                                     and Qi Long
                                
                                },

  journal = { Journal of the American Statistical Association },


  doi = { 10.1080/01621459.2025.2555067 },

  url = { https://www.tandfonline.com/doi/full/10.1080/01621459.2025.2555067 }

}

Back to Papers

View Full Paper More from JASA