Publications

910 results for Trustworthy AI

Assessing Confidence in Large Language Models by Classifying Task Correctness using Similarity Features
- - Debarun Bhattacharjya
  - Balaji Ganesan
  - et al.
- 2025
- ICLR 2025
Rationalization Models for Text-to-SQL
- - Gaetano Rossiello
  - Nhan Pham
  - et al.
- 2025
- ICLR 2025
SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging
- - Aladin Djuhera
  - Swanand Ravindra Kadhe
  - et al.
- 2025
- ICLR 2025
Out-of-Distribution Detection using Synthetic Data Generation
- - Momin Abbas
  - Muneeza Azmat
  - et al.
- 2025
- ICLR 2025
REST API Functional Tester
- - Diptikalyan Saha
  - Devika Sondhi
  - et al.
- 2025
- ISEC 2025
Retention Score: Quantifying Jailbreak Risks for Vision Language Models
- - Zaitang Li
  - Pin-Yu Chen
  - et al.
- 2025
- AAAI 2025
Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models
- - Xiaomeng Xu
  - Pin-Yu Chen
  - et al.
- 2025
- AAAI 2025
PEEL the Layers and Find Yourself: Revisiting Inference-time Data Leakage for Residual Neural Networks
- - Huzaifa Arif
  - Keerthiram Murugesan
  - et al.
- 2025
- IEEE SaTML 2025
VP-NTK: Exploring the Benefits of Visual Prompting in Differentially Private Data Synthesis
- - Chia-Yi Hsu
  - Jia-You Chen
  - et al.
- 2025
- ICASSP 2025
Towards Unbiased Evaluation of Time-series Anomaly Detector
- - Debarpan Bhattacharya
  - Sumanta Mukherjee
  - et al.
- 2025
- ICASSP 2025