科技 · 艺术 · 热情

孙浩 博士 (Dr. Hao Sun)

我是孙浩,一名专注于人工智能(AI)领域的研究者,研究方向涵盖多模态学习大语言模型 (LLMs)视觉-语言-行动 (VLA) 模型具身智能强化学习情感计算。我致力于推进通用人工智能(AGI)和变革性技术的发展,拓展人类知识与文明的边界。研究成果发表于 ACLACM MultimediaInformation FusionIEEE Transactions on Affective ComputingPattern Recognition 等顶级国际会议与期刊,累计被引用 500 余次,并拥有多项授权专利。

教育与工作经历:

  • 2025.06 - 至今:日本立命馆大学(大阪),资深研究员
    • 由日本工程院院士陈延伟教授邀请
    • 负责所在实验室在大语言模型、多模态、VLA 与具身智能方向的研究工作
    • 带领研究团队聚焦于基于大语言模型、强化学习与仿生学的 AGI 与 VLA 研究
  • 2023.08 - 2024.08:日本立命馆大学(大阪 & 大津),访问学者
    • 由日本工程院院士陈延伟教授邀请
    • 由浙江大学博士生学术之星项目资助(全校百名优秀研究生之一)
    • 主持研究项目:基于大语言模型的统一多模态与多任务学习框架
    • 主持研究项目:基于参数高效微调的多模态大语言模型方法
    • 研究成果发表于 IEEE Transactions on Affective Computing、Pattern Recognition 等
  • 2020.09 - 2025.06:浙江大学(中国杭州),计算机科学与技术专业 博士
    • 获浙江大学优秀毕业生荣誉,位列毕业生前 10%
  • 2016.09 - 2020.06:哈尔滨工业大学,软件工程专业 工学学士
    • 获优秀毕业生荣誉,位列毕业生前 8%

更多关于我的研究与论文的信息,请访问我的 Google Scholar 主页ORCID 主页

近期论文、专利与软件著作权

以下列出了我近期发表的代表性学术成果,涵盖多模态学习大语言模型视觉-语言-行动 (VLA) 智能体具身智能情感计算等方向。目前累计被引 500 余次,完整论文列表(20+)请参见我的 Google Scholar 主页

第一作者或通讯作者论文

  • MIRTH: Mutual-Information Reasoning with Temporal Hubs for Vision-Language-Action Agents. The 64th Annual Meeting of the Association for Computational Linguistics (ACL), 2026.
  • One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning. Pattern Recognition, 2025.(影响因子 IF: 8.5)
  • Multimodal Sentiment Analysis with Mutual Information-based Disentangled Representation Learning. IEEE Transactions on Affective Computing, Vol.16(3), pp.1606-1617, 2025.(IF: 13.9)
  • Modality-invariant Temporal Representation Learning for Multimodal Sentiment Classification. Information Fusion, Vol.91, pp.504-514, 2023.(IF: 18.1)
  • Tensorformer: A Tensor-Based Multimodal Transformer for Multimodal Sentiment Analysis and Depression Detection. IEEE Transactions on Affective Computing, Vol.14(4), pp.2776-2786, 2023.(IF: 13.9)
  • Multi-Modal Adaptive Fusion Transformer Network for the Estimation of Depression Level. Sensors, Vol.21(14), pp.4764, 2021.
  • CubeMLP: An MLP-Based Model for Multimodal Sentiment Analysis and Depression Estimation. ACM Multimedia, pp.3722-3729, 2022.(引用 140+)

在投稿件(第一作者)

  • Multimodal Infusion Tuning for Large Models. arXiv:2403.05060, 2024.
  • Robust Latent Representation Tuning for Image-text Classification. arXiv:2406.06048, 2024.
  • Modality-invariant and Specific Prompting for Multimodal Human Perception Understanding. arXiv:2311.10791, 2023.

共同一作 / 第二、第三作者论文

  • EPIC: Efficient Prompt Interaction for Text-Image Classification. IEEE ICME, 2025.(共同第一作者)
  • CG-DMER: Hybrid Contrastive-Generative Framework for Disentangled Multimodal ECG Representation Learning. IEEE ICASSP, 2026.
  • Improving scDiffusion with Sparsity-Biased Classifier-Free Guidance. IEEE Engineering in Medicine and Biology Society, 2026.
  • Dynamic Summary Generation for Interpretable Multimodal Depression Detection. IEEE ICASSP, 2026.
  • IRLSG: Invariant Representation Learning for Single-Domain Generalization in Medical Image Segmentation. IEEE ICASSP, 2024.
  • LGA: A Language Guide Adapter for Advancing the SAM Model's Capabilities in Medical Image Segmentation. Springer MICCAI, pp.610-620, 2024.
  • Enhanced Multimodal Depression Detection With Emotion Prompts. IEEE ICASSP, 2025.
  • DepressionLLM: Emotion- and Causality-aware Depression Detection with Foundation Models. Displays, Vol.92, pp.103304, 2025.
  • MCKD: Mutually Collaborative Knowledge Distillation for Federated Domain Adaptation and Generalization. IEEE ICASSP, 2023.
  • CoSTHR: A Heart Rate Estimating Network with Adaptive Color Space Transformation. IEEE Transactions on Instrumentation and Measurement, Vol.71, pp.1-10, 2022.(IF: 5.6)

近期专利

  • 基于多模态时序信息融合的工程进度判定方法及设备。申请号:US20250005475A1。国家:美国。公开日期:2023.07。第三发明人
  • 基于多模态时序信息融合的工程进度判定方法及设备。授权号:CN116502882B。国家:中国。授权日期:2023.10。第三发明人
  • 基于多模态数据的类风湿性关节炎活动度分级装置。授权号:CN116797572B。国家:中国。授权日期:2025.09。第四发明人
  • 一种面向医学图像分割的单域泛化方法。授权号:CN116596832B。国家:中国。授权日期:2025.07。第五发明人

软件著作权

  • MIRTH 机器人控制系统 V1.0。登记号:2026SR0601586。国家:中国。授权日期:2026.05。

更多独立开发项目(30+)请访问我的 GitHub 主页
2020 至 2021 年期间,我还在慕课网(IMOOC)发布了 TensorFlow 系列教程

受邀主题报告

以下精选受邀报告,分享了我在具身智能、多模态学习与通用人工智能(AGI)方向的研究思考。

  • 具身共情:赋予人工智能感知、认知、行动与共情能力(2026.04,中国苏州 & 北京)
    • "国际科技创新人才中国行" 巡讲活动
    • 由中华人民共和国科学技术部国际人才交流中心邀请
  • 面向图像分类与分割场景的多模态对比学习增强方法(2024.02,日本草津)
    • 计算机视觉与人工智能国际研讨会
    • 由日本工程院院士陈延伟教授邀请

科研项目

我积极参与了多个具有挑战性的科研项目,在多模态学习与实时监测等方向作出了贡献。以下为近期参与的代表性项目。

  • 2022 - 2025:面向类风湿性关节炎(RA)的智能集成分析平台建设
    • 资助方:国家重点研发计划,项目编号 2022YFC2504605,中华人民共和国科学技术部
    • 目标:构建一个 AI 驱动的集成分析平台,提升类风湿性关节炎的诊断与治疗水平
    • 构建了融合多模态临床数据的新方法,将诊断准确率提升 10%
    • 负责多模态方法的设计、实现与验证工作
  • 2022 - 2024:基于联邦学习的肝细胞癌(HCC)术前早期复发检测与预测
    • 资助方:浙江省自然科学基金重点项目,项目编号 LZ22F020012
    • 目标:开发兼顾隐私保护的联邦学习方案,实现 HCC 术前复发的早期预测
    • 在保障数据隐私的同时,将复发预测准确率提升 13%
    • 负责项目申请书撰写、多模态方法设计与最终验证
  • 2022 - 2024:基于计算机视觉的智慧工地管理平台关键技术研究
    • 资助方:杭州新中大科技股份有限公司,项目编号 2022AIZD0147-02
    • 目标:构建智慧工地监测与管理平台,提升施工现场的安全性与管理效率
    • 成功建成实时监测平台,违规事件减少 15%,并大幅简化管理流程
    • 负责项目申请书撰写、方法论制定、项目验收与整体项目管理

学术服务

我积极投身学术共同体建设,担任人工智能、多模态学习与情感计算等方向多个权威期刊与会议的客座编辑与审稿人。

  • 客座编辑(Guest Editor)(2026 - 至今)
    • Frontiers in Neuroinformatics
    • Journal of Visualized Experiments
  • 期刊审稿人(Reviewer)(2022 - 至今)
    • Information FusionIEEE Transactions on Affective ComputingPattern Recognition
    • ACM Transactions on Multimedia Computing, Communications and Applications
    • IEEE/CAA Journal of Automatica SinicaInformation Processing and ManagementNeurocomputing

荣誉与奖项

以下荣誉与奖项是对我在研究生与职业生涯中学术卓越、研究成果及领导贡献的认可。

  • 浙江大学优秀研究生(2025.06,浙江大学)
    • 授予前 10% 学术表现优异的博士研究生,表彰其学术成就
  • 浙江大学研究生荣誉称号(四次)(2024.12 / 2023.12 / 2022.12 / 2021.12,浙江大学)
    • 每年授予前 15% 学术表现突出的博士研究生
  • 浙江大学学业奖学金(2022.12,浙江大学)
    • 授予优秀博士研究生,用以支持其科研工作
  • 浙江大学优秀研究生干部(两次)(2024.12 / 2023.12,浙江大学)
    • 表彰在所在领域或集体中表现出突出领导力的研究生
  • 浙江大学三好研究生(学业 A 级)(2023.12,浙江大学)
    • 授予学业表现优异且积极参与社会实践的研究生
  • 华为奖学金(2023.12,浙江大学)
    • 授予计算机科学与人工智能方向学术卓越、研究创新突出的优秀学生
  • 哈尔滨工业大学优秀本科毕业生(2020.06,哈尔滨工业大学)
    • 授予前 15% 学术表现优异的本科毕业生
  • 国家励志奖学金(2018.12,哈尔滨工业大学)
    • 授予前 5% 学业突出的本科生,以表彰其优异表现

专业技能

本部分概述了我在科研与工程方面的核心能力,涵盖研究设计、算法开发、大规模模型训练与系统实现,重点聚焦于人工智能、大语言模型(LLMs)、多模态学习与具身智能等方向。

  • 学术能力:学术写作、论文发表、同行评审、会议演讲、项目申请书撰写
  • 人工智能研究:算法设计、模型训练与微调、数据处理、性能评估
  • 大语言模型:模型定制、知识融合、多模态调优、可扩展性与高效性优化
  • 具身智能:动作落地(Action Grounding)、平台搭建、硬件部署
  • 多模态研究:框架设计、任务适配、多模态系统部署
  • 软件工程:可行性与需求分析、系统与详细设计、系统实现与软件维护等
  • 编程语言:Python、PyTorch、Numpy、TensorFlow、Java、C++、C、HTML、GO 等
  • 全栈开发:前端开发、后端设计与实现、数据库系统
  • 语言能力:普通话、英语、日语