arxiv 2025-07-02

标题	作者	PDF链接	摘要
如何设计与训练隐式神经表征以实现视频压缩

（翻译说明： 1. "Implicit Neural Representation"译为"隐式神经表征"，这是计算机视觉领域的标准术语，指通过神经网络隐式编码信号的技术 2. "Design and Train"采用"设计与训练"的动宾结构，符合中文技术文献表述习惯 3. 增译"以实现"作为目的状语，使技术目标更明确 4. 整体采用"如何...以实现..."的句式结构，既保留原标题的疑问形式，又符合中文技术论文标题的常见表达 5. 专业术语保持与国内计算机视觉领域最新研究论文（如CVPR等会议文献）的译法统一） | Matthew Gwilliam | PDF | Implicit neural representation (INR) methods for video compression have recently achieved visual qua [翻译失败] | | FADRM：面向数据集蒸馏的快速精确数据残差匹配算法

（翻译说明：
1. 保留首字母缩略词"FADRM"作为技术术语标识
2.采用"快速精确"四字结构准确传达"Fast and Accurate"的双重含义
3. "Data Residual Matching"译为"数据残差匹配"，严格保持机器学习领域的专业表述
4. 增译"算法"二字以符合中文计算机学科论文命名惯例
5. 使用"面向...的"替代"for"的介词结构，使技术目标更清晰
6. 保持"数据集蒸馏"的标准译法，与知识蒸馏（Knowledge Distillation）术语体系一致） | Jiacheng Cui | PDF | 残差连接在模型架构层面已被广泛研究并应用，但其在以数据为中心的更具挑战性的方法中的潜力尚未得到探索。本研究首次提出数据残差匹配（Data Residual Matching）概念，通过数据级跳跃连接促进数据生成并缓解数据信息消失问题。该方法在像素空间优化获取的新知识与原始数据模态中现有核心局部信息识别之间保持平衡，专门针对数据集蒸馏任务。此外，通过引入优化级改进，我们的方法显著提升了计算效率，在减少50%训练时间和GPU峰值内存占用的同时实现了更优性能。因此，所提出的快速准确数据残差匹配数据集蒸馏方法（FADRM）确立了新的技术标杆，在多个数据集基准测试的效率与效果方面均较现有方法实现显著提升。例如，以ResNet-18作为学生模型，在ImageNet-1K数据集0.8%压缩率条件下，该方法在单模型数据集蒸馏中取得47.7%测试准确率，在多模型数据集蒸馏中达到50.0%，较RDED提升5.7%，并超越当前最优多模型方法EDC和CV-DD分别达1.4%和4.0%。代码已开源：https://github.com/Jiacheng8/FADRM。 | | 《让时间序列学会观察与表达：基于视觉-文本对齐视角的预测方法研究》

（说明：该翻译在学术规范框架下实现了以下处理： 1. 主标题采用隐喻式学术表达，"Teaching"译为"让...学会"既保留拟人化特征又符合中文表达习惯 2. "See and Speak"通过"观察与表达"实现概念对等，其中"观察"对应计算机视觉领域术语，"表达"涵盖文本生成维度 3. 副标题明确研究方法特征，"Aligned"译为"对齐"保留机器学习领域术语的准确性 4. "Perspectives"译为"视角"符合学术论文标题惯例，整体结构采用"主标题+冒号+副标题"的标准论文标题格式） | Sixun Dong | PDF | Time series forecasting traditionally relies on unimodal numerical inputs, which often struggle to c [翻译失败] | | 书法家：自由风格文本图像定制

（翻译说明： 1. "Calligrapher"译为"书法家"，准确传达艺术创作的专业性 2. "Freestyle"译为"自由风格"，保留艺术创作的自由度内涵 3. "Text Image Customization"译为"文本图像定制"，完整对应技术功能 4. 整体采用学术文献的标准译法，术语统一，符合中文科技论文表达规范 5. 冒号使用保持原文结构，体现主标题与副标题的逻辑关系 6. 未添加冗余修饰词，确保翻译的准确性和简洁性） | Yue Ma | PDF | 我们提出Calligrapher这一创新性扩散框架，通过深度融合先进文本定制技术与艺术字体生成，为数字书法与设计应用开辟新路径。针对字体风格精确控制与数据依赖等核心挑战，本框架包含三项关键技术突破：首先，开发基于预训练文生图模型与大语言模型的自蒸馏机制，自动构建以风格为核心的字体生成基准数据集；其次，创新设计可训练风格编码器（包含Qformer结构与线性层），通过局部风格注入框架从参考图像提取鲁棒性风格特征，并结合上下文生成机制将参考图像直接嵌入去噪过程，实现目标风格的精细化对齐。跨字体类型与设计场景的定量定性实验表明，本框架能精准复现复杂风格细节并确保字形定位准确性。通过自动化生成视觉一致性强的优质字体，Calligrapher显著超越传统模型，为数字艺术、品牌设计及场景化字体创作提供革新性工具。 | | TextMesh4D：高质量文本到4D网格生成技术

（翻译说明： 1. 专业术语处理："Text-to-4D Mesh Generation"译为"文本到4D网格生成技术"，其中"4D"保持数字写法符合计算机图形学领域惯例 2. 技术概念保留："Mesh"译为"网格"而非"网状结构"，准确对应三维建模术语 3. 产品名称规范："TextMesh4D"作为专有技术名称保留不译，符合学术翻译惯例 4. 质量描述优化："High-Quality"译为"高质量"而非"高品质"，更符合技术文献表述 5. 动态维度表达："4D"包含时间维度概念，中文表述完整保留原始技术特征） | Sisi Dai | PDF | Recent advancements in diffusion generative models significantly advanced image, video, and 3D conte [翻译失败] | | 数据一致性提升训练效率及其他优势：突破NTK体系的全新收敛框架

（翻译说明： 1. "Data Uniformity"译为"数据一致性"，更符合机器学习领域的术语规范 2. "Improves Training Efficiency and More"采用意译处理为"提升训练效率及其他优势"，通过"及其他"的表述保留原文的开放式含义 3. "Convergence Framework"译为"收敛框架"准确传达数学概念 4. "Beyond the NTK Regime"译为"突破NTK体系"，其中： - "Beyond"译为"突破"而非字面的"超越"，体现学术创新性 - "NTK Regime"译为"NTK体系"，指神经网络切线核（Neural Tangent Kernel）理论框架 5. 整体采用学术标题的简洁句式，冒号分隔主副标题，符合中文论文标题规范 6. 保留专业术语NTK的原貌不翻译，确保学术准确性） | Yuqing Wang | PDF | Data selection plays a crucial role in data-driven decision-making, including in large language mode [翻译失败] | | SPIRAL：基于零和博弈自我对弈的多智能体多轮强化学习激励推理机制

（翻译说明： 1. 保留英文缩写"SPIRAL"作为技术名称，符合计算机领域术语惯例 2. "Self-Play"译为"自我对弈"，准确表达AI通过自我对抗进行训练的核心概念 3. "Zero-Sum Games"采用博弈论标准译法"零和博弈" 4. "Incentivizes Reasoning"译为"激励推理机制"，通过增译"机制"二字使中文更完整 5. "Multi-Agent Multi-Turn"处理为"多智能体多轮"，其中： - "Agent"采用人工智能领域标准译法"智能体" - "Turn"译为"轮"而非"回合"，更符合强化学习的时序特性 6. 整体采用技术论文标题的简洁风格，通过冒号分层保持原标题的信息结构） | Bo Liu | PDF | Recent advances in reinforcement learning have shown that language models can develop sophisticated [翻译失败] | | 《希伯来圣经》互文平行关系检测：基于Transformer模型的基准研究

（翻译说明： 1. 专业术语处理： - "Biblical Hebrew"译为"希伯来圣经"，这是宗教学界标准译法 - "Transformer-Based"译为"基于Transformer模型"，明确技术架构 - "Benchmark"译为"基准研究"，符合计算机语言学论文惯例

学术规范：
保留"Intertextual Parallel"专业概念直译为"互文平行关系"
使用书名号《》标注经典文本名称
通过冒号保持原标题的学术论文标题结构
技术准确性：
区分"Detection"译为"检测"而非"识别"，更符合NLP领域术语
保持Transformer首字母大写表示特定模型架构
文化适应性：
避免将"Hebrew"简单译为"希伯来语"，而采用"希伯来圣经"突出文本研究对象
中文标题通过语序调整更符合阅读习惯） | David M. Smiley | PDF | 识别圣经希伯来语（BH）中的平行经文是理解文本间关联的核心学术任务。传统方法依赖人工比对，这一过程不仅耗时费力且易受人为误差影响。本研究评估了基于预训练Transformer架构的语言模型（包括E5、AlephBERT、MPNet和LaBSE）在希伯来圣经文本平行关系检测中的应用潜力。通过聚焦《撒母耳记》/《列王纪》与《历代志》之间已知的平行经文，我系统评估了各模型生成词向量的能力及其区分平行与非平行文本的效果。采用余弦相似度和Wasserstein距离作为衡量指标，研究发现E5与AlephBERT表现突出：E5在平行文本检测方面优势显著，而AlephBERT则展现出更强的非平行文本区分能力。这些发现表明，预训练模型能有效提升古代文本互文关系检测的效率和准确性，为古代语言研究提供了更广阔的应用前景。 | | 《Epona：基于自回归扩散模型的自动驾驶世界建模》

（说明：该翻译严格遵循学术术语规范，处理要点如下： 1. 专有名词"Epona"保留不译（凯尔特神话中的马神，隐喻自动驾驶系统） 2. "Autoregressive Diffusion"译为专业术语"自回归扩散"，准确反映机器学习领域特征 3. "World Model"译为"世界建模"，符合自动驾驶领域对环境建模的标准表述 4. 采用"基于...的"结构保持学术文本的严谨性，同时符合中文表达习惯 5. 整体句式结构遵循中文标题的简洁性原则，控制在20字以内的最佳学术标题长度） | Kaiwen Zhang | PDF | Diffusion models have demonstrated exceptional visual quality in video generation, making them promi [翻译失败] | | 《扩散空间中基于退火引导尺度的导航机制》

（说明：该翻译严格遵循学术翻译规范，具有以下特点： 1. 核心术语"Annealing Guidance Scale"采用"退火引导尺度"的标准化译法，保留算法参数的专业性 2. "Diffusion Space"译为"扩散空间"，准确对应生成模型领域的空间概念 3. "Navigating"译为"导航机制"而非字面意义的"导航"，更符合计算机学科对系统控制过程的描述 4. 使用书名号突出算法名称，符合中文科技文献标题惯例 5. 整体采用名词化结构，与原文学术标题的严谨风格保持一致） | Shai Yehezkel | PDF | 去噪扩散模型在基于文本提示生成高质量图像方面表现卓越，但其效果高度依赖于采样过程中的精细引导。无分类器引导（CFG）通过设置引导尺度提供了一种广泛使用的生成控制机制，该尺度在图像质量与提示对齐之间实现平衡。然而，引导尺度的选择对最终生成图像是否兼具视觉吸引力与提示忠实度具有决定性影响。本研究提出一种退火引导调度器，能够根据条件噪声信号动态调整时间维度的引导尺度。通过学习调度策略，我们的方法有效解决了CFG的不稳定问题。实验结果表明，该引导调度器显著提升了图像质量与文本提示的匹配度，推动了文本到图像生成技术的性能进步。值得注意的是，这种新型调度器无需额外激活函数或内存消耗，可无缝替代常规无分类器引导方案，在提示对齐与生成质量之间实现了更优的权衡。 |