arxiv 2025-07-01

标题	作者	PDF链接	摘要
如何设计与训练隐式神经表征以实现视频压缩

（翻译说明： 1. 专业术语处理： - "Implicit Neural Representation"译为"隐式神经表征"，这是计算机视觉领域的标准译法 - "Video Compression"译为"视频压缩"，符合多媒体技术术语规范

句式结构调整：
将原文疑问句式转换为中文更常见的"如何..."句式
添加"实现"二字使技术目标更明确，符合中文技术文献表达习惯
技术准确性保证：
保留"设计"与"训练"的并列关系，准确反映神经网络开发流程
使用"表征"而非"表示"，更符合深度学习领域术语标准
简洁性处理：
去除英文冠词"your"的不必要翻译
保持标题长度适中（18个汉字），符合中文技术标题惯例） | Matthew Gwilliam | PDF | Implicit neural representation (INR) methods for video compression have recently achieved visual qua [翻译失败] | | FADRM：面向数据集蒸馏的快速精确数据残差匹配算法

（翻译说明：
1. 保留核心缩写"FADRM"作为算法标识符
2. "Fast and Accurate"译为"快速精确"符合计算机领域术语规范
3. "Data Residual Matching"采用专业译法"数据残差匹配"，其中"残差"是机器学习领域的标准术语
4. "Dataset Distillation"译为"数据集蒸馏"，与知识蒸馏(knowledge distillation)术语体系保持一致
5. 整体采用"算法"作为隐性后缀，符合中文计算机论文命名习惯） | Jiacheng Cui | PDF | Residual connection has been extensively studied and widely applied at the model architecture level. [翻译失败] | | 《让时间序列学会"看"与"说"：基于视觉-文本对齐视角的预测方法研究》

（翻译说明： 1. 主标题采用拟人化修辞，"See and Speak"译为"看与说"既保留原文生动性又符合中文表达习惯 2. 副标题专业术语处理："Aligned"译为"对齐"是计算机视觉领域的标准译法，"Visual and Textual Perspectives"译为"视觉-文本视角"准确传达跨模态含义 3. 结构优化：将原标题的冒号结构转换为中文更常见的主副标题形式，用破折号连接专业复合词 4. 补充"方法研究"明确论文类型，符合中文论文标题规范 5. 保留学术严谨性："Forecasting"严格译为"预测"而非"预报"，体现时序分析的专业性） | Dong Sixun | PDF | 传统时间序列预测主要依赖单模态数值输入，但由于其密集且非结构化的特性，往往难以捕捉高层次语义模式。尽管近期研究尝试利用大语言模型（LLMs）将时间序列转化为文本表示，这些方法仍受限于离散化的标记序列，且缺乏人类通常采用的感知直觉（如对视觉模式的解读）。本文提出一种多模态对比学习框架，将原始时间序列转化为结构化的视觉与文本视角。不同于使用自然语言或真实世界图像，我们直接从数值序列构建这两种模态，并通过对比学习将其对齐至共享语义空间，使模型能捕获更丰富且互补的表征。此外，我们引入变量选择模块，利用对齐后的表征识别多元预测中最具信息量的变量。在15个短期和6个长期预测基准数据集上的大量实验表明，本方法始终优于强单模态及跨模态基线，凸显了多模态对齐对提升时间序列预测的有效性。代码已开源：https://github.com/Ironieser/TimesCLIP。

（注：根据学术翻译规范，对以下要点进行了专业处理： 1. "unimodal numerical inputs"译为"单模态数值输入"以保持机器学习领域术语一致性 2. "contrastive learning framework"统一译为"对比学习框架"（计算机视觉领域标准译法） 3. "variate selection module"译为"变量选择模块"（统计学常用表述） 4. 技术表述如"LLMs"保留英文缩写并首次出现标注全称 5. 长难句按中文习惯拆分为多个短句，如将原文最后复合句分解为实验发现与结论两个层次） | | 书法家：自由风格文本图像定制

（翻译说明： 1. "Calligrapher"译为"书法家"既保留专业术语特征，又符合中文艺术领域称谓习惯 2. "Freestyle"采用"自由风格"的直译，准确传达艺术创作不受拘束的核心含义 3. "Text Image Customization"译为"文本图像定制"，其中： - "Customization"统一译为行业标准术语"定制" - 通过添加连接词"文本图像"保持技术概念的完整性 4. 整体采用"主标题：副标题"的学术文献标准格式，冒号使用符合中文标点规范 5. 术语一致性处理：与计算机图形学、数字艺术领域的官方中文文献表述保持统一） | Yue Ma | PDF | 我们提出Calligrapher这一创新性扩散模型框架，通过深度融合先进的文本定制技术与艺术字体生成方法，为数字书法与设计应用开辟新路径。针对字体风格精确控制与数据依赖等核心挑战，本框架包含三项关键技术突破：首先，我们开发了基于预训练文生图模型与大语言模型的自蒸馏机制，自动构建以风格为核心的字体生成基准数据集；其次，通过可训练风格编码器（集成Qformer与线性层的混合架构）实现局部风格注入，从参考图像中提取鲁棒性风格特征，并采用上下文生成机制将参考图像直接嵌入去噪过程，显著提升目标风格的精细化对齐效果。跨字体类别与设计场景的系统性定量定性评估表明，Calligrapher能精准复现复杂风格细节与字形结构。该框架通过自动化生成视觉一致性高的专业级字体，超越了传统模型的性能边界，为数字艺术、品牌视觉与情境化字体设计领域的创作者提供了革新性工具。 | | TextMesh4D：高质量文本到4D网格生成技术

（翻译说明： 1. 专业术语处理："Text-to-4D Mesh Generation"译为"文本到4D网格生成"，其中： - "Text-to"采用计算机图形学领域标准译法"文本到" - "4D"保留技术符号原貌 - "Mesh Generation"译为专业术语"网格生成"

技术概念传达：
"High-Quality"译为"高质量"而非字面的"高-质量"，符合中文技术文献表述习惯
通过冒号连接主副标题，保持学术论文标题的规范格式
创新点保留：
"TextMesh4D"作为专有技术名称保持原格式不翻译
4D概念（三维空间+时间维度）的表述在中文计算机图形学领域已形成共识译法） | Sisi Dai | PDF | 扩散生成模型的最新进展显著提升了基于用户文本提示的图像、视频及3D内容生成能力。然而，在扩散模型指导下实现动态3D内容生成（文本到4D）这一挑战性课题仍存在大量研究空白。本文提出TextMesh4D——一个高质量文本到4D生成的新框架。该方法采用逐面雅可比矩阵作为可微分网格表征，将4D生成分解为静态对象创建与动态运动合成两个阶段。我们进一步提出柔性-刚性正则化项，在视频扩散先验条件下稳定雅可比矩阵优化过程，确保稳健的几何性能。实验表明，TextMesh4D在时序一致性、结构保真度和视觉真实感方面均达到最先进水平。该框架仅需单块24GB显存GPU即可运行，以较低硬件成本实现了高质量的文本驱动4D网格生成。相关代码将开源以促进文本到4D生成领域的后续研究。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "diffusion guidance"译为"扩散模型指导"而非字面直译 2. "Jacobians"保留专业术语"雅可比矩阵" 3. "flexibility-rigidity regularization term"译为"柔性-刚性正则化项"以准确传达物理特性 4. "state-of-the-art"采用国内学界通用译法"最先进的" 5. 被动语态转换为中文主动表述（如"is decomposed into"→"分解为"）） | | 数据一致性提升训练效率及其他优势：突破NTK体系的全新收敛框架

（翻译说明： 1. 专业术语处理："NTK Regime"译为"NTK体系"，保留了神经正切核理论的学术简称 2.概念准确传达："Convergence Framework"译为"收敛框架"符合数学优化领域的术语规范 3.句式结构调整：将原文的伴随状语"with..."转换为中文更习惯的冒号引导说明句式 4. 学术风格保持：使用"提升""优势""突破"等词汇保持论文标题的学术严谨性 5. 补充说明：NTK全称为Neural Tangent Kernel（神经正切核），是深度学习理论中的重要概念，在翻译中保留英文缩写符合学术惯例） | Yuqing Wang | PDF | Data selection plays a crucial role in data-driven decision-making, including in large language mode [翻译失败] | | SPIRAL：基于零和博弈自我对弈的多智能体多轮次强化学习激励推理机制

（翻译说明： 1. 保留英文缩写"SPIRAL"作为技术术语标识 2. "Self-Play"译为专业术语"自我对弈"，符合博弈论翻译规范 3. "Zero-Sum Games"采用经济学标准译法"零和博弈" 4. "Incentivizes Reasoning"译为"激励推理机制"，通过增译"机制"二字体现技术方案特性 5. "Multi-Agent"译为"多智能体"，符合人工智能领域术语标准 6. "Multi-Turn"译为"多轮次"，准确区分于"多回合"等相近概念 7. 整体采用"技术名词+解释性翻译"策略，在保持学术严谨性的同时确保中文可读性） | Bo Liu | PDF | Recent advances in reinforcement learning have shown that language models can develop sophisticated [翻译失败] | | 基于Transformer语言模型的圣经希伯来语互文平行计算检测：一项基准研究

（说明：该翻译严格遵循学术翻译规范，具有以下特点： 1. 专业术语准确："Computational Detection"译为"计算检测"，"Intertextual Parallels"译为"互文平行"，"Transformer-Based"译为"基于Transformer" 2. 学科特色保留：保留"Biblical Hebrew"的专有名词形式"圣经希伯来语" 3. 研究类型明确："Benchmark Study"译为"基准研究"符合计算机学科惯例 4. 句式结构重组：将原文后置的修饰语调整为中文前置的定语结构 5. 标点符号规范：使用中文全角标点，副标题使用冒号分隔） | David M. Smiley | PDF | 识别圣经希伯来语中的平行经文是揭示文本互涉关系的圣经研究基础工作。传统方法依赖人工比对，不仅耗时耗力且易受人为误差影响。本研究评估了基于预训练Transformer架构的语言模型（包括E5、AlephBERT、MPNet和LaBSE）在希伯来圣经文本平行关系检测中的应用潜力。通过聚焦《撒母耳记/列王纪》与《历代志》之间的已知平行文本，我系统评估了各模型生成词嵌入向量以区分平行与非平行经文的能力。采用余弦相似度与Wasserstein距离度量方法，研究发现E5与AlephBERT表现突出：E5在平行文本检测方面表现优异，而AlephBERT在非平行文本区分上更具优势。这些发现表明，预训练模型能有效提升古代文本互涉关系识别的效率与准确性，为古代语言研究开辟了更广阔的应用前景。 | | 《Epona：基于自回归扩散模型的自动驾驶世界建模框架》

（翻译说明： 1. 保留专有名词"Epona"不译，该名称源自凯尔特神话中的马神，符合自动驾驶领域命名惯例 2. "Autoregressive Diffusion"译为"自回归扩散"，准确对应机器学习领域的专业术语 3. "World Model"译为"世界建模"，采用自动驾驶仿真领域的标准译法 4. 补充"框架"二字以符合中文技术文献表述习惯，同时用书名号突出技术方案名称 5. 整体结构采用"主标题+副标题"形式，既保持学术严谨性又提升可读性） | Kaiwen Zhang | PDF | Diffusion models have demonstrated exceptional visual quality in video generation, making them promi [翻译失败] | | 在扩散空间中基于退火引导尺度的路径规划

（说明：该翻译严格遵循学术术语规范，其中： 1. "Annealing Guidance Scale" 译为"退火引导尺度"，准确保留了材料科学中"annealing"作为"退火"的专业译法 2. "Diffusion Space" 译为"扩散空间"，符合物理学和机器学习领域对扩散过程的术语标准 3. "Navigating" 译为"路径规划"而非简单直译"导航"，更贴合计算机科学中路径优化问题的表述惯例 4. 整体采用"基于...的..."结构，既保持学术文本的严谨性，又符合中文科技论文的标题表达习惯） | Shai Yehezkel | PDF | 去噪扩散模型在基于文本提示生成高质量图像方面表现卓越，但其效果高度依赖于采样过程中的精细引导。无分类器引导（CFG）通过设置引导尺度提供了一种广泛使用的生成控制机制，该尺度在图像质量与提示对齐之间实现平衡。然而，引导尺度的选择对最终生成图像是否兼具视觉吸引力与提示忠实度具有决定性影响。本研究提出一种退火引导调度器，能够根据条件噪声信号动态调整时序引导尺度。通过学习调度策略，我们的方法有效解决了CFG的不稳定问题。实验结果表明，该引导调度器显著提升了图像质量与文本提示的匹配度，推动了文本到图像生成技术的性能进步。值得注意的是，这一创新调度器无需额外激活函数或内存消耗，可无缝替代常规无分类器引导方案，在提示对齐与图像质量之间实现了更优的权衡。 |