2026-04-25 · 7 topics
DeepSeek-V4 発表──1Mトークンの長文脈とエージェント特化アーキテクチャで推論コストを大幅削減
🔥🔥🔥推論効率を最適化する圧縮アテンションとエージェント向け学習により、SWE-bench 等のタスクで最先端モデルに匹敵する性能を実現。
DeepSeek V4 アーキテクチャの技術解析──MoE 構造と推論効率の最適化手法
🔥🔥Reddit の r/LocalLLaMA コミュニティにて、DeepSeek V4 のモデル構造や推論効率化に関する技術的考察と議論が活発に行われている。
初の公開血液検知モデルがオープンソース化──データセット・重み・CLI を包括提供
🔥🔥医療画像解析の民主化を目指し、誰でも利用可能な血液検知用モデルと学習済み重み、CLI ツールが GitHub で公開された。
Deep Learning の科学的理論構築に向けた議論──Reddit r/MachineLearning での考察
🔥🔥経験則に頼る現状から脱却し、物理学のような予測可能な数学的フレームワークを構築する可能性について、コミュニティが活発に議論している。
DharmaOCR 発表──3BパラメータのオープンソースSLMでOCR特化の推論性能を最適化
🔥🔥汎用LLMを凌駕するコストパフォーマンスを実現し、特定のドキュメント読解タスクにおいて軽量モデルながら高い精度を達成した(原題: DharmaOCR: Open-Source Specialized SLM (3B) + Cost–Performance Benchmark against LLMs and other open-sourced models)
非対数凹分布向けランダム化分割Langevin Monte Carlo法で勾配評価コストを削減
🔥勾配リプシッツ条件を超えて超線形成長するポテンシャルにも対応し、W2距離でO(√d h)の誤差限界を達成。(原題: When Langevin Monte Carlo Meets Randomization: New Sampling Algorithms with Non-asymptotic Error Bounds beyond Log-Concavity and Gradient Lipschitzness)
Wasserstein 損失を用いたデータアンフォールディング手法──従来の Richardson-Lucy 法の課題を克服
🔥KL ダイバージェンスに代わる Wasserstein 損失を導入し、ビン分割による誤差を排除。物理学におけるジェット質量アンフォールディング等で高い堅牢性を実証。(原題: Unfolding with a Wasserstein Loss)