2026年5月2日 (土)

10件 · 32分

今日の主役は、LLMの学習データにおけるフィルタリング手法の転換だ。Hugging Faceが公開したFineWeb-Eduは、Llama-3を用いて1.3兆トークンを教育的価値で精査しており、単なるデータ量から「品質の純度」へ開発の軸足が移ったことを裏付ける。この動きは、LLMの拒絶挙動を単一ベクトルで制御する研究や、310BパラメータのMoE構成で1Mトークンを扱うXiaomiのMiMo-V2.5といった、モデルの深層構造と入力品質を同時に最適化する潮流と合致する。周辺では、AppleのサポートアプリからClaude関連の構成ファイルが発見された件が、LLM統合の具体化を強く示唆している。データセットの質的向上と、デバイスレベルでのLLM実装という二つの側面から、来週以降のプロダクト設計を見直しておきたい。

Since yesterday

New 10

Ongoing 0

Ended 13

🔥🔥🔥2024-05-09

Hugging Face、1.3 兆トークンの教育特化データセット FineWeb-Edu を公開──Llama-3 による品質フィルタリングを実施

ウェブから抽出した 15 兆トークンの FineWeb から、Llama-3-70B を用いた分類器で教育的価値の高い 1.3 兆トークンを厳選し、小規模モデルの学習効率を劇的に改善する。

LLM Dataset HuggingFace Fine-tuning

🔥🔥2026-05-02

個人開発者が 1,030 億トークンの Usenet データセットを公開──1980-2013 年のネット黎明期の対話を網羅

インターネット黎明期の対話・議論データを 103B トークン規模で集約し、LLM の歴史的知識や推論能力の向上に寄与する。

Dataset Usenet LLM Pre-training NLP

🔥🔥2026-05-02

AI、救急外来（ER）医師の診断精度を上回る──臨床ケーススタディで医師単独の正答率を凌駕

救急医療の診断において AI 単独の正答率が医師を上回る研究結果が示され、医師の判断を AI が補完・検証する「協調型ケア」の実装が現場の誤診率低下における現実解となる。

LLM Healthcare Medical AI Benchmark

🔥🔥2026-05-02

xAI、Grok 4.3 を公開──NYT Connections ベンチマークで 67.5 点を記録し低コスト化

推論コストを削減した一方で、複雑なパズル解読能力が Grok 4.20 の 93.4 点から大幅に低下しており、モデルの軽量化と性能のトレードオフが鮮明になった。

xAI Grok LLM Benchmark

🔥🔥2026-04-27

Xiaomi、ネイティブ・オムニモーダルモデル MiMo-V2.5 を公開──310B パラメータの MoE 構成で 1M トークンに対応

テキスト・画像・動画・音声を統合処理する 310B MoE モデルで、KV キャッシュを 6 倍削減するハイブリッド Attention を採用した。

LLM MoE Multimodal HuggingFace

🔥🔥2026-04-27

Xiaomi MiMo、MoE モデル MiMo-V2.5-Pro を公開──1T パラメータで 1M トークンの長文脈推論を実現

ハイブリッドアテンションと Multi-Token Prediction を採用し、1M トークン環境下でも高い推論精度を維持するエージェント特化型モデル。

LLM MoE Agentic LongContext

🔥🔥2026-04-24

DeepSeek、V4 シリーズを公開──1.6T のオープンウェイト最大級モデルと圧倒的な低価格推論を実現

GPT-5.4 級に肉薄する性能を維持しつつ、KV キャッシュを前世代比最大 93% 削減。1M トークンの長文脈推論を既存フロンティアモデルの数分の一のコストで提供する。

LLM MoE OpenWeights DeepSeek

🔥🔥2025-05-28

LLM脱獄手法「The Gay Jailbreak」公開──「政治的正しさ」を逆手に取り GPT-4o や o3 の拒否を回避

特定の属性への配慮を優先するアライメントの脆弱性を突き、有害な指示を遂行させる新手法。安全策が強化されるほど突破しやすくなる逆説的な特性を持つ。

Jailbreak LLM Safety Alignment GPT-4o

🔥🔥2025-05-20

メタ学習論文「P」の実装による再現性と学習安定性の検証

メタ学習アルゴリズム「P」のオープンソース実装と、学習時におけるハイパーパラメータ依存性の解析。（原題: I implemented meta paper P）

Meta-Learning Reproducibility Implementation

🔥🔥2024-06-17

LLM の拒絶挙動を制御する「単一のベクトル」を特定──13 種のオープンモデルで実証

モデル内部の残留ストリームから特定の 1 次元を削除するだけで、安全ガードレールを無効化できるメカニズムを解明した。

LLM AI Safety Mechanistic Interpretability Jailbreak

🔥🔥2025-01-20

複数カメラの人物追跡で「ゴースト」をリアルタイム抑制──自己校正ホモグラフィで位置合わせを自動化

カメラ間の幾何学的関係を自動推定し、死角や重なりで生じる誤検知を排除。キャリブレーション不要で実環境へ導入可能。（原題: Self-calibrating cross-camera homography for real-time ghost prediction in multi-camera person tracking）

Multi-Camera Tracking Computer Vision Homography Real-time

🔥🔥2026-05-02