2025-12-30 21:28:26

Останнім часом я помічаю, що одна й та сама розмова з'являється від різних людей. "Зв'язно." але не в повсякденному сенсі. Вони говорять про щось дивніше — як результати від окремих запусків моделі продовжують з'являтися у схожих патернах, майже ніби вони сходяться десь. ніхто точно не знає чому це відбувається. один з них описав це як "рифмування" — різні нейронні архітектури, зовсім різні системи, але результати продовжують відлунювати схожими формами та структурами. Це той дивовижний момент, коли ти усвідомлюєш, що різні підходи до тренування та різні дизайни моделей якось приходять до подібних рішень. Це явище здається менш випадковим і більше схоже на якийсь глибший патерн, який ми ще намагаємося зрозуміти.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

13 лайків

Нагородити
13
5
Репост
Поділіться

Прокоментувати

0/400

HodlKumamon

· 22год тому

О, це обурливо, речі, які закінчуються в різних моделях, все одно можуть «римуватися», це схоже на рукостискання в якомусь невидимому вимірі --- Отже, хіба це не статистична конвергенція? Сюн Сюн вважає, що за цим стоїть якийсь математичний закон, який ми ще не зрозуміли --- Якщо ця хвиля правдива, вона буде надто дивною, і здається, що ми поступово наближаємося до певної істини, яка вирішує простір --- Зачекайте, різні архітектури можуть давати схожі результати? Чи може бути так, що насправді існує лише обмежене «оптимальне рішення»? --- Сюн Сюн трохи розгубився, чи це збіг, чи якийсь натяк від всесвіту? --- І справді, все зрештою закінчиться однаково, і версія глибокого навчання «Dao Ke Dao — це не Dao», ха-ха --- Молодець, це трохи нагадує статтю, яку я читав про ландшафт функцій втрат --- Цікаво, чи хтось справді може пояснити механізм цього, чи ми всі не бачимо слона