Вентральная область покрышки мозга, ключевой центр вознаграждения, оказалась куда сложнее, чем думали раньше. Она не только дарит людям счастье, но и выполняет более тонкую функцию, чтобы не навредить мозгу воздействием дофамина и эндорфинов, которые в какой-то степени — [наркотики].
Новое исследование показывает, что эта область не просто предсказывает награду, а точно определяет момент её получения. Разные нейроны в этой области специализируются на различных временных интервалах. Одни реагируют на награду через несколько секунд, другие — через минуты, а третьи — в далёком будущем. Это помогает эффективно расставлять приоритеты и достигать как срочных, так и долгосрочных целей.
Вентральная область покрышки мозга (ПОВ) играет важную роль в мотивации и системе вознаграждения. Это небольшое скопление нейронов является основным источником дофамина – нейромодулятора, который вызывает реакцию на приятные стимулы. Изначально считалось, что ПОВ – это просто «центр удовольствия». Однако теперь нейробиологи из Женевского университета выяснили, что эта область кодирует не саму награду, а её предвкушение.
Эксперименты на животных показали, что если за световым сигналом всегда следовала награда, то со временем ПОВ начинала выделять дофамин не при получении награды, а сразу при появлении сигнала. Это явление, известное как «обучение с подкреплением», играет ключевую роль в процессе обучения человека и лежит в основе многих алгоритмов искусственного интеллекта.
Новое исследование показало, что кодирование информации в ПОВ сложнее, чем предполагалось ранее. Вместо того чтобы предсказывать общую сумму будущих вознаграждений, она прогнозирует их временную динамику. Это означает, что каждое ожидаемое вознаграждение представлено отдельно с указанием точного момента его получения.
Известно, что нейроны ПОВ предпочитают ближайшие вознаграждения. Однако исследование показало, что разные нейроны работают в разных временных масштабах: одни реагируют на награды через секунды, другие – через минуты, третьи – на отдалённую перспективу. Именно это разнообразие позволяет точно кодировать время вознаграждения, обеспечивая гибкость системы обучения и позволяя достигать как немедленных, так и отложенных целей.
Эти открытия стали возможны благодаря сотрудничеству нейронауки и искусственного интеллекта UNIGE. Исследователи создали алгоритм, который учитывает время обработки вознаграждений, и применили его к данным активности ПОВ у животных. Результаты соответствуют эмпирическим данным.