Google Gemini теперь может превратить в подкаст практически что угодно

Резюме

  • Google Gemini представляет функцию Audio Overviews, позволяющую пользователям создавать подкасты из загруженных документов.
  • Аудиообзоры используют ИИ для создания реалистичных голосов и увлекательных обсуждений содержания документов.
  • Аудиообзоры предоставляют удобный способ извлечения информации из документов в формате подкаста.

Говорят, что вы никогда не находитесь дальше шести футов от крысы, и в наши дни то же самое, вероятно, относится и к подкастерам. Кажется, что почти у каждого на планете либо есть подкаст, либо он собирается его начать.

С Google Gemini вы теперь можете создавать свои собственные подкасты, используя функцию под названием Audio Overviews. Все, что вам нужно сделать, это загрузить документ, и Gemini создаст короткий подкаст, глубоко погрузившись в содержимое документа с двумя хостами AI.

Что такое аудиообзоры в Google Gemini?

Audio Overviews — это новая функция в Gemini, которая ранее была доступна в приложении для заметок NotebookLM на базе искусственного интеллекта от Google. Функция способна обобщать информацию уникальным способом. Вместо того чтобы давать вам скучное текстовое резюме информации, Audio Overviews генерирует аудиофайл подкаста с двумя ведущими, созданными искусственным интеллектом, которые обсуждают информацию, которую вы хотите обобщить.

Google Gemini теперь может превратить в подкаст практически что угодно

Ведущие ведут беседу, обсуждая тему того, что они резюмируют, и задают друг другу вопросы, чтобы почерпнуть больше информации по конкретным ключевым моментам. В итоге получается то, что похоже на настоящий подкаст с двумя информированными людьми, обсуждающими тему.

В моем тестировании Gemini генерировал аудиообзоры, которые варьировались от пяти до пятнадцати минут в зависимости от того, сколько контента было в загруженных документах. 15-минутный подкаст, например, был сгенерирован из 146-страничного руководства для зеркальной камеры, в то время как даже одностраничный PDF-файл графика сбора мусора генерировал подкаст длиной пять минут.

Google Gemini теперь может превратить в подкаст практически что угодно

Что можно использовать для создания аудиообзоров?

Вы можете создавать аудиообзоры из широкого спектра различных источников в Gemini. Вы можете загрузить документ, и Gemini превратит любую информацию, содержащуюся в документе, в ваш собственный подкаст. Это не обязательно должны быть просто текстовые документы; вы можете загрузить презентацию Google Slides, и Gemini создаст аудиообзор на основе содержания слайдов.

Еще одна действительно полезная опция заключается в том, что вы можете генерировать аудиообзоры из отчета Deep Research. Deep Research — это функция, которая генерирует отчет по любой теме, которую вы выберете, придумывая план того, что исследовать, находя соответствующий контент в Интернете, а затем собирая найденную информацию в отчет. Результаты представляются в форме подробного письменного ответа, который разбивает все, что было обнаружено, но эти отчеты часто могут быть довольно длинными и довольно сухими.

Google Gemini теперь может превратить в подкаст практически что угодно

Однако после того, как вы сгенерировали отчет Deep Research, вы можете заставить Gemini превратить его в аудиообзор. Затем, вместо того, чтобы читать весь отчет, вы можете сесть и послушать, как два подкастера, созданные ИИ, подробно его обсуждают. Это может облегчить усвоение информации из отчета Deep Research без необходимости читать все детали.

Аудиообзоры кажутся отличным способом получить информацию с веб-страниц с большим количеством информации на них, но в настоящее время нет возможности сгенерировать аудиообзор из веб-ссылки. Однако вы можете скопировать содержимое в текстовый файл или сохранить содержимое веб-страницы в формате PDF, а затем Gemini с радостью создаст аудиообзор из содержимого. Я сохранил страницу Википедии об истории Бразилии в формате PDF, и Gemini создал подкаст из файла, в котором обсуждается история Бразилии, что было полезно и познавательно.

Google Gemini теперь может превратить в подкаст практически что угодно

Вы также не можете генерировать аудиообзоры из большинства файлов изображений, но я обнаружил, что если я сохраняю изображения в формате PDF, он, по крайней мере, пытается сгенерировать аудиообзор из файла. Однако, если на изображении нет читаемого текста, то генерация аудиообзора не сработает. Если изображение содержит текст, оно сработает; мне удалось заставить ведущих подкаста, сгенерированного ИИ, провести восторженное и глубокое обсуждение PDF-изображения моего местного графика сбора отходов.

Как создать аудиообзор

Когда вы загружаете документ в Gemini, нажимая на значок «+», вы должны увидеть всплывающее предложение над окном подсказки, которое вы можете нажать, чтобы сгенерировать свой аудиообзор. Однако, если оно не всплывает, все, что вам нужно сделать, это попросить Gemini сгенерировать аудиообзор из документа, и, если это допустимый документ с читаемым текстом, аудиообзор будет сгенерирован.

Google Gemini теперь может превратить в подкаст практически что угодно

Вы можете загрузить широкий спектр файлов, хотя не все из них могут подойти для создания аудиообзора. Поддерживаемые типы файлов включают следующие:

• Файлы C, CPP, PY, JAVA, PHP и SQL

• Файлы TXT, DOC, DOCX, PDF, RTF, DOT, DOTX, HWP и HWPX

• Файлы PPTX, XLS и CSV

• Google Документы и Google Презентации

Если у вас есть подписка Gemini Advanced, вы также можете загружать файлы HTML, XLSX, TSV и Google Sheets.

Как упоминалось выше, вы можете загружать изображения в Gemini, но вы не сможете сгенерировать Audio Overview из файлов изображений. Однако, если вы сохраните изображение в формате PDF, вы сможете создать Audio Overview, если изображение содержит какой-либо читаемый текст.

Генерация аудиообзора из отчета Deep Research также проста; после того, как вы сгенерировали отчет Deep Research, вы должны увидеть опцию для генерации аудиообзора для отчета. Однако я обнаружил, что это происходит не всегда. Если опция не отображается, вы можете просто попросить Gemini сгенерировать аудиообзор, и он создаст его для вас.

Насколько хороши аудиообзоры Gemini?

С тех пор, как чат-боты на основе ИИ ворвались на сцену, многие из их возможностей кажутся немного магическими. Меня до сих пор поражает, что за считанные мгновения ИИ может создавать изображения вещей, которые никогда не существовали на изображениях ранее, например, единорога с тремя ногами, катающегося на роликах на дискотеке. Аудиообзоры Gemini также могут казаться немного магическими.

Это потому, что результаты действительно впечатляют. Для начала, голоса очень реалистичны и создают ощущение, что вы слушаете настоящих людей. То, как они взаимодействуют, также очень хорошо сделано, с перерывами и тем, что ведущие иногда говорят друг с другом.

Google Gemini теперь может превратить в подкаст практически что угодно

При использовании этой функции мои результаты обычно были очень хорошими в плане выделения ключевых моментов документов и обсуждения их очень доступным образом. Я попытался загрузить руководство для старой пленочной камеры Canon EOS 3, которой я владею, и хозяева провели весьма информативную дискуссию о функции автофокусировки с отслеживанием глаз.

Я также загрузил неопубликованный сценарий, и ведущие очень увлекательно обсудили ключевые моменты сюжета, подхватив много юмора и большинство центральных частей сюжета. Однако результаты не всегда идеальны; в резюме сценария упущена ключевая часть сюжета, которая необходима для понимания как названия сценария, так и его пронзительной последней строки.

Аудиообзоры (в большинстве случаев) являются отличным способом доступа к информации

Некоторые функции ИИ могут ощущаться как компании, демонстрирующие, что может делать ИИ, а не как действительно полезные функции. Однако функция аудиообзора не ощущается таковой.

Прочтение длинного документа не всегда является самым простым способом извлечь из него ключевую информацию. Слушая, как два человека обсуждают информацию, можно легче выделить ключевые факты, не просеивая все это самостоятельно. Обсуждение двумя людьми — это умный ход, так как часто один из ведущих задает вопрос, о котором вы думали сами.

В частности, я обнаружил, что аудиообзоры очень полезны для отчетов Deep Research. Эти отчеты часто представляют собой длинные стены текста, и хотя они переполнены полезной информацией, чтение всего отчета может показаться чем-то вроде рутины. Аудиообзор отчета гораздо легче усваивается, и ИИ довольно хорошо справляется с извлечением важной информации, а не болтает о менее важных фактах.

Google Gemini теперь может превратить в подкаст практически что угодно

Это не значит, что аудиообзоры идеальны. Я обнаружил, что у меня часто возникает та же проблема с аудиообзорами, что и при прослушивании аудиокниг: я начинаю отключаться и пропускать то, что говорится. Затем мне приходится перематывать аудиообзор, чтобы наверстать то, что я пропустил.

Конечно, это не вина Audio Overviews, но я уверен, что я не единственный, кто страдает от этой проблемы. Для меня они работают лучше всего, когда у меня нет других отвлекающих факторов, например, если я иду на прогулку в наушниках, но у вас может быть по-другому.

Подкасты не всегда содержат всю информацию, которую вы, возможно, захотите извлечь. Аудиообзор сценария извлек большую часть центральных сюжетных моментов, но он упустил что-то, что не обязательно было центральным для сюжета, но определенно было центральной темой сценария.

Если вам не нравится читать большие объемы текста, чтобы извлечь нужную информацию, то аудиообзоры могут стать полезной альтернативой. Вы можете превратить почти все, что захотите, в свой собственный подкаст и попросить других людей объяснить вам ключевую информацию, вместо того, чтобы читать ее самостоятельно. Надеюсь, Google в какой-то момент добавит возможность генерировать аудиообзоры контента с веб-сайтов, потому что сейчас вам все еще нужно преодолеть несколько препятствий, чтобы это произошло.

Понравилась статья? Поделиться с друзьями: