Spotify’s new ‘DJ’ feature is the first step into the streamer’s AI-powered future

Spotify ma większe plany co do technologii stojącej za nową funkcją AI DJ, po tym jak spotkał się z pozytywną reakcją konsumentów na nową funkcję. Funkcja AI DJ, która została uruchomiona tuż przed imprezą Stream On w Los Angeles w zeszłym tygodniu, tworzy spersonalizowany wybór muzyki w połączeniu z komentarzem słownym, który jest przekazywany realistycznie brzmiącym głosem generowanym przez AI. Jednak pod maską funkcja wykorzystuje najnowsze technologie AI i duże modele językowe, a także głos generatywny – wszystkie te elementy są nałożone na istniejące inwestycje Spotify w personalizację i uczenie maszynowe.

Te nowe narzędzia nie muszą być ograniczone do jednej funkcji, dlatego Spotify eksperymentuje z innymi zastosowaniami technologii.

Choć najważniejszym punktem spotkania Spotify z okazji Stream On było odświeżenie aplikacji mobilnej, która teraz skupia się na przypominających TikTok kanałach odkrywania muzyki, podcastów i audiobooków, DJ AI jest teraz znaczącą częścią nowego doświadczenia serwisu streamingowego. Wprowadzony pod koniec lutego dla subskrybentów Spotify Premium w USA i Kanadzie, DJ został zaprojektowany tak, aby poznać użytkowników tak dobrze, że mógłby odtwarzać wszystko, co chcesz usłyszeć za pomocą jednego przycisku.

Po wprowadzeniu zmian w aplikacji, DJ pojawi się w górnej części ekranu w podkatalogu Muzyka dla subskrybentów, służąc zarówno jako sposób na spokojne przesyłanie ulubionej muzyki, jak i sposób na zachęcenie darmowych użytkowników do aktualizacji.

Aby stworzyć komentarz, który towarzyszy muzyce przesyłanej przez DJ-a, Spotify twierdzi, że wykorzystał bazę wiedzy i spostrzeżeń własnych ekspertów muzycznych. Korzystając z technologii generatywnej sztucznej inteligencji OpenAI, DJ jest następnie w stanie skalować swój komentarz do użytkowników końcowych aplikacji. W przeciwieństwie do ChatGPT, który próbuje tworzyć odpowiedzi poprzez destylację informacji znalezionych w sieci, bardziej ograniczona baza wiedzy muzycznej Spotify zapewnia, że komentarz DJ-a jest zarówno trafny, jak i dokładny.

Rzeczywiste wybory muzyczne wybierane przez DJ-a pochodzą z istniejącego zrozumienia gustów i zainteresowań użytkownika, odzwierciedlając to, co wcześniej zostało zaprogramowane w spersonalizowanych listach odtwarzania, takich jak Discover Weekly i inne.

Głos DJ-a został stworzony przy użyciu technologii, którą Spotify nabyło od Sonatic w zeszłym roku i jest oparty na głosie Xaviera „X” Jernigana, gospodarza nieistniejącego już porannego podcastu Spotify „The Get Up”. Co zaskakujące, głos brzmi niezwykle realistycznie i wcale nie jest robotyczny. (Podczas wydarzenia na żywo Spotify, Jernigan mówił obok swojego sobowtóra AI i różnice były trudne do zauważenia. „Mogę słuchać swojego głosu cały dzień” – zażartował).

„Powód, dla którego brzmi tak dobrze – to właściwie cel technologii Sonatic, zespołu, który nabyliśmy. Chodzi o emocje w głosie” – wyjaśnia szef personalizacji Spotify, Ziad Sultan, w rozmowie z TechCrunch po zawinięciu Stream On. „Kiedy usłyszysz DJ-a AI, usłyszysz, gdzie jest pauza na oddech. Usłyszysz różne intonacje. Możesz usłyszeć podniecenie dla pewnych rodzajów gatunków” – mówi.

Naturalnie brzmiący głos AI nie jest oczywiście niczym nowym – Google zadziwił świat swoją własną, ludzko brzmiącą kreacją AI wiele lat temu. Jej implementacja w Duplex spotkała się jednak z krytyką, ponieważ SI dzwoniła do firm w imieniu użytkownika końcowego, początkowo nie ujawniając, że nie jest to prawdziwa osoba. Nie powinno być podobnych obaw w przypadku funkcji Spotify, biorąc pod uwagę, że jest ona nawet nazywana „AI DJ”.

Aby głos AI Spotify brzmiał naturalnie, Jernigan udał się do studia, aby wyprodukować wysokiej jakości nagrania głosowe, współpracując przy tym z ekspertami w dziedzinie technologii głosowej. Tam został poinstruowany, aby przeczytać różne linie przy użyciu różnych emocji, które są następnie wprowadzane do modelu AI. Spotify nie powiedziałoby, jak długo trwa ten proces, ani nie podało szczegółów, zauważając, że technologia ewoluuje i odnosząc się do niej jako do swojego „tajnego sosu”.

„Z tej wysokiej jakości danych wejściowych, które mają wiele różnych permutacji, [Jernigan] nie musi już nic mówić – teraz jest to czysto generowane przez AI”, mówi Sultan o wygenerowanym głosie. Mimo to, Jernigan czasami wpada do pokoju pisarzy Spotify, aby zaoferować informacje zwrotne na temat tego, jak przeczytałby daną linijkę, aby mieć pewność, że będzie miał ciągły wkład.

Ale podczas gdy DJ AI jest zbudowany przy użyciu kombinacji technologii Sonantic i OpenAI, Spotify inwestuje również w wewnętrzne badania, aby lepiej zrozumieć najnowszą sztuczną inteligencję i duże modele językowe.

„Mamy zespół badawczy, który pracuje nad najnowszymi modelami językowymi”, Sultan mówi TechCrunch. Ma kilkaset osób pracujących nad personalizacją i uczeniem maszynowym, w rzeczywistości. W przypadku AI DJ, zespół korzysta z modelu OpenAI, zauważa Sultan. „Ale ogólnie rzecz biorąc, mamy duży zespół badawczy, który rozumie wszystkie możliwości w ramach Large Language Models, w ramach generatywnego głosu, w ramach personalizacji. To się szybko zmienia” – mówi. „Chcemy być znani z naszej wiedzy o AI”.

Spotify może, ale nie musi korzystać z własnej, wewnętrznej technologii AI, aby zasilić przyszły rozwój. Może zdecydować, że bardziej sensowna jest współpraca z partnerem, tak jak to robi teraz z OpenAI. Ale jest jeszcze za wcześnie, aby to stwierdzić.

„Stale publikujemy dokumenty” – mówi Sultan. „Będziemy inwestować w najnowsze technologie – jak można sobie wyobrazić, w tej branży LLM to taka technologia. Będziemy więc rozwijać wiedzę specjalistyczną”.

Z tą fundamentalną technologią, Spotify może przeć do przodu w inne obszary obejmujące AI, LLMs i generatywną technologię AI. Co do tego, jakie mogą być te obszary w zakresie produktów konsumenckich, firma nie chce jeszcze powiedzieć. (Słyszeliśmy, że chatbot w stylu ChatGPT jest jedną z opcji, z którą się eksperymentuje. Ale nic nie jest ustalone w kwestii premiery, ponieważ jest to jeden eksperyment wśród wielu innych).

„Nie ogłosiliśmy dokładnych planów, kiedy możemy rozszerzyć się na nowe rynki, nowe języki itp. Ale to technologia, która jest platformą. Możemy to zrobić i mamy nadzieję podzielić się więcej w miarę rozwoju” – mówi Sultan.

Wczesne opinie konsumentów na temat AI są obiecujące, twierdzi Spotify

Firma nie chciała rozwijać pełnego zestawu produktów AI, ponieważ nie była pewna, jaka będzie reakcja konsumentów na DJ-a. Czy ludzie będą chcieli mieć DJ-a z SI? Czy angażowaliby się w tę funkcję? Żadna z tych kwestii nie była jasna. W końcu asystent głosowy Spotify („Hey Spotify”) został zamknięty z powodu braku akceptacji.

Ale były wczesne znaki, że funkcja DJ może zrobić dobrze. Spotify testowało produkt wewnętrznie wśród pracowników przed uruchomieniem, a wskaźniki wykorzystania i ponownego zaangażowania były „bardzo, bardzo dobre”.

Publiczna adopcja, jak dotąd, pasuje do tego, co Spotify widziało wewnętrznie, mówi nam Sultan. Oznacza to, że istnieje potencjał do tworzenia przyszłych produktów wykorzystujących te same fundamenty.

„Ludzie spędzają godziny dziennie z tym produktem… pomaga im w wyborze, w odkrywaniu, opowiada im o następnej muzyce, której powinni posłuchać i wyjaśnia im dlaczego… więc reakcja – jeśli sprawdzisz różne media społecznościowe, zobaczysz, że jest bardzo pozytywna, emocjonalna,” mówi Sultan.

Ponadto Spotify podzieliło się informacją, że w dniach, w których użytkownicy się dostroili, spędzili 25% czasu na słuchaniu z DJ-em, a ponad połowa osób słuchających po raz pierwszy wraca do korzystania z funkcji już następnego dnia. Te dane są jednak wczesne, ponieważ funkcja nie jest jeszcze w 100% wdrożona w USA i Kanadzie. Ale są obiecujące, jak uważa firma.

„Myślę, że jest to jeden niesamowity krok w budowaniu relacji pomiędzy naprawdę wartościowymi produktami a użytkownikami” – mówi Sultan. Ale przestrzega, że wyzwaniem, jakie przed nami stoi, będzie „znalezienie odpowiedniej aplikacji, a następnie jej poprawne zbudowanie”.

„W tym przypadku powiedzieliśmy, że jest to AI DJ dla muzyki. Stworzyliśmy dla niej pokój pisarzy. Oddaliśmy go w ręce użytkowników, aby wykonał dokładnie taką pracę, jaką miał wykonać. To działa super dobrze. Ale zdecydowanie fajnie jest marzyć o tym, co jeszcze moglibyśmy zrobić i jak szybko moglibyśmy to zrobić” – dodaje.

Leave a Comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Scroll to Top