כדי להבין הרבה יותר טוב מה ואיך זה עובד, במכתבים רחבים, מערכת של קול סינתטי אני רוצה להתייחס לדוגמא ברורה שבוודאי שכולנו נתקלנו בה בזמן כלשהו, במיוחד אני מדבר על אותם סרטונים שנמצאים ב- YouTube, כמו גם על שירותי אינטרנט אחרים שבהם המספר מדבר דרך מחשב קול שנוצר. אולי תוכנת הקריאה הידועה והנפוצה ביותר היא לוקנדו למרות שהיום האמת היא שמערכות אלה התפתחו רבות, יש לנו את ההוכחה Cortana o Siri.
היום תוכנית סינתזת הדיבור האחרונה והמתוחכמת שהוצגה על ידי Google, תוכנה הידועה בשם ווינט וזה נוצר על ידי המהנדסים השייכים למחלקה Deepmind, חברת בינה מלאכותית שנרכשה על ידי גוגל בשנת 2014. WayNet היא תוכנת סינתזת דיבור המבוססת על אלגוריתמים מורכבים של בינה מלאכותית המתפקדת כמערכת עצבית מורכבת.
WaveNet, סינתיסייזר קולי מהפכני שיפתיע אתכם
בין החידושים שמציגה WayNet, יש לציין כי למרות שעד כה השיטה העיקרית בה הייתה הנה TTS, טקסט לדיבור, בו שולבו שברי דיבור מוקלטים שונים לבניית מילים ומשפטים, או המכונים פרמטרית TTS, שיטה ששולחת את הטקסט למקודד דיבור שתוצאותיו אפילו פחות טבעיות מהקודם, אנו מוצאים כעת כי WayNet, במקום רק לשלב ולהשמיע אודיו, משלבת מערכת בינה מלאכותית מורכבת המסוגלת ללמוד ולהתאים עצמה להקשר.
מערכת חדשה זו מסוגלת לבצע 16.000 דגימות לשנייה המאפשר לך אפילו ליצור רצפי שמע משלך ללא התערבות אנושית. מצד שני, ראוי להזכיר כי המהנדסים האחראים על פיתוחה הציגו מערכת המסוגלת לנקוט בסטטיסטיקה כדי לחזות את מה שיהיה לה לומר בהמשך וכך להבטיח שהמערכת תציע תוצאות בצורה הרבה יותר מהירה ונזילה. אם אתה מעוניין ב- WayNet, אמור לך שבאתר האינטרנט שלו תוכל האזינו לדוגמאות שונות באנגלית ובסינית מנדרינית.
מידע נוסף: Deepmind