(圖片取自TechRepublic)
當我們對著手機或智慧音箱說「Hi Siri」、「Alexa」、「OK Google」時竟然會有回應。應該有人每天都會問今天天氣如何吧?讓我們來了解一下,這些裝置是如何「理解」我們的語言?
這些都稱作「喚醒詞」(Wake-Word),是能夠啟動系統的用詞,當系統偵測到喚醒詞就會開始作動。由於系統也必須先辨識哪些才是人類語言,所以還要搭載語音辨識功能,先將人的對話切換成語音訊號。
切換成語音訊號後,還要轉換成電腦可以辨識的(數位化)資料,並將裡頭「有意含的語詞」辨識為「有相關性的語詞」。
(延伸閱讀:19 世紀的醫院宛如大型的細菌溫床!直到這位醫生出現才改變了整個世界(上))
語音辨識時,深度學習(Deep learning)就相當重要。先來說明一下什麼是深度學習。深度學習其實就是以數字在電腦裡重現人腦架構。這裡說的人腦架構指的是神經元(Neuron,構成腦的神經細胞)跟突觸(Synapse,與其他神經元的連結處)。
神經元要靠突觸互相連接,進一步去記憶或判斷。深度學習能夠魔法神經元和突觸的架構,形成層狀的人工神經網路(仿造人腦),並且不斷累加算出每個事物的相關信及重要信,幫助系統做判斷。
舉個例子,如果我說「ㄍㄠ ㄍㄨㄟˋ」。
人工智慧系統接收到「ㄍㄠ ㄍㄨㄟˋ」的發音後,會從幾個發音相近,容易混淆的項目中,挑選出我說的發音。
這時候還要運用深度學習。系統過去也曾聽過「ㄍㄠ ㄍㄨㄟˋ」,所以會挑選使用使用率較高的語詞。不過,「ㄍㄠˇ ㄍㄨㄟˇ」,所以會列入第二候選語詞。系統就是利用曾經出過的聲音,來逐一列出可能的選項。
接著,語音辨識系統會透過得到的資訊,進一步地分析人所使用的語詞或文章的含意,這就是自然語言處理(Natural Language Processing)。我說完「ㄍㄠ ㄍㄨㄟˋ」接著又說「ㄒㄧㄤ ㄑ一ˋ」,人工智慧系統以語音辨識出「ㄍㄠ ㄍㄨㄟˋ」後,也成功辨識出「ㄒㄧㄤ ㄑ一ˋ,同時意識到我在說的是「ㄍㄠ ㄍㄨㄟˋ ㄒㄧㄤ ㄑ一ˋ」,進一步從發音中擷取有意義的詞句王貞。
從「ㄍㄠ ㄍㄨㄟˋ」的發音,列出「高貴」、「搞鬼」、「搞怪」幾個有可能的語詞,接著再把「ㄒㄧㄤ ㄑ一ˋ」的可能語詞列出,並從中找出語詞本身有意義,過去曾使用過的用詞或短句。結果就會是「高貴香氣」。
(延伸閱讀:太空人的屍體在外太空會發生什麼狀況?讓美國殯葬業者告訴你)
深度學習會把過去聽過的發音、語詞及文章去作累加整合,並參考我們常使用的語詞或發音,挑選用詞或理解文章,所以使用者過去跟人工智慧的對話內容就很重要。系統會透過不斷學習,逐漸理解人們所說的內容。
*本文摘自《生活科學大哉問》,楓葉社出版。
左卷健男
1949年出生於栃木縣,千葉大學教育學士、東京學藝大學研究所碩士(研究領域為物理化學、科學教育)。在國中與高中任教26年後,於京都工藝纖維大學入學中心擔任教授,2004年起轉任同志社女子大學教授,自2008年起任職法政大學教授,同時身兼國、高中理科教科書編輯委員。著有《趣味物理研究所》(楓葉社)、《有趣到睡不著的化學》、《有趣到睡不著的自然科學》(快樂文化)、《圖解看不見的鄰居,微生物》(十力文化)等多本編著書籍。
美食(飯店餐廳、精緻餐飲)、品酒相關採訪需求通知 / 提供最新新聞資訊
請聯繫副總編輯 → 吳文元 chloe_wu@upmedia.mg
通路(百貨、超商、賣場、電商)、美食(速食、飲品、冰品)、科技手機家電相關採訪需求通知 / 提供最新新聞資訊
請聯繫生活中心副主編 → 林冠伶 ling_lin@upmedia.mg
旅遊、IP 文創、市集、交通、美食(甜食、早午餐餐廳)相關採訪需求通知 / 提供最新新聞資訊
請聯繫生活中心記者 → 周羿庭 ting.zhou@upmedia.mg
美食(鹹食、連鎖餐廳)、能源、醫療、親子、寵物相關採訪需求通知 / 提供最新新聞資訊
請聯繫生活中心記者 → 邱家琳 lynn@upmedia.mg
上報現在有其它社群囉,一起加入新聞不漏接!社群連結
追蹤上報生活圈https://bit.ly/2LaxUzP