一覽機器學習常用的十類算法

AI技術發展的三大支柱：“算法＋大數據＋計算能力”，算法是人工智能發展的核心關鍵之一，很多技術環節和系統功能的實現都依賴于算法的精准度，算法的優劣直接影響了人工智能的發展方向。那麽我們當下感受到的人工智能生活服務，運用了哪些AI算法呢？跟隨OFweek編輯一起來看看吧。

1．人工神經網絡

人工神經網絡（ANN）以大腦處理機制作爲基礎，開發用于建立複雜模式和預測問題的算法。該類型算法在語音、語義、視覺、各類遊戲等任務中表現極好，但需要大量數據進行訓練，且訓練要求很高的硬件配置。

ANN在圖像和字符識別中起著重要的作用，手寫字符識別在欺詐檢測甚至國家安全評估中有很多應用。ANN 的研究爲深層神經網絡鋪平了道路，是「深度學習」的基礎，現已在計算機視覺、語音識別、自然語言處理等方向開創了一系列令人激動的創新。

2．決策樹

在機器學習中，決策樹是一個預測模型，他代表的是對象屬性與對象值之間的一種映射關系。其采用一種樹形結構，其中每個內部節點表示一個屬性上的測試，每個分支代表一個測試輸出，每個葉節點代表一種類別。

決策樹算法屬于非參數型，較爲容易解釋，但其趨向過擬合；可能陷入局部最小值中；無法在線學習。決策樹的生成主要分爲兩步：1．節點的分裂：當一個節點所代表的屬性無法給出判斷時，則選擇將該節點分成2個子節點 2．阈值的確定：選擇適當的阈值使得分類錯誤率最小。

3．集成算法

簡單算法一般複雜度低、速度快、易展示結果，其中的模型可以單獨進行訓練，並且它們的預測能以某種方式結合起來去做出一個總體預測。每種算法好像一種專家，集成就是把簡單的算法組織起來，即多個專家共同決定結果。

集成算法比使用單個模型預測出來的結果要精確的多，但需要進行大量的維護工作。

AdaBoost的實現是一個漸進的過程，從一個最基礎的分類器開始，每次尋找一個最能解決當前錯誤樣本的分類器。好處是自帶了特征選擇，只使用在訓練集中發現有效的特征，這樣就降低了分類時需要計算的特征數量，也在一定程度上解決了高維數據難以理解的問題。

4．回歸算法

回歸分析是在一系列的已知自變量與因變量之間的相關關系的基礎上，建立變量之間的回歸方程，把回歸方程作爲算法模型，通過其來實現對新自變量得出因變量的關系。因此回歸分析是實用的預測模型或分類模型。

5．貝葉斯算法

樸素貝葉斯分類是一種十分簡單的分類算法：對于給出的待分類項，求解在此項出現的條件下各個類別出現的概率，哪個最大，就認爲此待分類項屬于哪個類別。

樸素貝葉斯分類分爲三個階段，1．根據具體情況確定特征屬性，並對每個特征屬性進行適當劃分，形成訓練樣本集合2．計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計3．使用分類器對待分類項進行分類。

6．K近鄰

K緊鄰算法的核心是未標記樣本的類別，計算待標記樣本和數據集中每個樣本的距離，取距離最近的k個樣本。待標記的樣本所屬類別就由這k個距離最近的樣本投票産生，給定其測試樣本，基于某種距離度量找出訓練集中與其最靠近的k個訓練樣本，然後基于這k個“鄰居”的信息來進行預測。

K緊鄰算法准確性高，對異常值和噪聲有較高的容忍度，但計算量較大，對內存的需求也較大。該算法主要應用于文本分類、模式識別、圖像及空間分類。

7．聚類算法

聚類算法是機器學習中涉及對數據進行分組的一種算法。在給定的數據集中，我們可以通過聚類算法將其分成一些不同的組。應用中可利用聚類分析，通過將數據分組可以比較清晰的獲取到數據信息。該算法讓數據變得有意義，但存在結果難以解讀，針對不尋常的數據組，結果可能無用。

在商業領域中，聚類可以幫助市場分析人員從消費者數據庫中區分出不同的消費群體來，並且概括出每一類消費者的消費模式或者說習慣。

8．隨機森林算法

隨機森林是一種有監督學習算法，基于決策樹爲學習器的集成學習算法。隨機森林非常簡單，易于實現，計算開銷也很小，但是它在分類和回歸上表現出非常驚人的性能，因此，隨機森林被譽爲“代表集成學習技術水平的方法”。

隨機森林擁有廣泛的應用前景，從市場營銷到醫療保健保險，既可以用來做市場營銷模擬的建模，統計客戶來源，保留和流失，也可用來預測疾病的風險和病患者的易感性。

9．支持向量機

支持向量機通過尋求結構化風險最小來提高學習機泛化能力，實現經驗風險和置信範圍的最小化，從而達到在統計樣本量較少的情況下，亦能獲得良好統計規律的目的。它是一種二類分類模型，其基本模型定義爲特征空間上的間隔最大的線性分類器，即支持向量機的學習策略便是間隔最大化，最終可轉化爲一個凸二次規劃問題的求解。

支持向量機可應用于諸如文本分類，圖像分類，生物序列分析和生物數據挖掘，手寫字符識別等領域。

10．深度學習

深度學習基于人工神經網絡的機器學習，區別于傳統的機器學習，深度學習需要更多樣本，換來更少的人工標注和更高的准確率。

深度學習是學習樣本數據的內在規律和表示層次，這些學習過程中獲得的信息對諸如文字，圖像和聲音等數據的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力，能夠識別文字、圖像和聲音等數據。作爲複雜的機器學習算法，在語音和圖像識別方面取得的效果，遠遠超過先前相關技術。

小結

算法是計算機科學領域最重要的基石之一，當下需要處理的信息量是呈指數級的增長，每人每天都會創造出大量數據，無論是三維圖形、海量數據處理、機器學習、語音識別，都需要極大的計算量，在AI時代越來越多的挑戰需要靠卓越的算法來解決。

薦：

【中國風動漫】除了《哪吒》，這些良心國産動畫也應該被更多人知道！

聲明

來源：OFweek人工智能，RAD極客會（ID:RAD_Geek_Club）推薦閱讀，不代表RAD極客會立場，轉載請注明，如涉及作品版權問題，請聯系我們刪除或做相關處理！

財經