Files
Leonardo Lara Rodrigues 4baf074b52 sync file lines with en rev
2026-01-27 09:14:27 -03:00

110 lines
3.6 KiB
XML
Raw Permalink Blame History

This file contains invisible Unicode characters
This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
<?xml version="1.0" encoding="utf-8"?>
<!-- EN-Revision: 1ca2d4af9471f44743281e6949cb53b8afcaefb8 Maintainer: leonardolara Status: ready --><!-- CREDITS: leonardolara -->
<chapter xmlns="http://docbook.org/ns/docbook" xmlns:xlink="http://www.w3.org/1999/xlink" xml:id="svm.examples">
&reftitle.examples;
<simpara>
O processo básico consiste em definir parâmetros, fornecer dados de treinamento para gerar um
modelo e, em seguida, fazer previsões com base no modelo. Há um conjunto padrão
de parâmetros que devem gerar resultados com praticamente qualquer entrada, então começaremos
analisando os dados.
</simpara>
<simpara>
Os dados são fornecidos em um arquivo, um fluxo ou como um array. Se fornecidos em
um arquivo ou fluxo, devem conter uma linha por exemplo de treinamento, que deve
ser formatado como uma classe inteira (geralmente 1 e -1) seguido por uma série de
pares característica/valor, em ordem crescente de característica. As características são números inteiros,
os valores são floats, geralmente em escala de 0 a 1. Por exemplo:
</simpara>
<simpara>
-1 1:0.43 3:0.12 9284:0.2
</simpara>
<simpara>
Em um problema de classificação de documentos, digamos, um verificador de spam, cada linha representaria
um documento. Haveria duas classes: -1 para spam e 1 para "ham".
Cada característica representaria uma palavra, e o valor representaria a
importância dessa palavra para o documento (talvez a contagem de frequência, com
o total dimensionado para o comprimento da unidade). Características que fossem 0 (por exemplo, a palavra não
aparecia no documento) simplesmente não seriam incluídas.
</simpara>
<simpara>
No modo array, os dados devem ser passados como um array de arrays. Cada subarray
deve ter a classe como primeiro elemento, e então conjuntos de chaves =&gt; valores para os
pares de valores de características.
</simpara>
<simpara>
Esses dados são passados para a função de treinamento da classe SVM, que retornará um
modelo SVM bem-sucedido.
</simpara>
<simpara>
Uma vez gerado, um modelo pode ser usado para fazer previsões sobre
dados nunca antes vistos. Isso pode ser passado como um array para a função de previsão
do modelo, no mesmo formato de antes, mas sem o rótulo.
A resposta será a classe.
</simpara>
<simpara>
Os modelos podem ser salvos e restaurados conforme necessário, usando as funções
de salvar e carregar, que recebem um local de arquivo.
</simpara>
<para>
<example>
<title>Treinamento com array</title>
<programlisting role="php">
<![CDATA[
<?php
$data = array(
array(-1, 1 => 0.43, 3 => 0.12, 9284 => 0.2),
array(1, 1 => 0.22, 5 => 0.01, 94 => 0.11),
);
$svm = new SVM();
$model = $svm->train($data);
$data = array(1 => 0.43, 3 => 0.12, 9284 => 0.2);
$result = $model->predict($data);
var_dump($result);
$model->save('model.svm');
?>
]]>
</programlisting>
&example.outputs.similar;
<screen>
<![CDATA[
int(-1)
]]>
</screen>
</example>
<example>
<title>Treinamento com arquivo</title>
<programlisting role="php">
<![CDATA[
<?php
$svm = new SVM();
$model = $svm->train("traindata.txt");
?>
]]>
</programlisting>
</example>
</para>
</chapter>
<!-- Keep this comment at the end of the file
Local variables:
mode: sgml
sgml-omittag:t
sgml-shorttag:t
sgml-minimize-attributes:nil
sgml-always-quote-attributes:t
sgml-indent-step:1
sgml-indent-data:t
indent-tabs-mode:nil
sgml-parent-document:nil
sgml-default-dtd-file:"~/.phpdoc/manual.ced"
sgml-exposed-tags:nil
sgml-local-catalogs:nil
sgml-local-ecat-files:nil
End:
vim600: syn=xml fen fdm=syntax fdl=2 si
vim: et tw=78 syn=sgml
vi: ts=1 sw=1
-->