<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>데이터와 인공지능 훑어보기</title>
    <link>https://yumdata.tistory.com/</link>
    <description>데이터와 인공지능의 기본개념부터 언어 모델을 활용한 애플리케이션 개발까지 다양한 주제와 관심사를 공유하는 공간입니다.</description>
    <language>ko</language>
    <pubDate>Sun, 7 Jun 2026 07:00:13 +0900</pubDate>
    <generator>TISTORY</generator>
    <ttl>100</ttl>
    <managingEditor>데이터 세상</managingEditor>
    <item>
      <title>[금융 시스템] 금융권 IT시스템에 대한 이해</title>
      <link>https://yumdata.tistory.com/444</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1118&quot; data-origin-height=&quot;845&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/95iaQ/dJMcafx8OE5/RkXpkGnREeEw4dzrTBWck0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/95iaQ/dJMcafx8OE5/RkXpkGnREeEw4dzrTBWck0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/95iaQ/dJMcafx8OE5/RkXpkGnREeEw4dzrTBWck0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F95iaQ%2FdJMcafx8OE5%2FRkXpkGnREeEw4dzrTBWck0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1118&quot; height=&quot;845&quot; data-origin-width=&quot;1118&quot; data-origin-height=&quot;845&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;채널계 (Channel System)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;최종 사용자가 사용하는 다양한 &lt;b&gt;접속 채널&lt;/b&gt;을 담당하는 시스템입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;고객이 직접 접하는 인터넷뱅킹, 텔레뱅킹, 모바일 앱 등 다양한 비대면 채널을 관리합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;채널계와 대외계는 모두 외부와 연계되는 만큼 DMZ 구간에 구성해 &lt;b&gt;내부 시스템과 분리&lt;/b&gt;됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;대외계 (External System)&lt;/h3&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;금융 기관과 외부 기관 또는 시스템 간의 연계&lt;/b&gt;를 위한 시스템입니다. 각 금융기관의 대내외 망을 연결하는 시스템으로, 외부 금융 네트워크와의 연동, 결제 시스템, 신용평가 기관과의 데이터 공유 등을 포함할 수 있습니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;금융 기관은 다른 기관과의 상호 운영 및 데이터 교환을 원활하게 할 수 있습니다. 전자금융, 사이버 증권, 기업 뱅킹, 신용 정보 등의 채널을 통합적으로 관리합니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;이에는 외환 거래, 국제 송금, 대외 결제, 정부나 다른 금융 기관과의 보고 및 조정 작업 등이 포함됩니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;기간계 (Core Banking System)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;은행이나 금융 기관의 핵심 시스템&lt;/b&gt;으로, 은행 계좌 관리, 입출금, 대출, 이체, 이자 계산 등 핵심적인 금융 업무를 처리하는 시스템입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;기간계는 계정계, 정보계, 운영계와도 연계되어 작동합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;계정계 (Accounting System)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;금융 기관의 핵심 업무 처리 시스템으로, 주로 &lt;b&gt;재무 관련 업무를 담당&lt;/b&gt;합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 시스템은 예금, 대출, 투자와 같은 기본적인 금융 거래를 처리하며, 이에 따른 계정 관리, 잔액 관리, 이자 계산 등을 수행합니다. 계정계는 금융 기관의 기본적인 거래 기록을 유지하고, 재무 보고와 감사를 위한 필수적인 데이터를 제공합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;금융권 영업점에서 실시간으로 고객의 거래를 처리합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;정보계 (Information System)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;금융 기관의 &lt;b&gt;내부 업무 처리와 관리를 위한 시스템&lt;/b&gt;입니다. 고객 정보 관리, 계정 정보, 거래 내역, 보안 및 인증, 데이터 분석 및 내부 보고 등을 다룹니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;거래 데이터를 관리하고, 거래 활동을 분석하며 측정하고, 저장된 데이터를 활용하여 앞으로의 예측, 결산, 분석 등의 업무를 처리합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 시스템은 주로 내부 직원들에 의해 사용됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;운영계 (Operational System)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;금융 기관의 일상적인 내부 운영 업무를 지원하는 시스템입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 시스템은 인사 관리, 자산 관리, 공급망 관리, 시설 관리 등과 같은 비금융적인 업무를 처리합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;운영계는 금융 기관의 내부 프로세스를 효율화하고, 조직의 전반적인 운영 효율성을 향상시키는 데 중점을 둡니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>Economy</category>
      <category>계정계</category>
      <category>금융IT</category>
      <category>기간계</category>
      <category>대외계</category>
      <category>운영계</category>
      <category>정보계</category>
      <category>채널계</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/444</guid>
      <comments>https://yumdata.tistory.com/444#entry444comment</comments>
      <pubDate>Wed, 5 Nov 2025 23:55:01 +0900</pubDate>
    </item>
    <item>
      <title>MoE(Mixture of Experts)</title>
      <link>https://yumdata.tistory.com/443</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;MoE(Mixture of Experts), 전문가 조합 모델&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;전문가 조합(MoE)은&amp;nbsp;&lt;/span&gt;&lt;b&gt;1991년 Jacobs 등이 처음 제한한 고전적인 앙상블 기법&lt;/b&gt;입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;논문: &lt;a href=&quot;https://www.cs.toronto.edu/~fritz/absps/jjnh91.pdf&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot;&gt;로컬 전문가의 적응형 조합(&lt;span style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot;&gt;Adaptive Mixture of Local Experts)&lt;/span&gt;&lt;/span&gt;&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;881&quot; data-origin-height=&quot;425&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bqRveR/btsQ9XMo0Er/UsMpgkzMza4i5D7K12nVl0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bqRveR/btsQ9XMo0Er/UsMpgkzMza4i5D7K12nVl0/img.png&quot; data-alt=&quot;MoE layer from the Outrageously Large Neural Network paper&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bqRveR/btsQ9XMo0Er/UsMpgkzMza4i5D7K12nVl0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbqRveR%2FbtsQ9XMo0Er%2FUsMpgkzMza4i5D7K12nVl0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;613&quot; height=&quot;296&quot; data-origin-width=&quot;881&quot; data-origin-height=&quot;425&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;MoE layer from the Outrageously Large Neural Network paper&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;인공 지능 모델&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;을 입력 데이터의 하위 집합을 전문으로 하는 별도의 하위 네트워크(또는 '전문가')로 나누어 작업을 공동으로 수행하는 머신 러닝&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;&amp;nbsp;접근 방식입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;즉, 하나의 거대 모델이 모든 데이터를 처리하는 대신 &lt;b&gt;여러 개의 작은 '전문가' 모델들이 입력 데이터의 일부에만 특화되어 작동하는 방식&lt;/b&gt;&lt;span style=&quot;text-align: start;&quot;&gt;입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;전문가 조합 아키텍처를 활용하면 수십억 개의 매개변수로 구성된 대규모 모델도 사전 학습 중 계산 비용을 크게 줄이고 추론 시간 동안 더 빠른 성능을 달성할 수 있습니다. 광범위하게 말하면 모든 작업에 대해 전체 신경망&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;을 활성화하는 대신 특정 작업에 필요한 특정 전문가만 선택적으로 활성화함으로써 이러한 효율성을 달성합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot; data-huuid=&quot;9917870676736786248&quot;&gt;이 구조는 게이트 네트워크가 각 입력 데이터를 적합한 전문가에게 라우팅하고, 해당 전문가의 결과만 결합하여 사용하는 희소(sparse) 방식입니다.&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot; data-huuid=&quot;9917870676736784161&quot;&gt;따라서 모델의 전체 파라미터 수는 늘어나지만, 한 번의 추론에 사용되는 연산량은 줄어들어 효율성을 극대화할 수 있습니다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot; data-huuid=&quot;9917870676736784161&quot;&gt;MoE 모델 동작 원리&lt;/span&gt;&lt;/h3&gt;
&lt;div style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot;&gt;
&lt;div id=&quot;rich-text-73c34af395&quot; style=&quot;color: #161616;&quot; data-dynamic-inner-content=&quot;description&quot;&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;MoE 모델은 큰 신경망 내에서 각각 자체 하위 네트워크인 여러 '전문가'를 지정하고 주어진 입력에 가장 적합한 특정 전문가만 활성화하도록&lt;span&gt;&amp;nbsp;&lt;/span&gt;게이팅 네트워크(또는&lt;span&gt;&amp;nbsp;&lt;/span&gt;라우터)의 학습을 진행하여 데이터를 처리합니다.&lt;/p&gt;
&lt;div style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot;&gt;
&lt;div id=&quot;rich-text-e6ffcdca66&quot; style=&quot;color: #161616;&quot; data-dynamic-inner-content=&quot;description&quot;&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;MoE 접근 방식의 주요 이점은 각 입력 토큰에 대해 전체 신경망을 활성화하는 대신&lt;span&gt;&amp;nbsp;&lt;/span&gt;희소성을 적용함으로써 기본적으로 계산 비용을 일정하게 유지하면서 모델 용량을 늘릴 수 있다는 것입니다.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;아키텍처 수준에서 이는 기존의 밀집 FFN(피드포워드 네트워크) 레이어를 희소 MoE 레이어(또는&amp;nbsp;블록)로 대체하여 구현됩니다. 신경망 용어에서 '블록'은 특정 기능을 수행하는 반복되는 구조적 요소를 나타냅니다. 희소 MoE 모델(SMoE)에서 이러한 전문가 블록은 단일 계층, 독립형 FFN 또는 그 자체로 중첩된 MoE일 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예를 들어, Mistral의&lt;span&gt;&amp;nbsp;&lt;/span&gt;Mixtral 8x7B&lt;span&gt;&amp;nbsp;&lt;/span&gt;언어 모델에서 각 계층은 8개의 피드포워드 블록, 즉 전문가로 구성되며 각 블록에는 70억 개의 매개변수가 있습니다. 모든 토큰에 대해 각 계층에서 라우터 네트워크는 데이터를 처리할 8명의 전문가 중 2명을 선택합니다. 그런 다음 이 두 전문가의 출력을 결합하고 결과를 다음 계층으로 전달합니다. 지정된 레이어에서 라우터가 선택한 특정 전문가는 이전 또는 다음 레이어에서 선택한 전문가와 다를 수 있습니다.&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;621&quot; data-origin-height=&quot;450&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dnqwsM/btsRcRpPSJr/blz1LpU8vlKbLKmiTlFxd1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dnqwsM/btsRcRpPSJr/blz1LpU8vlKbLKmiTlFxd1/img.png&quot; data-alt=&quot;Mixtral 8x7B 모델에 대한 가능한 해석&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dnqwsM/btsRcRpPSJr/blz1LpU8vlKbLKmiTlFxd1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdnqwsM%2FbtsRcRpPSJr%2Fblz1LpU8vlKbLKmiTlFxd1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;621&quot; height=&quot;450&quot; data-origin-width=&quot;621&quot; data-origin-height=&quot;450&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Mixtral 8x7B 모델에 대한 가능한 해석&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;545&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/unCy8/btsQ9rzNKkP/9RXGScakvSpdgxkYWlARrK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/unCy8/btsQ9rzNKkP/9RXGScakvSpdgxkYWlARrK/img.png&quot; data-alt=&quot;단순화된 Mixtral 8x7B 모델 아키텍처&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/unCy8/btsQ9rzNKkP/9RXGScakvSpdgxkYWlARrK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FunCy8%2FbtsQ9rzNKkP%2F9RXGScakvSpdgxkYWlARrK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;600&quot; height=&quot;545&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;545&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;단순화된 Mixtral 8x7B 모델 아키텍처&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;핵심&amp;nbsp;원리&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;전문가(Expert)&amp;nbsp;네트워크:&amp;nbsp;특정&amp;nbsp;작업에&amp;nbsp;특화된&amp;nbsp;여러&amp;nbsp;개의&amp;nbsp;신경망으로&amp;nbsp;구성됩니다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;게이트(Gate) 네트워크: 입력 데이터가 어떤 전문가에게 가동되어야 할지 결정하고, 각 전문가의 출력에 대한 가중치를 부여합니다.&amp;nbsp;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;작동 방식&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;입력 데이터가 게이트 네트워크를 통과합니다.&lt;/li&gt;
&lt;li&gt;게이트 네트워크는 입력에 따라 하나 이상의 전문가를 선택합니다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;선택된&amp;nbsp;전문가들이&amp;nbsp;데이터를&amp;nbsp;처리하고,&amp;nbsp;결과는&amp;nbsp;게이트&amp;nbsp;네트워크가&amp;nbsp;정한&amp;nbsp;가중치에&amp;nbsp;따라&amp;nbsp;결합되어&amp;nbsp;최종&amp;nbsp;출력을&amp;nbsp;생성합니다.&amp;nbsp;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;장점&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;연산 효율성: 입력 데이터마다 일부 전문가만 활성화되므로, 모델 크기가 커져도 추론에 드는 계산 비용을 절감할 수 있습니다.&lt;/li&gt;
&lt;li&gt;모델 용량 확장: 계산 오버헤드 부담을 최소화하면서 모델의 전체 용량을 크게 확장할 수 있습니다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;성능&amp;nbsp;향상:&amp;nbsp;특정&amp;nbsp;데이터&amp;nbsp;유형에&amp;nbsp;특화된&amp;nbsp;전문가들이&amp;nbsp;전문성을&amp;nbsp;발휘하여&amp;nbsp;전체&amp;nbsp;모델의&amp;nbsp;성능을&amp;nbsp;높일&amp;nbsp;수&amp;nbsp;있습니다.&amp;nbsp;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;활용 분야&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;대규모 언어 모델(LLM)을 포함한 다양한 딥러닝 응용 분야에서 효율성과 성능을 높이기 위해 널리 활용되고 있습니다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;특히&amp;nbsp;Mistral&amp;nbsp;AI의&amp;nbsp;Mistral&amp;nbsp;7B&amp;nbsp;모델처럼&amp;nbsp;여러&amp;nbsp;개의&amp;nbsp;작은&amp;nbsp;모델을&amp;nbsp;MoE&amp;nbsp;구조로&amp;nbsp;결합하는&amp;nbsp;방식이&amp;nbsp;주목받고&amp;nbsp;있습니다.&amp;nbsp;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://www.ibm.com/kr-ko/think/topics/mixture-of-experts&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://www.ibm.com/kr-ko/think/topics/mixture-of-experts&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://developer.nvidia.com/ko-kr/blog/applying-mixture-of-experts-in-llm-architectures/&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://developer.nvidia.com/ko-kr/blog/applying-mixture-of-experts-in-llm-architectures/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Foundation Model</category>
      <category>Mixture of Experts model</category>
      <category>MOE</category>
      <category>전문가 조합 모델</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/443</guid>
      <comments>https://yumdata.tistory.com/443#entry443comment</comments>
      <pubDate>Wed, 15 Oct 2025 20:49:55 +0900</pubDate>
    </item>
    <item>
      <title>AI Agent Framework (CrewAI, Autogen, LangGraph)</title>
      <link>https://yumdata.tistory.com/442</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;CrewAI Framework&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://docs.crewai.com/introduction&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://docs.crewai.com/introduction&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1749101785799&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Introduction - CrewAI&quot; data-og-description=&quot;While Crews excel at autonomous collaboration, Flows provide structured automations, offering granular control over workflow execution. Flows ensure tasks are executed reliably, securely, and efficiently, handling conditional logic, loops, and dynamic stat&quot; data-og-host=&quot;docs.crewai.com&quot; data-og-source-url=&quot;https://docs.crewai.com/introduction&quot; data-og-url=&quot;https://docs.crewai.com/introduction&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/beBMgg/hyY5a9ouK0/c8LHhUGN4yP50E5CoEMXzk/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630,https://scrap.kakaocdn.net/dn/XP5E8/hyY0uBV8Xa/mKh1U0obthv3gatnhh5oZk/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630&quot;&gt;&lt;a href=&quot;https://docs.crewai.com/introduction&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://docs.crewai.com/introduction&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/beBMgg/hyY5a9ouK0/c8LHhUGN4yP50E5CoEMXzk/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630,https://scrap.kakaocdn.net/dn/XP5E8/hyY0uBV8Xa/mKh1U0obthv3gatnhh5oZk/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Introduction - CrewAI&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;While Crews excel at autonomous collaboration, Flows provide structured automations, offering granular control over workflow execution. Flows ensure tasks are executed reliably, securely, and efficiently, handling conditional logic, loops, and dynamic stat&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;docs.crewai.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;b&gt;개요&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;CrewAI는 자율 AI 에이전트의 오케스트레이션을 위해 설계된 Python 기반 오픈소스 프레임워크입니다. 사용 편의성과 신속한 프로토타입 제작에 중점을 두고 복잡한 작업을 완료하기 위해 AI 에이전트 간의 원활한 협업을 가능하게 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;b&gt;핵심 기능&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #333333;&quot;&gt;LangChain 위에 구축&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #333333;&quot;&gt;협업적으로 작업하는 역할 정의 AI 에이전트&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #333333;&quot;&gt;각 에이전트는 공통 목표를 달성하기 위해 고유한 기술을 제공&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;div style=&quot;text-align: left;&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333;&quot;&gt;주요 차별화 요소&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;신속한 프로토타입 제작: 빠른 설정 및 반복&lt;/li&gt;
&lt;li&gt;간소화된 개발: 사용하기 쉬운 워크플로우 관리&lt;/li&gt;
&lt;li&gt;협업 에이전트 프레임워크: &amp;rdquo;crew&quot;로 작업하는 자율 에이전트&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Autogen Framework&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://microsoft.github.io/autogen/stable//index.html&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://microsoft.github.io/autogen/stable//index.html&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1749101817386&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;AutoGen &amp;mdash; AutoGen&quot; data-og-description=&quot;An event-driven programming framework for building scalable multi-agent AI systems. Example scenarios: Deterministic and dynamic agentic workflows for business processes. Research on multi-agent collaboration. Distributed agents for multi-language applicat&quot; data-og-host=&quot;microsoft.github.io&quot; data-og-source-url=&quot;https://microsoft.github.io/autogen/stable//index.html&quot; data-og-url=&quot;https://microsoft.github.io/autogen/stable//index.html&quot; data-og-image=&quot;&quot;&gt;&lt;a href=&quot;https://microsoft.github.io/autogen/stable//index.html&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://microsoft.github.io/autogen/stable//index.html&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url();&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;AutoGen &amp;mdash; AutoGen&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;An event-driven programming framework for building scalable multi-agent AI systems. Example scenarios: Deterministic and dynamic agentic workflows for business processes. Research on multi-agent collaboration. Distributed agents for multi-language applicat&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;microsoft.github.io&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개요&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AutoGen&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;은 여러 에이전트가 있는 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시스템의 생성 및 관리를 간소화하도록 설계된 오픈소스 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프레임워크입니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;. &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;신뢰성과 오류 처리에 초점을 맞춘 복잡하고 협업적인 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;애플리케이션을 개발할 수 있습니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;핵심 기능&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;엔터프라이즈급 안정성을 위해 설계&lt;/li&gt;
&lt;li&gt;회복성 있는 AI 시스템을 위한 강력한 오류 처리&lt;/li&gt;
&lt;li&gt;복잡하고 협업적인 AI 애플리케이션을 구축하는 데 이상적&lt;/li&gt;
&lt;/ul&gt;
&lt;div style=&quot;text-align: left;&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;주요 차별화 요소&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;엔터프라이즈급 안정성&lt;/li&gt;
&lt;li&gt;강력한 오류 처리&lt;/li&gt;
&lt;li&gt;복구 메커니즘&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;LangGraph Framework&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://www.langchain.com/langgraph&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://www.langchain.com/langgraph&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1749101901384&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;LangGraph&quot; data-og-description=&quot;Build controllable agents with LangGraph, our low-level agent orchestration framework. Deploy and scale with LangGraph Platform, with APIs for state management, a visual studio for debugging, and multiple deployment options.&quot; data-og-host=&quot;www.langchain.com&quot; data-og-source-url=&quot;https://www.langchain.com/langgraph&quot; data-og-url=&quot;https://www.langchain.com/langgraph&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/VQXie/hyY1hWC1ay/H9KNOcA8HMwQKnAmdbtpy1/img.jpg?width=3840&amp;amp;height=2076&amp;amp;face=0_0_3840_2076,https://scrap.kakaocdn.net/dn/WOvbG/hyY3ZAfsPA/pHvpzf4lMpXrwRzYisWnN1/img.jpg?width=3840&amp;amp;height=2076&amp;amp;face=0_0_3840_2076&quot;&gt;&lt;a href=&quot;https://www.langchain.com/langgraph&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://www.langchain.com/langgraph&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/VQXie/hyY1hWC1ay/H9KNOcA8HMwQKnAmdbtpy1/img.jpg?width=3840&amp;amp;height=2076&amp;amp;face=0_0_3840_2076,https://scrap.kakaocdn.net/dn/WOvbG/hyY3ZAfsPA/pHvpzf4lMpXrwRzYisWnN1/img.jpg?width=3840&amp;amp;height=2076&amp;amp;face=0_0_3840_2076');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;LangGraph&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Build controllable agents with LangGraph, our low-level agent orchestration framework. Deploy and scale with LangGraph Platform, with APIs for state management, a visual studio for debugging, and multiple deployment options.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;www.langchain.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개요&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LangGraph&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;는 그래프 기반 실행 모델을 사용하여 다중 에이전트 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시스템을 구축하고 워크플로우를 자동화하기 위한 오픈 소스 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프레임워크입니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;. &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LangChain&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;의 확장으로 구축되어 에이전트 간의 동적이고 상태가 있는 상호 작용을 가능하게 합니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;핵심 기능&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;그래프 기반 실행 모델: 노드는 동작을 나타내고, 에지는 정보 흐름을 정의&lt;/li&gt;
&lt;li&gt;다중 에이전트 협업: 복잡한 작업을 위한 에이전트 간의 원활한 팀워크&lt;/li&gt;
&lt;li&gt;세분화된 제어: 에이전트 상호 작용 패턴에 대한 정확한 제어&lt;/li&gt;
&lt;/ul&gt;
&lt;div style=&quot;text-align: left;&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;주요 차별화 요소&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;복잡한 워크플로의 오케스트레이션&lt;/li&gt;
&lt;li&gt;에이전트 상호 작용 제어&lt;/li&gt;
&lt;li&gt;고급 워크플로우 관리&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>Generative AI/AI Agent</category>
      <category>autogen</category>
      <category>crewai</category>
      <category>langgraph</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/442</guid>
      <comments>https://yumdata.tistory.com/442#entry442comment</comments>
      <pubDate>Thu, 5 Jun 2025 14:39:46 +0900</pubDate>
    </item>
    <item>
      <title>AI Agent 기본 개념과 고려 사항</title>
      <link>https://yumdata.tistory.com/441</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Agentic AI&lt;/h2&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;Agentic AI는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;AI 에이전트들로 이루어져&lt;/b&gt;, 최소한의 감독만으로&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;목표를 달성하는 프레임워크&lt;/b&gt;입니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;멀티에이전트 시스템에서&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;각 에이전트&lt;/b&gt;는 목표에 도달하는 데 필요한&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;특정 하위 작업을 수행&lt;/b&gt;합니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;AI Agent&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI 에이전트는 (인간 또는 다른 에이전트의) 요청을 &lt;b&gt;이해하고, 계획하고, 실행하기 위해 자율적으로 동작&lt;/b&gt;하는 애플리케이션을 의미합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI 에이전트는 LLM을 사용하여 추론하고, 도구, 다른 모델 및 기타 IT 시스템과 연동하여 &lt;b&gt;사용자 목표를 달성&lt;/b&gt;할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이러한 에이전트는 소프트웨어 설계, IT 자동화, 코드 생성 도구, 대화형 어시스턴트 등 다양한 기업 환경에서 &lt;b&gt;복잡한 작업을 해결&lt;/b&gt;하는 데 배치될 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;895&quot; data-origin-height=&quot;557&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dsAIVW/btsOqgmKePK/wOfImipsJpKXvXpxsKiQbK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dsAIVW/btsOqgmKePK/wOfImipsJpKXvXpxsKiQbK/img.png&quot; data-alt=&quot;LLM to Agentic AI&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dsAIVW/btsOqgmKePK/wOfImipsJpKXvXpxsKiQbK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdsAIVW%2FbtsOqgmKePK%2FwOfImipsJpKXvXpxsKiQbK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;895&quot; height=&quot;557&quot; data-origin-width=&quot;895&quot; data-origin-height=&quot;557&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;LLM to Agentic AI&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;AI Agent 동작 원리&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;995&quot; data-origin-height=&quot;427&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bCJOvL/btsOqdXNHgx/hEjypPEijGnWvKKyaGQzs0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bCJOvL/btsOqdXNHgx/hEjypPEijGnWvKKyaGQzs0/img.png&quot; data-alt=&quot;AI Agent&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bCJOvL/btsOqdXNHgx/hEjypPEijGnWvKKyaGQzs0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbCJOvL%2FbtsOqdXNHgx%2FhEjypPEijGnWvKKyaGQzs0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;783&quot; height=&quot;336&quot; data-origin-width=&quot;995&quot; data-origin-height=&quot;427&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;AI Agent&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;데이터 수집 및 인식&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI 에이전트는 고객 상호작용, 거래 기록, 소셜 미디어 등 여러 소스에서 정보를 수집하는 것으로 시작합니다.&lt;/li&gt;
&lt;li&gt;이 데이터는 사용자 의도와 맥락을 이해하는 데 도움이 됩니다.&lt;/li&gt;
&lt;li&gt;고급 에이전트는 실시간 데이터를 처리하여 정확하고 최신 응답을 제공할 수 있습니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&amp;nbsp; &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;의사 결정&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;강력한 머신 러닝 모델을 활용하여 AI 에이전트는 수집된 데이터를 분석하여 패턴을 감지하고 최상의 행동 방향을 결정합니다.&lt;/li&gt;
&lt;li&gt;예를 들어, 이전 상호작용과 현재 상황을 기반으로 고객 문의에 가장 적합한 답변을 선택할 수 있습니다. 과거 경험에서 배우면서 시간이 지남에 따라 의사 결정 능력이 향상됩니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;작업 실행&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;결정을 내린 후 AI 에이전트는 고객에게 응답하거나, 요청을 처리하거나, 복잡한 사례를 인간 담당자에게 전달하는 등 필요한 작업을 수행합니다.&lt;/li&gt;
&lt;li&gt;이 실행은 사용자가 적시에 정확한 지원을 받을 수 있도록 속도와 효율성을 위해 설계되었습니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;지속적인 학습 및 개선&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI 에이전트는 각 상호작용에서 학습하여 알고리즘을 지속적으로 개선합니다. 그들은 지식 기반을 업데이트하고 피드백을 통합하여 미래 성과를 향상시킵니다.&lt;/li&gt;
&lt;li&gt;이 지속적인 학습 프로세스는 사용자 기대와 비즈니스 요구 사항이 진화하더라도 적응력과 효율성을 유지합니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Multi-AI Agents&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1482&quot; data-origin-height=&quot;656&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b8xgJq/btsOpKoh40S/g8R51oNk2DcJ03TJRuqdlk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b8xgJq/btsOpKoh40S/g8R51oNk2DcJ03TJRuqdlk/img.png&quot; data-alt=&quot;Evolution of assistants&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b8xgJq/btsOpKoh40S/g8R51oNk2DcJ03TJRuqdlk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb8xgJq%2FbtsOpKoh40S%2Fg8R51oNk2DcJ03TJRuqdlk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1482&quot; height=&quot;656&quot; data-origin-width=&quot;1482&quot; data-origin-height=&quot;656&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Evolution of assistants&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;MAS(Multi Agent System)라고도 하는 멀티 에이전트 시스템은 특정 작업을 해결하기 위해 함께 작동하는 AI 에이전트 시스템입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;독립적으로 혼자 작업하는 단일 AI 에이전트와 달리 MAS는 여러 에이전트가 함께 작업하여 작업을 해결합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;Example: 마케팅 캠페인을 시작하는 것과 같은 복잡한 작업이 주어지면 멀티 에이전트 접근 방식은 이를 서로 다른 전문 에이전트가 처리하는 하위 작업으로 나눕니다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;시장 조사 에이전트 - 추세, 경쟁자 및 타겟 고객 통찰력을 분석합니다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;콘텐츠 생성 에이전트 - 광고 카피, 블로그 게시물 및 소셜 미디어 콘텐츠를 생성합니다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;SEO 및 광고 최적화 에이전트 - 키워드를 정제하고 입찰을 조정하여 가시성을 높입니다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;참여 에이전트 - 고객 상호 작용을 모니터링하고 문의에 응답합니다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;분석 에이전트 - 캠페인 성과를 추적하고 개선 사항을 제안합니다.&amp;nbsp;&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;이러한 AI 에이전트는 함께 작업하여 마케팅 노력을 자동화하고 최적화하여 더 나은 도달 범위와 더 높은 참여를 보장할 수 있습니다.&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;br /&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Multi AI Agent 구축을 위한 모델&lt;/h3&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;목표 정의&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;에이전트가 해결해야 할 문제를 명확하게 식별합니다.&lt;/li&gt;
&lt;li&gt;AI 시스템에 대한 구체적인 목표를 설정합니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;프로세스 계획&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;AI 에이전트가 목표에 도달하기 위해 따라야 할 단계를 설명합니다.&lt;/li&gt;
&lt;li&gt;작업 간의 논리적 흐름을 보장합니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;적절한 에이전트 식별&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;필요한 역할과 전문성을 고려합니다 (예: 연구원, 데이터 분석가, 의사 결정자).&lt;/li&gt;
&lt;li&gt;기술 세트에 따라 전문 에이전트를 할당합니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;책임 할당&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;목표를 각 에이전트의 구체적인 작업으로 나눕니다.&lt;/li&gt;
&lt;li&gt;중복을 피하기 위해 명확한 경계를 정의합니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;에이전트에게 도구 제공&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;적절한 도구와 API(예: LLM, 데이터베이스, 웹 스크래퍼)를 제공합니다.&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #333333;&quot;&gt;에이전트가 효과적으로 소통하고 정보를 공유할 수 있도록 합니다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;최적화 및 반복&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;에이전트 성과에 따라 워크플로를 지속적으로 개선합니다.&lt;/li&gt;
&lt;li&gt;효율성을 높이기 위해 피드백 루프를 통합합니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;AI Agent의 이점&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;향상된 사용자 경험: 일반적으로 학습 및 주기적인 재교육을 위해 인간 입력 필요&lt;/li&gt;
&lt;li&gt;TCO(Total Cost of Ownership, 총 소유 비용) 절감: AI에 의존하여 어려운 작업을 수행하고, 쉽게 확장 가능하며, 인간의 개입 없이도 작업 전반에 걸쳐 확장 가능&lt;/li&gt;
&lt;li&gt;민첩성과 유연성: AI 에이전트 오케스트레이션을 통해 조직은 시장 상황이 변화함에 따라 운영을 신속하게 적응&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;AI Agent 개발 어려움&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI Agent는 전 분야에 걸쳐 생산성 향상을 주도할 것으로 예측되고 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그러나, AI Agent를 개발하는 데에는 기술적인 복잡성이 존재합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333;&quot;&gt;관찰, 디버깅, 평가 및 모니터링&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;에이전트는 의사결정 행동에 대한 텔레메트릭(원격 측정 데이터)를 수집하고, 성능 및 출력 관련 문제를 조사 및 해결하며, 벤치마크와 성능을 비교하고, 비정상 상황에 대한 알림을 설정해야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333;&quot;&gt;API 통합의 복잡성&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;AI 에이전트는 여러 시스템 간의 인증 관리를 필요로 하며, 도구 간에 데이터를 일관성 있게 전달하고 최적화해야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333;&quot;&gt;오케스트레이션의 복잡성&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;에러 처리는 사람이 개입해야 하는 경우가 많아 이를 정의해야 하며, 반사(reflection) 및 롤백(rollback) 방식에는 보호 장치(guardrails)의 구현이 필요합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;AI Agent를 개발하기 위해&amp;nbsp; 기업이 고려해야 할 사항&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;고품질의 AI 에이전트를 신속하게 개발하기 위해서는 다음의 사항들을 고려해야 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;가치 실현 시간 (Time to Value)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;사전 구축된 도구를 통해 신속한 실험과 원클릭 배포를 지원하여 가치 실현 시간을 단축해야 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;고품질 (HIgh Quality)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;성능이 뛰어나고, 신뢰할 수 있으며, 신뢰할 수 있는 고품질의 에이전트를 개발해야 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;확장성 (Scalable)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;수백 또는 수천 명의 에이전트로 확장 가능해야 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;엔터프라이즈급 (Enterprise-ready)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;비즈니스 시스템, 데이터 및 프로세스와의 통합을 관리해야 합니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Agentic vs Generative vs Traditional AI&lt;/h2&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 15.1163%; text-align: center;&quot;&gt;&lt;b&gt;특징&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.6046%; text-align: center;&quot;&gt;&lt;b&gt;Agentic AI&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.2558%; text-align: center;&quot;&gt;&lt;b&gt;Generative AI&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.0233%; text-align: center;&quot;&gt;&lt;b&gt;Traditional AI&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 15.1163%; text-align: center;&quot;&gt;정의&lt;/td&gt;
&lt;td style=&quot;width: 28.6046%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;자율적으로 행동하고, 결정을 내리며, 목표에 따라 변화하는 환경에 적응할 수 있는 AI 시스템&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.2558%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;텍스트, 이미지 또는 데이터와 같은 새로운 콘텐츠를 생성하는 AI 시스템&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.0233%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt; 데이터에서 패턴을 인식하고 예측 또는 분류를 수행하는 AI 시스템&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 15.1163%; text-align: center;&quot;&gt;핵심 능력&lt;/td&gt;
&lt;td style=&quot;width: 28.6046%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;인간의 감독 없이 자율적인 의사 결정 및 작업 실행&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.2558%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;학습된 데이터 패턴(예: 텍스트, 이미지 또는 모델)을 기반으로 한 콘텐츠 생성&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.0233%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt; 데이터 분석, 패턴 인식 및 예측 모델링&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 15.1163%; text-align: center;&quot;&gt;예시&lt;/td&gt;
&lt;td style=&quot;width: 28.6046%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;자율 마케팅 시스템, 비즈니스 프로세스의 지능형 에이전트&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.2558%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;텍스트 생성을 위한 GPT-4, 이미지 생성을 위한 DALL-E&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.0233%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt; 사기 탐지와 같은 특정 작업을 위한 회귀 모델, 의사 결정 트리 및 신경망&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 15.1163%; text-align: center;&quot;&gt;목표&lt;/td&gt;
&lt;td style=&quot;width: 28.6046%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;목표에 따라 문제를 독립적으로 해결하고 조치를 취함&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.2558%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;학습된 패턴을 기반으로 새롭고 현실적인 결과 생성&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.0233%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt; 데이터에서 패턴을 찾아 과거 데이터를 기반으로 예측 또는 결정&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 15.1163%; text-align: center;&quot;&gt;인간 상호 작용&lt;/td&gt;
&lt;td style=&quot;width: 28.6046%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;최소한으로 설계되어 제한된 인간 입력으로 자율적으로 작동&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.2558%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;학습된 패턴을 기작업에 따라 인간 프롬프트 없이 또는 함께 작동 가능&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #333333;&quot;&gt;반으로 새롭고 현실적인 결과 생성&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 28.0233%;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt; 일반적으로 학습 및 주기적인 재교육을 위해 인간 입력 필요&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;style&gt;
.blogview_content { -webkit-user-drag: none; -webkit-touch-callout: none; user-select: none; }
.blogview_content img { pointer-events: none; } 
&lt;/style&gt;</description>
      <category>Generative AI/AI Agent</category>
      <category>agentic ai</category>
      <category>ai agent</category>
      <category>ai 에이전트</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/441</guid>
      <comments>https://yumdata.tistory.com/441#entry441comment</comments>
      <pubDate>Thu, 5 Jun 2025 14:22:33 +0900</pubDate>
    </item>
    <item>
      <title>LlamIndex (라마인덱스)</title>
      <link>https://yumdata.tistory.com/439</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;LlamIndex (라마 인덱스)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://docs.llamaindex.ai/en/stable/&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://docs.llamaindex.ai/en/stable/&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1726139639818&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;LlamaIndex - LlamaIndex&quot; data-og-description=&quot;Welcome to LlamaIndex   ! LlamaIndex is a framework for building context-augmented generative AI applications with LLMs including agents and workflows. Introduction What is context augmentation? What are agents and workflows? How does LlamaIndex help bu&quot; data-og-host=&quot;docs.llamaindex.ai&quot; data-og-source-url=&quot;https://docs.llamaindex.ai/en/stable/&quot; data-og-url=&quot;https://docs.llamaindex.ai/en/stable/&quot; data-og-image=&quot;&quot;&gt;&lt;a href=&quot;https://docs.llamaindex.ai/en/stable/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://docs.llamaindex.ai/en/stable/&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url();&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;LlamaIndex - LlamaIndex&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Welcome to LlamaIndex   ! LlamaIndex is a framework for building context-augmented generative AI applications with LLMs including agents and workflows. Introduction What is context augmentation? What are agents and workflows? How does LlamaIndex help bu&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;docs.llamaindex.ai&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;i&gt;LlamaIndex is a data framework for building context-augmented generative AI applications with&amp;nbsp;&lt;a href=&quot;https://en.wikipedia.org/wiki/Large_language_model&quot;&gt;LLMs&lt;/a&gt;&amp;nbsp;including&amp;nbsp;&lt;a href=&quot;https://docs.llamaindex.ai/en/stable/understanding/agent/basic_agent/&quot;&gt;agents&lt;/a&gt;&amp;nbsp;and&amp;nbsp;&lt;a href=&quot;https://docs.llamaindex.ai/en/stable/understanding/workflows/&quot;&gt;workflows&lt;/a&gt;.&lt;/i&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;LLM 애플리케이션을 위한 데이터 프레임워크로, 몇 줄의 코드만으로 시작하여 몇 분 안에 RAG 시스템을 구축할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;고급 사용자를 위해 LlamaIndex는 데이터 수집 및 색인화를 위한 풍부한 툴킷, 검색 및 재순위를 위한 모듈, 맞춤형 쿼리 엔진 구축을 위한 컴포저블 구성 요소를 제공합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1053&quot; data-origin-height=&quot;557&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/buSM0L/btsJzOo90hv/bTd5AoXzRWTKvgGKZKV011/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/buSM0L/btsJzOo90hv/bTd5AoXzRWTKvgGKZKV011/img.jpg&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/buSM0L/btsJzOo90hv/bTd5AoXzRWTKvgGKZKV011/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbuSM0L%2FbtsJzOo90hv%2FbTd5AoXzRWTKvgGKZKV011%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;387&quot; height=&quot;205&quot; data-origin-width=&quot;1053&quot; data-origin-height=&quot;557&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;LlamaIndex는 RAG 스택 개발을 주도하고 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Indexing: 지식창고에서 데이터를 로드하고 색인화하는 방법&lt;/li&gt;
&lt;li&gt;Querying: 데이터를 표면화하여 모델 컨텍스트에 맞추는 방법&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Indexing&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;149&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/H3l7X/btsJAO9xuS5/RZWOY5FnOGp1hS1ahmtiIK/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/H3l7X/btsJAO9xuS5/RZWOY5FnOGp1hS1ahmtiIK/img.jpg&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/H3l7X/btsJAO9xuS5/RZWOY5FnOGp1hS1ahmtiIK/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FH3l7X%2FbtsJAO9xuS5%2FRZWOY5FnOGp1hS1ahmtiIK%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;559&quot; height=&quot;65&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;149&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;모든 소스에서 RAG knowledge base로 데이터를 가져오려면 몇 가지 도구를 활용할 수 있습니다&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;Documents/Nodes&lt;/b&gt;: 문서는 모든 데이터 소스(예: PDF, API 출력 또는 데이터베이스에서 검색된 데이터)를 둘러싼 일반적인 컨테이너입니다. 노드는 LlamaIndex에서 데이터의 원자 단위로, 소스 문서의 '청크'(즉, 하나의 문서에 많은 노드가 있음)와 다른 노드 객체와의 관계를 나타냅니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Data Connectors&lt;/b&gt;: 데이터 커넥터는 다양한 소스에서 데이터를 수집하여 이를 문서 표현(텍스트 및 간단한 메타데이터)으로 변환합니다. 이러한 커넥터는 LlamaHub를 통해 제공되며, 현재 200개가 넘는 커넥터가 있습니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Data Indexes&lt;/b&gt;: 데이터를 수집한 후에는 데이터를 검색하기 쉬운 형식으로 색인화할 수 있도록 LlamaIndex가 도와줍니다. 다양한 유형의 인덱스(요약, 트리, 벡터 등)가 있습니다. 내부적으로 LlamaIndex는 원시 문서를 중간 표현으로 파싱하고, 벡터 임베딩을 계산하고, 메타데이터를 유추합니다. 가장 일반적으로 사용되는 인덱스는 VectorStoreIndex이며, 이 인덱스는 시중의 모든 벡터 스토어와 쌍을 이룰 수 있습니다(예: Chroma)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Querying&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;370&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/74cbS/btsJzSZgTs1/2pHbKludmWprzYi1qJyK0K/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/74cbS/btsJzSZgTs1/2pHbKludmWprzYi1qJyK0K/img.jpg&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/74cbS/btsJzSZgTs1/2pHbKludmWprzYi1qJyK0K/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F74cbS%2FbtsJzSZgTs1%2F2pHbKludmWprzYi1qJyK0K%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;618&quot; height=&quot;179&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;370&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;쿼리 단계에서 RAG 파이프라인은 사용자의 프롬프트에서 가장 관련성이 높은 컨텍스트를 가져와 LLM에 전달합니다. 이를 통해 LLM은 기본 학습 데이터를 넘어선 최신/개인 지식을 갖추게 됩니다. LlamaIndex는 Q&amp;amp;A, 챗봇 또는 상담원 사용을 위한 RAG 경로를 구축하는 데 적합한 적응형 모듈을 제공하며, 각 경로마다 요구 사항이 다르기 때문입니다. 예를 들어 챗봇은 사용자가 후속 질문으로 개입해야 하는 반면, 상담원은 사용자의 개입 없이 스스로 전체 작업을 수행하려고 시도합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;Building Blocks&lt;/span&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;Retrievers&lt;/b&gt;: 검색기는 쿼리가 주어졌을 때 지식창고(즉, 색인)에서 관련 컨텍스트를 효율적으로 검색하는 방법을 정의합니다. 벡터 인덱스가 가장 많이 사용되는 모드이지만 요약, 트리, 키워드 테이블, 지식 그래프 및 문서 요약과 같은 다른 옵션도 있습니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Node Postprocessors&lt;/b&gt;: 리트리버가 노드 개체를 다시 가져오면 유사도가 낮은 개체를 버리는 등의 추가 작업을 수행해야 합니다. 여기에도 '유사도 포스트프로세서'(즉, 특정 유사도 점수 이하의 노드를 삭제하는 것)나 '롱컨텍스트 재정렬' 등 많은 옵션이 있으며, 이는 '중간에서 길을 잃은, U자형 기억 곡선' 논문에서 제기된 문제를 방지하는 데 도움이 됩니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Reponse Synthesizers(응답 합성기)&lt;/b&gt;: 사용자 쿼리와 검색된 청크, 프롬프트 및 LLM을 가져옵니다. 여기에는 철저함과 간결함의 균형을 맞추는 몇 가지 응답 모드가 있습니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Pipelines&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;쿼리 엔진&lt;/b&gt;: 쿼리 엔진은 데이터에 대해 질문할 수 있는 엔드투엔드 파이프라인입니다. 자연어 쿼리를 받아 검색된 참조 컨텍스트와 함께 응답을 반환하고 LLM에 전달합니다. 이를 통해 Panda 데이터 프레임을 데이터 소스로 활용하여 &quot;팬더에게 질문하기&quot;와 같은 작업을 수행할 수 있습니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;채팅 엔진&lt;/b&gt;: 채팅 엔진은 데이터와 대화하기 위한 엔드투엔드 파이프라인입니다(단일 질문과 답변이 아닌 여러 번의 주고받기). 이는 기존의 OpenAI 스타일 채팅 인터페이스뿐만 아니라 ReAct. 에이전트와 같은 고급 채팅 인터페이스도 지원합니다&lt;/li&gt;
&lt;li&gt;&lt;b&gt;에이전트:&lt;/b&gt;&amp;nbsp;일련의 도구를 통해 세상과 상호작용하는 자동화된 의사 결정자(LLM에 의해 구동됨)입니다. 에이전트는 쿼리 엔진이나 채팅 엔진과 같은 방식으로 사용될 수 있지만, 데이터를 읽고 쓸 수 있는 기능이 있습니다. 추론에는 OpenAI 함수 또는 ReAct를 사용할 수 있습니다. 두 가지 모두 추가 분석을 위해 LlamaHub를 통해 제공되는 도구를 활용할 수 있습니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;LlamaIndex 주요 기능&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Agent&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;에이전트는 연구, 데이터 추출 등과 같은 작업을 수행하는 도구를 사용하는 LLM 기반의 지식 도우미입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;에이전트는 단순한 질문 답변부터 작업을 완료하기 위해 감지, 결정 및 조치를 취할 수 있는 기능까지 다양합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;LlamaIndex는 작업을 완료하기 위한 여러 도구 중 하나로 RAG 파이프라인을 사용하는 기능을 포함하여 에이전트를 구축하기 위한 프레임워크를 제공합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Workflow&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;워크플로는 하나 이상의 에이전트, 데이터 커넥터 및 기타 도구를 결합하여 작업을 완료하는 다단계 프로세스입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;워크플로는 이벤트 기반 소프트웨어로, RAG 데이터 소스와 여러 에이전트를 결합하여 반사, 오류 수정 및 기타 고급 LLM 애플리케이션의 특징을 갖춘 다양한 작업을 수행할 수 있는 복잡한 애플리케이션을 만들 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #242b34; text-align: start;&quot;&gt;The Framework for Context-Augmented LLM Applications&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #242b34; text-align: start;&quot;&gt;&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1606&quot; data-origin-height=&quot;808&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bLoVvh/btsJAXrAHSb/UKO1GTK43ZnUrSUHlkkrFK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bLoVvh/btsJAXrAHSb/UKO1GTK43ZnUrSUHlkkrFK/img.png&quot; data-alt=&quot;https://www.llamaindex.ai/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bLoVvh/btsJAXrAHSb/UKO1GTK43ZnUrSUHlkkrFK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbLoVvh%2FbtsJAXrAHSb%2FUKO1GTK43ZnUrSUHlkkrFK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1606&quot; height=&quot;808&quot; data-origin-width=&quot;1606&quot; data-origin-height=&quot;808&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.llamaindex.ai/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #242b34; text-align: start;&quot;&gt;&lt;br /&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;LlamaIndex는 LLM 사용 방식에 제한을 두지 않습니다. 자동 완성, 챗봇, 에이전트 등으로 LLM을 사용할 수 있습니다. 단지 더 쉽게 사용할 수 있을 뿐입니다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;데이터 커넥터(Data connectors):&lt;/b&gt;&amp;nbsp;기본 소스 및 형식에서 기존 데이터를 수집합니다. 여기에는 API, PDF, SQL 등이 포함될 수 있습니다. &lt;span style=&quot;text-align: left;&quot;&gt;다양한 형식의 데이터 소스로부터 데이터를 쉽게 로드할 수 있습니다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;b&gt;데이터 인덱스(Data Indexes)&lt;/b&gt;: LLM이 사용하기 쉽고 성능이 뛰어난 중간 표현으로 데이터를 구조화합니다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;&lt;b&gt;엔진(Engines):&lt;/b&gt;&amp;nbsp;데이터에 대한 자연어 액세스를 제공합니다.
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;쿼리 엔진은 질문 답변을 위한 강력한 인터페이스입니다(예: RAG 흐름).&lt;/li&gt;
&lt;li&gt;채팅 엔진은 데이터와 '주고받는' 다중 메시지 상호작용을 위한 대화형 인터페이스입니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;b&gt;에이전트(Agents)&lt;/b&gt;: 간단한 헬퍼 기능부터 API 통합 등에 이르기까지 도구로 보강된 LLM 기반 지식 근로자입니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;관찰 가능성(Observability)/평가 통합(Evaluation)&lt;/b&gt;을 통해 선순환 구조로 앱을 엄격하게 실험, 평가 및 모니터링할 수 있습니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;워크플로(Workflows)&lt;/b&gt;를 사용하면 위의 모든 것을 이벤트 중심 시스템으로 결합하여 다른 그래프 기반 접근 방식보다 유연하게 사용할 수 있습니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;LlamaIndex Key Tools&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;1. Data Ingestion(데이터 수집)&lt;/b&gt;&lt;/p&gt;
&lt;p id=&quot;SE-1aa09a38-5007-4f1a-b90e-5788d3172d88&quot; style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size16&quot;&gt;LamaIndex는 다양한 외부 데이터 소스로부터 데이터를 가져옵니다. 이 소스에는 API, PDF 문서, SQL 데이터베이스 등이 포함될 수 있으며, 데이터는 구조화된 형태(예: 표), 비구조화된 형태(예: 텍스트 문서), 또는 프로그래밍을 통해 직접적으로 접근할 수 있는 형태일 수 있습니다.&lt;/p&gt;
&lt;p id=&quot;SE-21c38d3c-bb19-4aa1-8a2c-16e0ba7819ff&quot; style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size16&quot;&gt;​&lt;/p&gt;
&lt;p id=&quot;SE-690668b9-13fa-4c12-a9ee-b5a26329034c&quot; style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;2. Data Indexing(데이터 색인)&lt;/b&gt;&lt;/p&gt;
&lt;p id=&quot;SE-1b202c3a-fb4f-4315-91dc-764b23f52bed&quot; style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size16&quot;&gt;데이터가 수집되면, LamaIndex는 이 데이터를 정리하고 색인을 생성합니다. 이렇게 하면 데이터가 체계적으로 저장되고, 나중에 사용자가 데이터를 쉽게 찾을 수 있도록 합니다. 이 단계에서는 데이터를 다양한 사용 사례에 맞게 분류하고, 다운스트림 벡터 저장소 및 데이터베이스와 통합하여 데이터 검색이 보다 효율적으로 이루어질 수 있도록 기반을 마련합니다.&lt;/p&gt;
&lt;p id=&quot;SE-355ac916-1e7e-440b-bf88-9358e74a33d6&quot; style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size16&quot;&gt;​&lt;/p&gt;
&lt;p id=&quot;SE-e22bd737-7715-4d42-a5c1-e9c72dd76262&quot; style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;3. Query Interface(질의 인터페이스) &lt;/b&gt;&lt;/p&gt;
&lt;p id=&quot;SE-7e0af75e-736a-4122-970d-c083018469e2&quot; style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size16&quot;&gt;LamaIndex는 사용자가 데이터에 쿼리를 날릴 수 있는 인터페이스를 제공합니다. 사용자는 이 인터페이스를 통해 질문이나 명령을 입력하고, LamaIndex는 이전 단계에서 구축한 메타데이터와 색인을 활용하여 관련 정보를 빠르게 찾아 응답합니다. 이를 통해 사용자는 필요한 정보를 쉽고 빠르게 얻을 수 있습니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size26&quot;&gt;RAG 파이프라인의 주요 단계&lt;/h2&gt;
&lt;ol style=&quot;list-style-type: decimal; color: #1c1e21; text-align: start;&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li&gt;&lt;b&gt;로딩(Loading)&lt;/b&gt;: 다양한 소스(텍스트 파일, PDF, 웹사이트, 데이터베이스, API 등)에서 데이터를 가져와 파이프라인에 입력합니다. LlamaHub에서 제공하는 다양한 커넥터를 활용할 수 있습니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;인덱싱(Indexing)&lt;/b&gt;: 데이터를 쿼리 가능한 구조로 변환합니다. 주로&amp;nbsp;벡터 임베딩을 생성하여 데이터의 의미를 수치화하고, 관련 메타데이터를 함께 저장합니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;저장(Storing)&lt;/b&gt;: 생성된 인덱스와 메타데이터를 저장하여 재사용할 수 있게 합니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;쿼리(Querying)&lt;/b&gt;: LLM과 LlamaIndex 데이터 구조를 활용하여 다양한 방식(서브쿼리, 다단계 쿼리, 하이브리드 전략 등)으로 데이터를 검색합니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;평가(Evaluation)&lt;/b&gt;: 파이프라인의 효과성을 객관적으로 측정합니다. 응답의 정확성, 충실도, 속도 등을 평가합니다.&lt;/li&gt;
&lt;/ol&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 style=&quot;background-color: #ffffff; color: #000000; text-align: var(--se-text-default-value-text-align);&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span&gt;LlamaIndex 사용하기&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span&gt;LlamaIndex 설치하기&lt;/span&gt;&lt;/p&gt;
&lt;pre id=&quot;code_1726144188316&quot; class=&quot;shell&quot; data-ke-language=&quot;shell&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;pip install llama-index&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터 로드 및 인덱스 생성&lt;/p&gt;
&lt;pre id=&quot;code_1726144270592&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

# 폴더에서 데이터 로드
documents = SimpleDirectoryReader(&quot;data&quot;).load_data()

# 문서에서 인덱스 생성
index = VectorStoreIndex.from_documents(documents)

# 인덱스에 문서 삽입
index.insert(document)&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;쿼리 실행&lt;/p&gt;
&lt;pre id=&quot;code_1726144285485&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;# 쿼리엔진 생성, 질의 응답
query_engine = index.as_query_engine()
response = query_engine.query(&quot;원하는 질문을 입력하세요&quot;)
print(response)&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;인덱스 커스터마이징&lt;/p&gt;
&lt;pre id=&quot;code_1726145586987&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;from llama_index.core import Settings

# LLM 커스터마이징
from llama_index.llms.openai import OpenAI
Settings.llm = OpenAI(model=&quot;gpt-4&quot;, temperature=0)

# LLM 입력 최대 토큰 수
Settings.context_window = 1024&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;임베딩 모델 커스터마이징&lt;/p&gt;
&lt;pre id=&quot;code_1726145620973&quot; class=&quot;shell&quot; data-ke-language=&quot;shell&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;pip install llama-index-embeddings-langchain
pip install sentence-transformers # 허깅페이스 모델 사용 위함&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;pre id=&quot;code_1726145639109&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;from llama_index.embeddings.langchain import LangchainEmbedding
from langchain.embeddings import HuggingFaceEmbeddings
Settings.embed_model = LangchainEmbedding(
    HuggingFaceEmbeddings(model_name = &quot;&amp;lt;허깅페이스모델&amp;gt;&quot;)
)
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query(&quot;&amp;lt;질문&amp;gt;&quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://docs.llamaindex.ai/en/stable/&quot;&gt;https://docs.llamaindex.ai/en/stable/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.magicaiprompts.com/docs/rag/llama-index-usage-guide/&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://www.magicaiprompts.com/docs/rag/llama-index-usage-guide/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.latent.space/p/llamaindex&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://www.latent.space/p/llamaindex&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>LlamaIndex</category>
      <category>rag</category>
      <category>Retrieval Augmented Generation</category>
      <category>검색 증강 생성</category>
      <category>라마 인덱스</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/439</guid>
      <comments>https://yumdata.tistory.com/439#entry439comment</comments>
      <pubDate>Thu, 12 Sep 2024 21:37:13 +0900</pubDate>
    </item>
    <item>
      <title>Model Quantization (양자화)</title>
      <link>https://yumdata.tistory.com/438</link>
      <description>&lt;h2 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;모델 경량화&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;딥러닝 모델의 경우 모바일이나 임베디드 환경에서, 메모리, 성능, 저장공간 등의 제한이 있기 때문에 추론하기가 어렵습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;딥러닝 모델을 경량화와 관련된 연구들(&quot;모델을 가볍게 만드는 연구&quot;)이 많이 진행되고 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;모델 경량화 연구&lt;/b&gt;는 크게 두 가지로 나뉩니다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구&lt;/li&gt;
&lt;li&gt;기존 모델의 파라미터들을 줄이거나 압축하는 연구&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델 구조 변경: 모델 구조를 변경함으로써 경량화하는 방법 (ResNet, DenseNet, SqueezeNet, etc.)&lt;/li&gt;
&lt;li&gt;효율적인 합성곱 필터 기술: 채널을 분리시켜, 연산량과 변수의 개수를 줄임으로써 경량화하는 방법 (MobileNet, ShuffleNet, etc.)&lt;/li&gt;
&lt;li&gt;경량 모델 자동 탐색 기술: 자동 탐색 기법을 사용해, 경량화할 수 있는 모델 구조와 합성곱 필터를 설계하는 방법 (NetAdapt, MNAsNet, etc.)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;기존 모델의 파라미터들을 줄이거나 압축하는 연구&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;가중치 가지치기(Weight Prunning): 결과에 영향을 미치는 파라미터들을 제외한 나머지 파라미터들을 0으로 설정하는 방법&lt;/li&gt;
&lt;li&gt;양자화(Quantization): 부동소수점으로 표현되는 파라미터들을 특정 비트 수로 줄이는 방법&lt;/li&gt;
&lt;li&gt;이진화(Binarization): 파라미터들을 이진화(예, -1과 1로만 표현)함으로써, 표현력은 줄어들지만, 정확도의 손실은 최소로하는 경량화 방법&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;Quantization (양자화)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;neural network 모델의 내부는 대부분 weight와 activation output으로 구성되어 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;weight와 activation output은 모델의 정확도를 높이기 위해, 32bit floating point(FP32)로 표현되고 있습니다.&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1020&quot; data-origin-height=&quot;398&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bBddtV/btsGrdr26u1/fKjaLZ2oEGegoBN9biXY81/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bBddtV/btsGrdr26u1/fKjaLZ2oEGegoBN9biXY81/img.png&quot; data-alt=&quot;neural network - weight, acitviation output&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bBddtV/btsGrdr26u1/fKjaLZ2oEGegoBN9biXY81/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbBddtV%2FbtsGrdr26u1%2FfKjaLZ2oEGegoBN9biXY81%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;555&quot; height=&quot;217&quot; data-origin-width=&quot;1020&quot; data-origin-height=&quot;398&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;neural network - weight, acitviation output&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1200&quot; data-origin-height=&quot;150&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cA8OQz/btsGtTlRQwu/trewkSqMPOjcuQIbmDaHP0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cA8OQz/btsGtTlRQwu/trewkSqMPOjcuQIbmDaHP0/img.png&quot; data-alt=&quot;32bit floating point&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cA8OQz/btsGtTlRQwu/trewkSqMPOjcuQIbmDaHP0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcA8OQz%2FbtsGtTlRQwu%2FtrewkSqMPOjcuQIbmDaHP0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;573&quot; height=&quot;72&quot; data-origin-width=&quot;1200&quot; data-origin-height=&quot;150&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;32bit floating point&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;리소스가 제한된 환경에서 모든 weight와 activiation output을 32bit floating point로 표현한 모델은 추론에 사용하기 어렵습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;양자화는 weight와 activiation output 표현에 사용되는 비트 수를 줄임으로써, 모델의 크기를 줄이는 것을 의미합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;기존 모델보다 성능은 떨어질 수 있지만, 모델의 크기가 줄어들기 때문에, 제한된 리소스 환경에서도 사용할 수 있게 됩니다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;u&gt;양자화는 training time을 줄이는 것이 아니라, &lt;b&gt;Inference time을 줄이는 것&lt;/b&gt;이 주 목적입니다.&lt;/u&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;양자화를 사용하는 경우&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모바일 기기나 에지 디바이스와 같이 계산 자원이 제한적인 환경에서 사용&lt;/li&gt;
&lt;li&gt;실시간 추론이 필요한 시스템에서 빠른 모델 실행 속도를 요구할 때 사용&lt;/li&gt;
&lt;li&gt;대규모 모델을 배포하거나 저장할 때 메모리 사용량을 줄이고자 하는 경우&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;양자화 예시&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;673&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/HqMuP/btsGusaqRXb/bd2ZCdodtrMYdQELhQpXvk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/HqMuP/btsGusaqRXb/bd2ZCdodtrMYdQELhQpXvk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/HqMuP/btsGusaqRXb/bd2ZCdodtrMYdQELhQpXvk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FHqMuP%2FbtsGusaqRXb%2Fbd2ZCdodtrMYdQELhQpXvk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;300&quot; height=&quot;158&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;673&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;각 계층의 소수값(Float32)들 중, 최소/최대 값을 구합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;해당 소수값(Float32)들을, 선형적으로 가장 가까운 정수값(Int8)에 매핑합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예를 들어, 기존 계층의 소수값 범위가 -3.0 부터 6.0 까지라면, -3.0 은 -127 로, 6.0 은 +127 로 매핑됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 방식을 사용한다면, 32bit 로 표현되는 weight 를 적은 bit 로 표현할 수 있으므로, 메모리 감소 효과 를 볼 수 있습니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;언어 모델에서 양자화란,&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;언어 모델의 매개변수를 실수형에서 정수형으로 바꾸어 비트 수를 줄이는 과정을 말합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예를 들어, 32비트 부동 소수점 형태의 매개변수를 8비트 정수로 변환하는 것과 같이 비트 수를 감소시켜서 모델 사이즈를 줄이는 방식입니다.&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;394&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/blgAz2/btsGt6ZIb3q/i6PaKX4Ag53lDo2ldQ46B0/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/blgAz2/btsGt6ZIb3q/i6PaKX4Ag53lDo2ldQ46B0/img.jpg&quot; data-alt=&quot;출처:https://towardsdatascience.com/introduction-to-weight-quantization-2494701b9c0c&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/blgAz2/btsGt6ZIb3q/i6PaKX4Ag53lDo2ldQ46B0/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FblgAz2%2FbtsGt6ZIb3q%2Fi6PaKX4Ag53lDo2ldQ46B0%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;576&quot; height=&quot;324&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;394&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;출처:https://towardsdatascience.com/introduction-to-weight-quantization-2494701b9c0c&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #15171a; text-align: start;&quot;&gt;양자화된 언어 모델은 크기가 줄어들며, 계산의 효율성이 향상됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #15171a; text-align: start;&quot;&gt;비트 수를 N배로 줄이면 곱셈의 복잡도는 NxN로 감소하게 되며, 이에 따라 float32를 사용하는 대신 int8을 사용하면 모델의 크기가 1/4로 줄어들고, 추론(inference) 속도와 메모리 사용량도 두 배에서 네 배까지 효율적으로 작동하게 됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델 크기 4배 감소&lt;/li&gt;
&lt;li&gt;메모리 대역폭 2~4배 감소: 32비트에서 8비트로 이동해서, 메모리가 4배 감소&lt;/li&gt;
&lt;li&gt;메모리 대역폭 절약 및 int8 산술을 통한 더 빠른 계산으로 인해 2~4배 더 빠른 추론이 가능(정확한 속도 향상은 하드웨어, 런타임 및 모델에 따라 달라짐)&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;양자화 종류&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;573&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cvcL6Q/btsGsrXKKmA/jivN1LIyDVGq7bwPvHK0Z1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cvcL6Q/btsGsrXKKmA/jivN1LIyDVGq7bwPvHK0Z1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cvcL6Q/btsGsrXKKmA/jivN1LIyDVGq7bwPvHK0Z1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcvcL6Q%2FbtsGsrXKKmA%2FjivN1LIyDVGq7bwPvHK0Z1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;759&quot; height=&quot;340&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;573&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Post Training Quantization (PTQ)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;모델을 training한 후에 quantize를 적용하는 기법&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;파라미터 사이즈가 큰 모델에서 정확도 하락 폭이 작으며 파라미터 사이즈가 작은 소형 모델에는 적합하지 않음&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;모델의 파라미터가 작을수록, quantization에 따라 모델이 예민하게 반응하기 때문에 정확도 감소가 크게 일어나게 됨&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Dynamic Quantization&lt;/li&gt;
&lt;li&gt;Static Quantization&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;장점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;파라미터 크기가 큰 대형 모델에 대해서 정확도 하락폭이 작다&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;단점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;파라미터 크기가 작은 소형 모델에 대해서는 정확도 하락폭이 크다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Quantization Aware Training (QAT)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;모델 training 과정중에서 quantize를 수행&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Fake quantization node를 첨가하여 quantize되었을 시 어떻게 동작할지 시뮬레이션 실행&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;장점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델 사이즈 축소 (저장 용량 효율화)&lt;/li&gt;
&lt;li&gt;RAM 메모리 bandwidth 절약&lt;/li&gt;
&lt;li&gt;추론 속도 개선&lt;/li&gt;
&lt;li&gt;전력 소비 효율화&lt;/li&gt;
&lt;li&gt;다른 양자화 보다 높은 정확도를 가짐 (모델의 정확도 감소 폭을 최소화할 수 있음, 소형 모델에도 적용 가능)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;단점&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델 정확도가 저하됨&lt;/li&gt;
&lt;li&gt;모델 학습 이후 추가 연산(양자화)가 필요&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Quantization 기법 소개&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;807&quot; data-origin-height=&quot;580&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cyICiA/btsGvtzNx14/8a2fEFIvxaQnuM2CExPxS0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cyICiA/btsGvtzNx14/8a2fEFIvxaQnuM2CExPxS0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cyICiA/btsGvtzNx14/8a2fEFIvxaQnuM2CExPxS0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcyICiA%2FbtsGvtzNx14%2F8a2fEFIvxaQnuM2CExPxS0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;578&quot; height=&quot;415&quot; data-origin-width=&quot;807&quot; data-origin-height=&quot;580&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Dynamic Quantization (동적 양자화)&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;가장 간단한 양자화 기법&lt;/li&gt;
&lt;li&gt;모델의 가중치(weight)에 대해서만 양자화 진행&lt;/li&gt;
&lt;li&gt;활성화(activiation)은 추론할 때 동적으로 양자화&lt;/li&gt;
&lt;li&gt;모델을 메모리에 로딩하는 속도 개선&lt;/li&gt;
&lt;li&gt;연산속도 향상 효과 미비(inference kernel 연산이 필요하기 때문에)&lt;/li&gt;
&lt;li&gt;CPU 환경에서만 inference 가능(프레임워크나 프레임워크의 버전에 따라 GPU 환경에서도 동작할 순 있음)&lt;/li&gt;
&lt;li&gt;모델의 weight를 메모리에 로딩하는 것이 실행 시간에 큰 영향을 미치는 BERT와 같은 모델에 적합&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Static Quantization (정적 양자화)&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델의 가중치와 활성화(activiation)모두 사전에 양자화를 진행&lt;/li&gt;
&lt;li&gt;연산속도 향상&lt;/li&gt;
&lt;li&gt;활성화가 inference에 영향이 큰 CNN 모델에 적합&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Quantization Aware Training&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델의 가중치와 활성화를 학습하면서 양자화&lt;/li&gt;
&lt;li&gt;Dynamic, Static Quantization 보다 높은 accuracy 확보 가능&lt;/li&gt;
&lt;li&gt;학습은 CPU, GPU 환경에서 사용 가능 / inference는 CPU에서만 가능&lt;/li&gt;
&lt;li&gt;dynamic, static quantization으로 성능이 나오지 않는 CNN 모델에서 활용&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;** 양자화 기법을 선택할 때는 모델의 성능과 메모리/연산 요구 사항 등을 고려하여 적절한 기법을 선택하는 것이 중요합니다.&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 30.9302%;&quot;&gt;&lt;b&gt;양자화 기법&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 69.0698%;&quot;&gt;&lt;b&gt;설명&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 30.9302%;&quot;&gt;Dynamic Quantization&lt;/td&gt;
&lt;td style=&quot;width: 69.0698%;&quot;&gt;미리 학습된 모델의 가중치와 활성화 함수의 비트 수를 줄이는 기법&lt;br /&gt;런타임 시 양자화되며, 가중치와 활성화 함수의 분포에 따라 크기가 다양하게 조절&lt;br /&gt;인퍼런스 중 성능 저하가 덜 발생하며, 변환 비용이 낮음&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 30.9302%;&quot;&gt;Static Quantization&lt;/td&gt;
&lt;td style=&quot;width: 69.0698%;&quot;&gt;훈련 후, 가중치와 활성화 함수의 비트 수를 줄이는 기법&lt;br /&gt;가중치와 활성화 함수의 분포를 분석하여 고정된 양자화 스케일과 오프셋을 결정하고 모델을 양자화&lt;br /&gt;인퍼런스 시 성능 저하가 발생할 수 있음&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 30.9302%;&quot;&gt;Quantization Aware Training(QAT)&lt;/td&gt;
&lt;td style=&quot;width: 69.0698%;&quot;&gt;훈련 중에 양자화를 고려하여 모델을 조정하는 방법&lt;br /&gt;&lt;span style=&quot;text-align: start;&quot;&gt;가중치 양자화에 대한 학습을 포함하여&amp;nbsp;&lt;/span&gt;원본 모델을 보다 양자화에 robust하게&lt;span style=&quot;text-align: start;&quot;&gt;&amp;nbsp;만듦&lt;br /&gt;&lt;/span&gt;일반적으로 인퍼런스 시 성능 저하가 적음&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;GPTQ:&amp;nbsp;Accurate&amp;nbsp;Post-training&amp;nbsp;Quantization&amp;nbsp;of&amp;nbsp;Generative&amp;nbsp;Pretrained&amp;nbsp;Transformers&lt;/h2&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&amp;nbsp;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;논문:&amp;nbsp;&lt;span style=&quot;color: #006dd7;&quot;&gt;&lt;a style=&quot;color: #006dd7; text-align: start;&quot; href=&quot;https://arxiv.org/abs/2210.17323&quot;&gt;arxiv.org/abs/2210.17323&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1712559601311&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers&quot; data-og-description=&quot;Generative Pre-trained Transformer models, known as GPT or OPT, set themselves apart through breakthrough performance across complex language modelling tasks, but also by their extremely high computational and storage costs. Specifically, due to their mass&quot; data-og-host=&quot;arxiv.org&quot; data-og-source-url=&quot;https://arxiv.org/abs/2210.17323&quot; data-og-url=&quot;https://arxiv.org/abs/2210.17323v2&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/JZNo0/hyVJVvRwdL/GJ3kgj8r9IbCw9TAvcsGoK/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/SeXXq/hyVJZLO8RI/i3vDKIBIihTdwA477uCvdk/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2210.17323&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://arxiv.org/abs/2210.17323&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/JZNo0/hyVJVvRwdL/GJ3kgj8r9IbCw9TAvcsGoK/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/SeXXq/hyVJZLO8RI/i3vDKIBIihTdwA477uCvdk/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Generative Pre-trained Transformer models, known as GPT or OPT, set themselves apart through breakthrough performance across complex language modelling tasks, but also by their extremely high computational and storage costs. Specifically, due to their mass&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;arxiv.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Github: &lt;a href=&quot;https://github.com/IST-DASLab/gptq&quot;&gt;https://github.com/IST-DASLab/gptq&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1712559557029&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;object&quot; data-og-title=&quot;GitHub - IST-DASLab/gptq: Code for the ICLR 2023 paper &amp;quot;GPTQ: Accurate Post-training Quantization of Generative Pretrained Trans&quot; data-og-description=&quot;Code for the ICLR 2023 paper &amp;quot;GPTQ: Accurate Post-training Quantization of Generative Pretrained Transformers&amp;quot;. - IST-DASLab/gptq&quot; data-og-host=&quot;github.com&quot; data-og-source-url=&quot;https://github.com/IST-DASLab/gptq&quot; data-og-url=&quot;https://github.com/IST-DASLab/gptq&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/uCmjE/hyVJTrhQfa/ZSHDbNtInns18NDC5pmudk/img.png?width=1200&amp;amp;height=600&amp;amp;face=0_0_1200_600&quot;&gt;&lt;a href=&quot;https://github.com/IST-DASLab/gptq&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://github.com/IST-DASLab/gptq&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/uCmjE/hyVJTrhQfa/ZSHDbNtInns18NDC5pmudk/img.png?width=1200&amp;amp;height=600&amp;amp;face=0_0_1200_600');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;GitHub - IST-DASLab/gptq: Code for the ICLR 2023 paper &quot;GPTQ: Accurate Post-training Quantization of Generative Pretrained Trans&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Code for the ICLR 2023 paper &quot;GPTQ: Accurate Post-training Quantization of Generative Pretrained Transformers&quot;. - IST-DASLab/gptq&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;github.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://wooono.tistory.com/405&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://wooono.tistory.com/405&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://towardsdatascience.com/introduction-to-weight-quantization-2494701b9c0c&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://towardsdatascience.com/introduction-to-weight-quantization-2494701b9c0c&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://blog-ko.superb-ai.com/lightweighting-llm-with-peft/&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://blog-ko.superb-ai.com/lightweighting-llm-with-peft/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a title=&quot;https://velog.io/@jooh95/딥러닝-Quantization양자화-정리&quot; href=&quot;https://velog.io/@jooh95/%EB%94%A5%EB%9F%AC%EB%8B%9D-Quantization%EC%96%91%EC%9E%90%ED%99%94-%EC%A0%95%EB%A6%AC&quot; target=&quot;_blank&quot; rel=&quot;noopener&amp;nbsp;noreferrer&quot;&gt;https://velog.io/@jooh95/딥러닝-Quantization양자화-정리&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>GPTQ</category>
      <category>Quantization</category>
      <category>모델 경량화</category>
      <category>양자화</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/438</guid>
      <comments>https://yumdata.tistory.com/438#entry438comment</comments>
      <pubDate>Tue, 9 Apr 2024 13:46:20 +0900</pubDate>
    </item>
    <item>
      <title>[Vector DB] Vector Database</title>
      <link>https://yumdata.tistory.com/437</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Vector Database&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 데이터베이스는 신경망을 기반으로 하는 차세대 검색 엔진을 구동하기 위해 몇 년 전에 처음 등장했습니다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;최근에는 GPT4와 같은 대규모 언어 모델을 기반으로 애플리케이션을 배포하도록 돕는 새로운 역할을 수행합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 데이터베이스는 &lt;b&gt;데이터를 특징이나 속성의 수학적 표현인 고차원 벡터로 저장하는 데이터베이스 유형&lt;/b&gt;입니다. 각 벡터에는 데이터의 복잡성과 세분성에 따라 수십에서 수천에 이르는 특정 개수의 차원이 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 데이터베이스는 밀집된 벡터를 효율적으로 관리하고 &lt;b&gt;고급 유사성 검색을 지원&lt;/b&gt;하도록 설계된 특수 저장 시스템이며, 벡터 라이브러리는 기존 DBMS 또는 검색 엔진에 통합되어 더 넓은 데이터베이스 컨텍스트 내에서 유사성 검색이 가능합니다. 둘 사이의 선택은 애플리케이션의 특정 요구 사항과 규모에 따라 달라집니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 데이터베이스는 행과 열에 표 형식의 데이터를 저장하기 위해 구축된 PostgreSQL과 같은 표준 관계형 데이터베이스와 다릅니다. 또한 데이터를 JSON으로 저장하는 MongoDB와 같은 최신 NoSQL 데이터베이스와도 다릅니다. 그 이유는 벡터 데이터베이스가 &lt;b&gt;벡터 임베딩이라는 한 가지 유형의 데이터만 저장하고 검색하도록 설계&lt;/b&gt;되었기 때문입니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 임베딩은 머신 러닝 프로세스의 훈련 단계에서 출력으로 생성된 훈련 데이터의 증류된 표현입니다. 추론 중에 새로운 데이터를 처리하는 필터 역할을 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Vector Library vs Vector DB&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 데이터베이스는 밀집된 벡터의 효율적인 관리를 위해 개발된 전문 저장 시스템인 반면, 벡터 라이브러리는 기존 데이터베이스 관리 시스템(DBMS) 또는 검색 엔진에 통합되어 유사성 검색을 제공합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 라이브러리는 학술 정보 검색 벤치마크와 같은 정적 데이터 애플리케이션에 적합한 선택입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 데이터베이스는 전자상거래 제안, 이미지 검색, 의미적 유사성과 같이 빈번한 데이터 변경이 필요한 애플리케이션에 유용합니다.&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Vector Database 목적&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;벡터 데이터베이스는 일반 데이터베이스보다 &lt;b&gt;대량의 정리되지 않은 데이터를 관리&lt;/b&gt;하는 데 훨씬 더 좋습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;또한 벡터 데이터베이스는 &lt;b&gt;데이터 변경이나 문의 사항에 더욱 적응력이 뛰어나고 신속하게 조정&lt;/b&gt;됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 데이터베이스의 주요 목표는 &lt;b&gt;조직이 AI를 최대한 활용할 수 있도록 돕는 것&lt;/b&gt;입니다. 벡터 임베딩을 사용하면 이러한 데이터베이스는 데이터에서 새로운 패턴을 발견하고 새로운 통찰력을 제공할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 데이터베이스는 벡터 임베딩을 사용하여 데이터를 저장하고 데이터를 처리합니다. 이러한 데이터베이스는 두 가지 중요한 작업을 수행하도록 설계되었기 때문에 일반적인 데이터베이스와 다릅니다.&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;유사한 항목을 검색&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 데이터베이스의 주요 특징 중 하나는 유사한 항목을 빠르고 정확하게 검색하는 능력입니다. 이는 데이터를 고차원 벡터로 표현하는 벡터 임베딩을 통해 달성됩니다. 그런 다음 이러한 임베딩을 수학적 연산을 통해 비교하여 항목 유사성을 확인할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;b&gt;대량의 데이터에 대한 고급 분석 수행&lt;/b&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 데이터베이스의 또 다른 장점은 거대한 데이터 세트를 분석하는 능력입니다. 벡터 임베딩과 잘 작동하는 특수 알고리즘과 구조를 사용하므로 복잡한 분석을 더 쉽게 수행할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 DB 쿼리  세 가지 주요 단계&lt;/span&gt;&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;색인화(Indexation)&lt;/b&gt;: 벡터 임베딩이 벡터 데이터베이스에 있으면 더 빠른 검색을 위해 벡터 임베딩을 데이터 구조로 변환하는 데 여러 기술이 사용됩니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;조회(Inquiry)&lt;/b&gt;: 검색이 완료된 후 벡터 DB는 유사성 메트릭을 사용하여 쿼리 벡터를 인덱스 벡터와 비교하여 가장 가까운 이웃을 결정합니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;사후 제작(Post-production)&lt;/b&gt;: 벡터 데이터베이스에 따라 최종적으로 가장 가까운 이웃이 사후 처리되어 쿼리에 대한 최종 출력을 생성합니다. 또한, 가장 가까운 이웃은 향후 참조를 위해 다시 순위가 매겨질 수 있습니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Vector Database 이점&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;데이터 관리 기능: 데이터의 삽입, 삭제, 갱신이 쉬움&lt;/li&gt;
&lt;li&gt;메타데이터 저장 및 필터링: 각 벡터에 대한 메타데이터 저장이 가능&lt;/li&gt;
&lt;li&gt;확장성: 분산 및 병렬처리 기능을 제공&lt;/li&gt;
&lt;li&gt;실시간 업데이트 지원&lt;/li&gt;
&lt;li&gt;백업 및 컬렉션 기능(일부 인덱스만 골라서 백업)&lt;/li&gt;
&lt;li&gt;에코시스템 연동: ETL(Spark), 분석도구(Tableau, Segment), 시각화(Grafana) 등과 연동. AI 도구와의 연동(LangChain, LlamaIndex, ChatGPT Plugins)&lt;/li&gt;
&lt;li&gt;데이터 보안 및 접근 권한 관리&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Vector DB Ranking (2023.10월 기준)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;출처: &lt;a href=&quot;https://db-engines.com/en/ranking/vector+dbms&quot;&gt;https://db-engines.com/en/ranking/vector+dbms&lt;/a&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1440&quot; data-origin-height=&quot;890&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dNFXjb/btsys3DPMpH/0klTgZy9UjucEijLMTod7K/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dNFXjb/btsys3DPMpH/0klTgZy9UjucEijLMTod7K/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dNFXjb/btsys3DPMpH/0klTgZy9UjucEijLMTod7K/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdNFXjb%2Fbtsys3DPMpH%2F0klTgZy9UjucEijLMTod7K%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;658&quot; height=&quot;407&quot; data-origin-width=&quot;1440&quot; data-origin-height=&quot;890&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;2082&quot; data-origin-height=&quot;1074&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/ym3iX/btsys8dPprV/cC1SFEXCdshkzwH5JN2vO1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/ym3iX/btsys8dPprV/cC1SFEXCdshkzwH5JN2vO1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/ym3iX/btsys8dPprV/cC1SFEXCdshkzwH5JN2vO1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fym3iX%2Fbtsys8dPprV%2FcC1SFEXCdshkzwH5JN2vO1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;726&quot; height=&quot;375&quot; data-origin-width=&quot;2082&quot; data-origin-height=&quot;1074&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://geekflare.com/best-vector-databases/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://geekflare.com/best-vector-databases/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.datastax.com/guides/what-is-a-vector-database&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.datastax.com/guides/what-is-a-vector-database&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://byby.dev/vector-databases&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://byby.dev/vector-databases&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://lakefs.io/blog/12-vector-databases-2023/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://lakefs.io/blog/12-vector-databases-2023/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Vector DB</category>
      <category>rag</category>
      <category>vector DB</category>
      <category>vector store</category>
      <category>벡터 데이터베이스</category>
      <category>벡터 스토어</category>
      <category>벡터DB</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/437</guid>
      <comments>https://yumdata.tistory.com/437#entry437comment</comments>
      <pubDate>Sun, 15 Oct 2023 23:01:34 +0900</pubDate>
    </item>
    <item>
      <title>[Text Annotation][Text Classification] Label Sleuth</title>
      <link>https://yumdata.tistory.com/436</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Label&amp;nbsp;Sleuth&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://www.label-sleuth.org/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.label-sleuth.org/&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1691568649792&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Label Sleuth&quot; data-og-description=&quot;Open-source no-code system for text annotation and building of text classifiers&quot; data-og-host=&quot;www.label-sleuth.org&quot; data-og-source-url=&quot;https://www.label-sleuth.org/&quot; data-og-url=&quot;https://www.label-sleuth.org&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/xeeET/hyTBDJv88V/K5dj2yFYSRj2dFv4j5yiq0/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630,https://scrap.kakaocdn.net/dn/jtdE1/hyTBCDQkj2/Kl1OM60knNJNBRqQWkazmK/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630&quot;&gt;&lt;a href=&quot;https://www.label-sleuth.org/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://www.label-sleuth.org/&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/xeeET/hyTBDJv88V/K5dj2yFYSRj2dFv4j5yiq0/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630,https://scrap.kakaocdn.net/dn/jtdE1/hyTBCDQkj2/Kl1OM60knNJNBRqQWkazmK/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Label Sleuth&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Open-source no-code system for text annotation and building of text classifiers&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;www.label-sleuth.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;An open-source no-code system for text annotation and building text classifiers&lt;/b&gt;&lt;b&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;No-code, open-source system for domain experts&lt;/li&gt;
&lt;li&gt;Easily annotate texts&lt;/li&gt;
&lt;li&gt;Quickly build text classifiers&lt;/li&gt;
&lt;li&gt;No AI knowledge required&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI 지식이나 코딩 역량이 없더라도 도메인 지식 전문가가 쉽게 본문의 레이블을 지정하도록 돕는 오픈소스로, 빠르게 텍스트 분류를 할 수 있도록 돕습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;직관적인 UI를 통한 빠른 라벨링&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;도메인 전문가는 직관적인 사용자 인터페이스를 통해 신속하게 데이터 레이블 지정을 시작할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;986&quot; data-origin-height=&quot;392&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/8DvHg/btsqFsRHxnI/fsbnVKgzx0HyIE0HzFmgd0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/8DvHg/btsqFsRHxnI/fsbnVKgzx0HyIE0HzFmgd0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/8DvHg/btsqFsRHxnI/fsbnVKgzx0HyIE0HzFmgd0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F8DvHg%2FbtsqFsRHxnI%2FfsbnVKgzx0HyIE0HzFmgd0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;481&quot; height=&quot;191&quot; data-origin-width=&quot;986&quot; data-origin-height=&quot;392&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;통합 모델 교육&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;도메인 전문가가 데이터에 레이블을 지정하는 동안 Label Sleuth는 백그라운드에서 적절한 머신 러닝 모델을 자동으로 교육합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;986&quot; data-origin-height=&quot;392&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/09ovS/btsqJUTUgXq/7QS19m57Tkr6YYcOayzDTK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/09ovS/btsqJUTUgXq/7QS19m57Tkr6YYcOayzDTK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/09ovS/btsqJUTUgXq/7QS19m57Tkr6YYcOayzDTK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F09ovS%2FbtsqJUTUgXq%2F7QS19m57Tkr6YYcOayzDTK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;482&quot; height=&quot;192&quot; data-origin-width=&quot;986&quot; data-origin-height=&quot;392&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Active-learning 기반 라벨링 지원&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;레이블 지정 작업의 낭비를 방지하기 위해 Label Sleuth는 능동적인 학습 기술을 사용하여 사용자가 다음에 레이블을 지정해야 하는 항목을 안내합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;986&quot; data-origin-height=&quot;392&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/om0um/btsqKiUOVeJ/gzPMiT4we9K82lG5SK8irk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/om0um/btsqKiUOVeJ/gzPMiT4we9K82lG5SK8irk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/om0um/btsqKiUOVeJ/gzPMiT4we9K82lG5SK8irk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fom0um%2FbtsqKiUOVeJ%2FgzPMiT4we9K82lG5SK8irk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;486&quot; height=&quot;193&quot; data-origin-width=&quot;986&quot; data-origin-height=&quot;392&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;992&quot; data-origin-height=&quot;302&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/ICy6j/btsqHSQqrnk/xLndsZB2nuThNd6MxdKbk0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/ICy6j/btsqHSQqrnk/xLndsZB2nuThNd6MxdKbk0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/ICy6j/btsqHSQqrnk/xLndsZB2nuThNd6MxdKbk0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FICy6j%2FbtsqHSQqrnk%2FxLndsZB2nuThNd6MxdKbk0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;506&quot; height=&quot;154&quot; data-origin-width=&quot;992&quot; data-origin-height=&quot;302&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;</description>
      <category>NLP/NLP 시스템</category>
      <category>entity extraction</category>
      <category>entity extractor</category>
      <category>label sleuth</category>
      <category>text annotation</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/436</guid>
      <comments>https://yumdata.tistory.com/436#entry436comment</comments>
      <pubDate>Wed, 9 Aug 2023 17:27:42 +0900</pubDate>
    </item>
    <item>
      <title>[Metrics] ROUGE score, text 생성 타스크 평가 지표</title>
      <link>https://yumdata.tistory.com/435</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;ROUGE (&lt;span style=&quot;text-align: left;&quot;&gt;Recall-Oriented Understudy for Gisting Evaluation)&lt;/span&gt;&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;a href=&quot;https://aclanthology.org/W04-1013/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://aclanthology.org/W04-1013/&lt;/a&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1691404163442&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;article&quot; data-og-title=&quot;ROUGE: A Package for Automatic Evaluation of Summaries&quot; data-og-description=&quot;Chin-Yew Lin. Text Summarization Branches Out. 2004.&quot; data-og-host=&quot;aclanthology.org&quot; data-og-source-url=&quot;https://aclanthology.org/W04-1013/&quot; data-og-url=&quot;https://aclanthology.org/W04-1013&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/DVOiV/hyTy7re0h8/RHe0xGp0J0Hy4WgDcUF9zk/img.jpg?width=600&amp;amp;height=600&amp;amp;face=0_0_600_600&quot;&gt;&lt;a href=&quot;https://aclanthology.org/W04-1013/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://aclanthology.org/W04-1013/&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/DVOiV/hyTy7re0h8/RHe0xGp0J0Hy4WgDcUF9zk/img.jpg?width=600&amp;amp;height=600&amp;amp;face=0_0_600_600');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;ROUGE: A Package for Automatic Evaluation of Summaries&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Chin-Yew Lin. Text Summarization Branches Out. 2004.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;aclanthology.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;ROUGE는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;텍스트 자동 요약&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;기계 번역&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;등 자연어 생성 모델의 성능을 평가하기 위한 지표이며,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;모델이 생성&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;한 요약본 혹은 번역본을 사람이 미리 만들어 놓은 참조본과 대조해 성능 점수를 계산합니다.&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;465&quot; data-origin-height=&quot;95&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/DfOJO/btsqodm2mBi/4XbW29n4cKMyrUrpkcVyr0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/DfOJO/btsqodm2mBi/4XbW29n4cKMyrUrpkcVyr0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/DfOJO/btsqodm2mBi/4XbW29n4cKMyrUrpkcVyr0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FDfOJO%2Fbtsqodm2mBi%2F4XbW29n4cKMyrUrpkcVyr0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;367&quot; height=&quot;75&quot; data-origin-width=&quot;465&quot; data-origin-height=&quot;95&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;ROUGE는 n-gram recall을 계산하며, 정답 문장의 n-gram이 생성 문장에 얼마나 포함되는지의 비율을 의미합니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Recall&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;은&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;참조 요약본&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;을 구성하는 단어 중 몇 개의 단어가&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;시스템 요약본&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;의 단어들과 겹치는지를 보는 점수입니다.&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;text-align: left;&quot;&gt;참고: 머신러닝 성능 평가 지표들&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/361&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[Model Performance Measure] Precision, Recall, Accuracy, F1 score, FPR, ROC curve, AUC&lt;/a&gt;&lt;/p&gt;
&lt;p style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision(정밀도)&lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델의 예측값이 얼마나 정확하게 예측됐는가를 나타내는 지표&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;PPV(Positive Predictive Value), Positive 정답률이라고도 불림&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;ex) 날씨 예측 모델이 맑다고 예측했는데, 실제 날씨가 맑았는지를 살펴보는 지표&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;198&quot; data-origin-height=&quot;46&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/ctf2Qx/btsqrMWZDlG/gVTxJ0pN8sjgMKM6IYM4X1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/ctf2Qx/btsqrMWZDlG/gVTxJ0pN8sjgMKM6IYM4X1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/ctf2Qx/btsqrMWZDlG/gVTxJ0pN8sjgMKM6IYM4X1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fctf2Qx%2FbtsqrMWZDlG%2FgVTxJ0pN8sjgMKM6IYM4X1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;198&quot; height=&quot;46&quot; data-origin-width=&quot;198&quot; data-origin-height=&quot;46&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc; color: #333333; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 True라고 분류한 것 중에서 실제 True인 것의 비율&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시스템이 올바르게 예측한 엔티티 수를 시스템이 예측한 수로 나눈 값&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Recall(재현율)&lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;통계학에서는 sensitivity로 다른 분야에서는 hit rate라는 용어로도 사용&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;ex) 암환자들이 병원에 갔을 때 암환자라고 예측될 확률을 구하는 것&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;186&quot; data-origin-height=&quot;55&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/o9rZK/btsqvhnS4eb/Kk1v0jtD8iTrEH8HwMmgrk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/o9rZK/btsqvhnS4eb/Kk1v0jtD8iTrEH8HwMmgrk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/o9rZK/btsqvhnS4eb/Kk1v0jtD8iTrEH8HwMmgrk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fo9rZK%2FbtsqvhnS4eb%2FKk1v0jtD8iTrEH8HwMmgrk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;186&quot; height=&quot;55&quot; data-origin-width=&quot;186&quot; data-origin-height=&quot;55&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc; color: #333333; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실제 True인 것 중에서 모델이 True라고 예측한 것의 비율&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시스템이 올바르게 예측한 개체수를 주석을 단 사람이 직접 식별한 수로 나눈 값&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;Precision vs Recall&lt;/h4&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision이나 Recall은 모두 실제 True인 정답을 모델이 True라고 예측한 경우에 관심이 있으나, 바라보는 관점은 다르다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Precision은 모델의 입장에서, Recall은 실제 정답(data)의 입장에서 정답을 정답이라고 맞춘 경우를 바라본다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;ROUGE-N&lt;/b&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;ROUGE-S&lt;/b&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;ROUGE-L&lt;/b&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;은 요약본의&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;일정 부분&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;을 비교하는 성능 지표입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;예를 들어,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;ROUGE-1&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;은&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;시스템 요약본&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;과&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;참조 요약본&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;간 겹치는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;unigram의 수&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;를 보는 지표이며,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;ROUGE-2&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;시스템 요약본&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;과&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;참조 요약본&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;간 겹치는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;bigram의 수&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;를 보는 지표입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시스템 요약 (모델 생성 요약):&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;the cat was found under the bed&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;참조 요약 (Gold standard, 대개 사람이 직접 만든 요약):&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;the cat was under the bed&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;ROUGE-1: unigram&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;224&quot; data-origin-height=&quot;73&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/HB4VL/btsqh4cHqGV/dIPI4k1UulHMxuqQ90TkYk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/HB4VL/btsqh4cHqGV/dIPI4k1UulHMxuqQ90TkYk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/HB4VL/btsqh4cHqGV/dIPI4k1UulHMxuqQ90TkYk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FHB4VL%2Fbtsqh4cHqGV%2FdIPI4k1UulHMxuqQ90TkYk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;166&quot; height=&quot;73&quot; data-origin-width=&quot;224&quot; data-origin-height=&quot;73&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;280&quot; data-origin-height=&quot;67&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cUDQCz/btsqrM3MzxH/BE5GwXRMvmS6WC8RDOzrgK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cUDQCz/btsqrM3MzxH/BE5GwXRMvmS6WC8RDOzrgK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cUDQCz/btsqrM3MzxH/BE5GwXRMvmS6WC8RDOzrgK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcUDQCz%2FbtsqrM3MzxH%2FBE5GwXRMvmS6WC8RDOzrgK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;205&quot; height=&quot;67&quot; data-origin-width=&quot;280&quot; data-origin-height=&quot;67&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;ROUGE-2: bigram&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;시스템 요약 (bigrams): t&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;he cat, cat was, was found, found under, under the, the bed&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;참조 요약 (bigrams): &lt;span style=&quot;color: #333333; font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;the cat, cat was, was under, under the, the bed&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;309&quot; data-origin-height=&quot;62&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b3Vbbu/btsquiAB2fW/XC7YoDWhMYVA4Qg1ocF1Y0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b3Vbbu/btsquiAB2fW/XC7YoDWhMYVA4Qg1ocF1Y0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b3Vbbu/btsquiAB2fW/XC7YoDWhMYVA4Qg1ocF1Y0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb3Vbbu%2FbtsquiAB2fW%2FXC7YoDWhMYVA4Qg1ocF1Y0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;209&quot; height=&quot;42&quot; data-origin-width=&quot;309&quot; data-origin-height=&quot;62&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;378&quot; data-origin-height=&quot;64&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/JW5Fy/btsqtaXoI7S/Nz3EpwH8UAsut2r2nrCgv1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/JW5Fy/btsqtaXoI7S/Nz3EpwH8UAsut2r2nrCgv1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/JW5Fy/btsqtaXoI7S/Nz3EpwH8UAsut2r2nrCgv1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FJW5Fy%2FbtsqtaXoI7S%2FNz3EpwH8UAsut2r2nrCgv1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;284&quot; height=&quot;48&quot; data-origin-width=&quot;378&quot; data-origin-height=&quot;64&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Precision&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;은&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;시스템 요약본&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;중&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;67%&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;의&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;bigram&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;이&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;참조 요약본&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;내&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;bigram&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;과 겹친다는 것을 의미합니다&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;기타 ROUGE 지표들&lt;/h2&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;ROUGE-N&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;unigram, bigram, trigram 등 문장 간&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;중복되는 n-gram을 비교&lt;/b&gt;하는 지표입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;ROUGE-L&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a style=&quot;color: #337ab7;&quot; href=&quot;https://en.wikipedia.org/wiki/Longest_common_subsequence_problem&quot;&gt;LCS&lt;/a&gt; (&lt;span style=&quot;text-align: left;&quot;&gt;Longest Common Subsequence)&lt;/span&gt;기법을 이용해&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;최장 길이로 매칭되는 문자열을 측정&lt;/b&gt;합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;LCS의 장점은&lt;span&gt;&amp;nbsp;&lt;/span&gt;ROUGE-2와 같이 단어들의&lt;span&gt;&amp;nbsp;&lt;/span&gt;연속적 매칭을 요구하지 않고, 어떻게든&lt;span&gt;&amp;nbsp;&lt;/span&gt;문자열&lt;span&gt;&amp;nbsp;&lt;/span&gt;내에서 발생하는 매칭을 측정하기 때문에 보다 유연한 성능 비교가 가능하다는 것입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Reference: police killed the gunman&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;System-1:&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;police&lt;/b&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;kill&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;the gunman&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;System-2:&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;the gunman&lt;/b&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;kill&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;police&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;ROUGE-N&lt;/b&gt;: System-1 = System-2 (&amp;ldquo;police&amp;rdquo;, &amp;ldquo;the gunman&amp;rdquo;)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;ROUGE-L&lt;/b&gt;:&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;System-1 =&lt;span&gt;&amp;nbsp;&lt;/span&gt;3/4&lt;span&gt;&amp;nbsp;&lt;/span&gt;(&amp;ldquo;police the gunman&amp;rdquo;)&lt;/li&gt;
&lt;li&gt;System-2 = 2/4 (&amp;ldquo;the gunman&amp;rdquo;)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;ROUGE-S&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;특정&lt;span&gt;&amp;nbsp;&lt;/span&gt;Window size가 주어졌을 때,&lt;span&gt;&amp;nbsp;&lt;/span&gt;Window size&lt;span&gt;&amp;nbsp;&lt;/span&gt;내에 위치하는 단어쌍들을 묶어 해당 단어쌍들이 얼마나 중복되게 나타나는 지를 측정합니다. 때문에 해당 기법을&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;Skip-gram Co-ocurrence&lt;/b&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;기법이라 부르기도 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예를 들어,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;Skip-bigram&lt;/b&gt;은 최대&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;b&gt;2칸&lt;/b&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;내에 존재하는 단어들을 쌍으로 묶어, 해당 쌍들이 참조 문장과 생성 문장 간 얼마나 중복되는게 나타나는지를 측정합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;e.g.)&lt;span&gt;&amp;nbsp;&lt;/span&gt;&amp;ldquo;cat in the hat&amp;rdquo;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;해당 문장에서 발생할 수 있는&lt;span&gt;&amp;nbsp;&lt;/span&gt;Skip-bigram은 &amp;ldquo;cat in&amp;rdquo;, &amp;ldquo;cat the&amp;rdquo;, &amp;ldquo;cat hat&amp;rdquo;, &amp;ldquo;in the&amp;rdquo;, &amp;ldquo;in hat&amp;rdquo;, &amp;ldquo;the hat&amp;rdquo;이 됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;BLEU: n-gram precision&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ROUGE(n-gram recall)만 고려할 경우 평가지표가 정확하지 않을 수도 있다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;만약에,&amp;nbsp;모델이 생성했던&lt;span&gt;&amp;nbsp;&lt;/span&gt;시스템 요약본이&lt;span&gt;&amp;nbsp;&lt;/span&gt;엄청나게 긴&lt;span&gt;&amp;nbsp;&lt;/span&gt;문장이었을 경우&lt;span&gt;&amp;nbsp;&lt;/span&gt;참조 요약본과 크게 관련이 없을지라도&lt;span&gt;&amp;nbsp;&lt;/span&gt;참조 요약본의&lt;span&gt;&amp;nbsp;&lt;/span&gt;단어 대부분을 포함할 가능성이 커지게 되기 때문입니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;이러한 문제를 해결하기 위해 우리는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;Precision&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;을 계산할 필요가 있습니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Precision&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;은&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;Recall&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;과 반대로 모델이 생성한&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;시스템 요약본&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;중&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;참조 요약본&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;과 겹치는 단어들이 얼마나 많이 존재하는지를 의미합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;424&quot; data-origin-height=&quot;84&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/rZLlX/btsqtbWgGyv/ppDNykgN4uIbMHOByYJ2V0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/rZLlX/btsqtbWgGyv/ppDNykgN4uIbMHOByYJ2V0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/rZLlX/btsqtbWgGyv/ppDNykgN4uIbMHOByYJ2V0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FrZLlX%2FbtsqtbWgGyv%2FppDNykgN4uIbMHOByYJ2V0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;348&quot; height=&quot;69&quot; data-origin-width=&quot;424&quot; data-origin-height=&quot;84&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;ROUGE-1, BLUE 계산 예시&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시스템 요약 (모델 생성 요약): &lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;the cat was found under the bed&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;참조 요약 (Gold standard, 대개 사람이 직접 만든 요약): &lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;the cat was under the bed&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;224&quot; data-origin-height=&quot;73&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/HB4VL/btsqh4cHqGV/dIPI4k1UulHMxuqQ90TkYk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/HB4VL/btsqh4cHqGV/dIPI4k1UulHMxuqQ90TkYk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/HB4VL/btsqh4cHqGV/dIPI4k1UulHMxuqQ90TkYk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FHB4VL%2Fbtsqh4cHqGV%2FdIPI4k1UulHMxuqQ90TkYk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;166&quot; height=&quot;73&quot; data-origin-width=&quot;224&quot; data-origin-height=&quot;73&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;280&quot; data-origin-height=&quot;67&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cUDQCz/btsqrM3MzxH/BE5GwXRMvmS6WC8RDOzrgK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cUDQCz/btsqrM3MzxH/BE5GwXRMvmS6WC8RDOzrgK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cUDQCz/btsqrM3MzxH/BE5GwXRMvmS6WC8RDOzrgK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcUDQCz%2FbtsqrM3MzxH%2FBE5GwXRMvmS6WC8RDOzrgK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;205&quot; height=&quot;67&quot; data-origin-width=&quot;280&quot; data-origin-height=&quot;67&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시스템 요약 2: &lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;the tiny little cat was found under the big funny bed&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;291&quot; data-origin-height=&quot;64&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/wzeJw/btsqodgheV8/fHcwHTprpHkWNkw3l1r801/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/wzeJw/btsqodgheV8/fHcwHTprpHkWNkw3l1r801/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/wzeJw/btsqodgheV8/fHcwHTprpHkWNkw3l1r801/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FwzeJw%2FbtsqodgheV8%2FfHcwHTprpHkWNkw3l1r801%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;209&quot; height=&quot;46&quot; data-origin-width=&quot;291&quot; data-origin-height=&quot;64&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;모델이 생성한&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;시스템 요약&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;문장 내에&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;불필요한 단어&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;가 너무 많이 존재하기 때문에 좋은 점수를 받을 수 없게 됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;간결한&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;요약문을 생성해내야 하는 상황에서&amp;nbsp;&lt;/span&gt;Precision&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;은 아주 좋은 성능 지표로 사용될 수 있습니다&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;상황에 따라,&amp;nbsp; 정확한 모델 성능 평가는 지표들의 조합으로 판단하는 것이 좋을 수 있습니다.&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;정확한 모델의 성능 평가를 위해서는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;Precision&lt;/b&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;과&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;Recall&lt;/b&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;을 모두 계산한 후,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;F-Measure&lt;/b&gt;(F1-Score, Precision(정밀도)와 Recall(재현율)의 조화 평균)&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;를 측정하는 것이 좋을 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;만약에 모델의 제약 조건으로 인해 간결한 요약 만을 생성한다면, Recall(ROUGE)만 사용해도 괜찮을 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #404040; text-align: start;&quot;&gt;(이 경우, Precision은 성능 평가에 크게 중요하게 고려되지 않습니다.)&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;결론적으로,&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;다양한&lt;span&gt;&amp;nbsp;&lt;/span&gt;ROUGE&lt;span&gt;&amp;nbsp;&lt;/span&gt;성능 지표들 중 어떠한 지표를 사용할 것인지는 평가하고자 하는 모델의&lt;span&gt;&amp;nbsp;&lt;/span&gt;태스크에 달려있습니다&lt;/b&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;References&lt;/span&gt;&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://aclanthology.org/W04-1013/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://aclanthology.org/W04-1013/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://velog.io/@yoonene/ROUGE-Score%EB%9E%80&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://velog.io/@yoonene/ROUGE-Score%EB%9E%80&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://huffon.github.io/2019/12/07/rouge/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://huffon.github.io/2019/12/07/rouge/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Bleu</category>
      <category>Blue</category>
      <category>LLM</category>
      <category>Rouge</category>
      <category>text generation metrics</category>
      <category>텍스트생성평가</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/435</guid>
      <comments>https://yumdata.tistory.com/435#entry435comment</comments>
      <pubDate>Mon, 7 Aug 2023 20:13:34 +0900</pubDate>
    </item>
    <item>
      <title>Trustworthy AI(신뢰할 수 있는 AI),  AI Ethics(AI 윤리)</title>
      <link>https://yumdata.tistory.com/434</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Trustworthy AI (신뢰할 수 있는 AI)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;AI가 의도한 대로 작동하고 규정을 준수하는지 확인하기 위해 AI를 지시하고 모니터링할 수 있어야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;관리되는 데이터 및 AI는 데이터 및 AI 솔루션의 신뢰성을 모니터링하고 유지하는 기술, 도구 및 프로세스를 나타냅니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;신뢰할 수 있는 AI는 다음의 5가지 항목을 포함하고 있어야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Transparency (투명성)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;투명성은 신뢰를 강화하며 투명성을 높이는 가장 좋은 방법은 &lt;b&gt;공개&lt;/b&gt;입니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI 솔루션이 윤리적이 되려면 투명성도 필요합니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그것은 AI 기술을 쉽게 검사할 수 있게 하고 AI 솔루션에 사용되는 알고리즘이 숨겨져 있거나 더 자세히 볼 수 없다는 것을 의미합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Explainability (설명가능성)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;투명성은 사용 중인 AI 기술 및 알고리즘에 대한 보기를 제공하지만 AI가 사용되는&lt;span&gt;&amp;nbsp;&lt;/span&gt;방식에 대한 간단하고 직접적인 설명이 필요합니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;사람들은 특히 이러한 결론이 고용 가능성, 신용 가치 또는 잠재력에 대한 결정에 영향을 미치는 경우 AI가 결론에 도달한 방법을 이해할 권리가 있습니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Fairness (공정성)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI 솔루션의 공정성은 인간의 편견을 줄이고 개인 및 개인 그룹을 공평하게 대우하는 것을 의미합니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;공정하도록 설계된 AI 솔루션은 그대로 유지되어야 합니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;솔루션에 편견이 스며드는 것을 방지하려면 모니터링 및 안전 장치가 중요합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Robustness (견고성)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI가 계속해서 인간 경험의 일부가 되면서 공격에 더욱 취약해지고 있습니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;신뢰할 수 있는 것으로 간주되려면 AI 솔루션이 예외적인 조건을 효과적으로 처리하고 보안 위험을 최소화할 수 있을 만큼 충분히 견고해야 합니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI는 공격을 견뎌내고 공격을 받는 동안 무결성을 유지할 수 있어야 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Privacy&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;신뢰할 수 있으려면 AI는 원시 데이터뿐만 아니라 해당 데이터에서 얻은 통찰력의 모든 단계에서 프라이버시를 보장해야 합니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터는 인간 제작자의 소유이며 AI는 최고의 무결성으로 개인 정보를 보장해야 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://www.ibm.com/kr-ko/topics/ai-ethics&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.ibm.com/topics/ai-ethics&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Foundation Model</category>
      <category>AI Ethics</category>
      <category>AI 윤리</category>
      <category>explanation</category>
      <category>fairness</category>
      <category>Transparency</category>
      <category>견고성</category>
      <category>공평</category>
      <category>설명가능성</category>
      <category>투명도</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/434</guid>
      <comments>https://yumdata.tistory.com/434#entry434comment</comments>
      <pubDate>Fri, 4 Aug 2023 00:16:18 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] Hallucination (환각)</title>
      <link>https://yumdata.tistory.com/433</link>
      <description>&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;AI Hallucination (환각)&lt;/h3&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;인공지능(&lt;/span&gt;AI&lt;span style=&quot;text-align: left;&quot;&gt;)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하기 때문에 발생합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;사람이 질문에 것에 대한 이해를 바탕으로 정확한 답변을 생성하는 것이 아니라 확률적으로 가장 적합한 답변을 예측하기 때문입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;잘못된 답변은 statistical error(통계적 오류) 입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;&lt;a href=&quot;https://www.youtube.com/watch?v=cfqtFvWOfg0&quot;&gt;https://www.youtube.com/watch?v=cfqtFvWOfg0&lt;/a&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;figure data-ke-type=&quot;video&quot; data-ke-style=&quot;alignCenter&quot; data-video-host=&quot;youtube&quot; data-video-url=&quot;https://www.youtube.com/watch?v=cfqtFvWOfg0&quot; data-video-thumbnail=&quot;https://scrap.kakaocdn.net/dn/l1ft0/hyTxXHty3A/jN467DIFDesBel80QD2AQ1/img.jpg?width=1280&amp;amp;height=720&amp;amp;face=714_56_920_280&quot; data-video-width=&quot;860&quot; data-video-height=&quot;484&quot; data-video-origin-width=&quot;860&quot; data-video-origin-height=&quot;484&quot; data-ke-mobilestyle=&quot;widthContent&quot; data-video-title=&quot;Why Large Language Models Hallucinate&quot; data-original-url=&quot;&quot;&gt;&lt;iframe src=&quot;https://www.youtube.com/embed/cfqtFvWOfg0&quot; width=&quot;860&quot; height=&quot;484&quot; frameborder=&quot;&quot; allowfullscreen=&quot;true&quot;&gt;&lt;/iframe&gt;
&lt;figcaption style=&quot;display: none;&quot;&gt;&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;What hallucination is&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;환각은&amp;nbsp;사실이나&amp;nbsp;맥락&amp;nbsp;논리에서&amp;nbsp;벗어난&amp;nbsp;LLM의&amp;nbsp;출력이며&amp;nbsp;사소한&amp;nbsp;불일치에서&amp;nbsp;완전히&amp;nbsp;조작되거나&amp;nbsp;모순된&amp;nbsp;진술에&amp;nbsp;이르기까지&amp;nbsp;다양할&amp;nbsp;수&amp;nbsp;있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;sentence contradiction (문장 모순)&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;이것은 LLM이 이전 문장 중 하나와 모순되는 문장을 생성하는 것입니다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;The sky is blue today.&lt;/li&gt;
&lt;li&gt;The sky is green today.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;prompt contradiction (프롬프트 모순)&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;이것은 생성된 문장이 그것을 생성하는 데 사용된 프롬프트와 모순되는 것입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;LLM에게 식당에 대한 긍정적인 리뷰를 작성해달라고 요청할 때 &quot;음식은 형편없고 서비스는 무례했습니다.&quot;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;factual contradiction (사실적 모순)&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;사실적 오류 환각(factual error hallucinations)라고도 불리는 사실적 모순은 LLM의 답변이 틀렸다는 사실에 절대적으로 못 박힌 것입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;nonsense&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;무의미하거나&amp;nbsp;관련&amp;nbsp;없는&amp;nbsp;종류의&amp;nbsp;정보&amp;nbsp;기반&amp;nbsp;환각&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;&quot;프랑스의 수도는 파리입니다. 파리는 또한 유명한 가수의 이름입니다.&quot;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Why Large Language Models Hallucinate&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Data Quality&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;LLM 모델은 노이즈, 에러, 편향 또는 불일치하는 텍스트들을 포함한 대량의 코퍼스로 학습하였습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;예를 들어, 어떤 LLM들은 Wikipedia 또는 Reddit의 모든 것을 스크래핑해서 학습합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start; color: #000000;&quot;&gt;데이터가 모두 정확한 사실을 근거로 수집되었다 하더라도, 모든 주제와 도메인에 해당되는 데이터로 학습하거나 커버할 수는 없습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;그래서, LLM은 데이터의 정확성이나 관련성을 확인할 수 없는 상태에서 데이터를 일반화할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Generation Method&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LLM은&amp;nbsp;다양한&amp;nbsp;방법과&amp;nbsp;목표를&amp;nbsp;사용하여&amp;nbsp;빔&amp;nbsp;검색,&amp;nbsp;샘플링,&amp;nbsp;최대&amp;nbsp;우도&amp;nbsp;추정&amp;nbsp;또는&amp;nbsp;강화&amp;nbsp;학습과&amp;nbsp;같은&amp;nbsp;텍스트를&amp;nbsp;생성합니다.&lt;br /&gt;그리고 이러한 방법과 목표는 유창함(fluency)과 다양성(diversity), 일관성(coherence)과 창의성(creativity), 정확성(accuracy)과 참신함(novelty) 사이에 편향(bias)과 절충점(tradeoff)을 도입할 수 있습니다.&lt;br /&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Input Context&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;컨텍스트는 모델에 입력 프롬프트로 제공되는 정보를 나타냅니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;컨텍스트는&amp;nbsp;관련성&amp;nbsp;있고&amp;nbsp;정확한&amp;nbsp;출력을&amp;nbsp;생성하도록&amp;nbsp;모델을&amp;nbsp;안내하는&amp;nbsp;데&amp;nbsp;도움이&amp;nbsp;될&amp;nbsp;수&amp;nbsp;있지만,&amp;nbsp;불명확하거나&amp;nbsp;일관성이&amp;nbsp;없거나&amp;nbsp;모순되는&amp;nbsp;경우&amp;nbsp;모델을&amp;nbsp;혼란스럽게&amp;nbsp;하거나&amp;nbsp;오도할&amp;nbsp;수도&amp;nbsp;있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;컨텍스트는&amp;nbsp;중요하며&amp;nbsp;학술&amp;nbsp;에세이나&amp;nbsp;창의적인&amp;nbsp;글쓰기&amp;nbsp;연습에&amp;nbsp;적합한&amp;nbsp;생성된&amp;nbsp;텍스트를&amp;nbsp;찾고&amp;nbsp;있다고&amp;nbsp;말하지&amp;nbsp;않으면&amp;nbsp;해당&amp;nbsp;컨텍스트&amp;nbsp;내에서&amp;nbsp;응답할&amp;nbsp;것으로&amp;nbsp;기대할&amp;nbsp;수&amp;nbsp;없습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;h3 style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Minimize hallucinations&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;명확하고&amp;nbsp;구체적인&amp;nbsp;프롬프트&amp;nbsp;제공&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;입력&amp;nbsp;프롬프트가&amp;nbsp;더&amp;nbsp;정확하고&amp;nbsp;상세할수록&amp;nbsp;LLM이&amp;nbsp;관련성이&amp;nbsp;높고&amp;nbsp;가장&amp;nbsp;중요하게는&amp;nbsp;정확한&amp;nbsp;출력을&amp;nbsp;생성할&amp;nbsp;가능성이&amp;nbsp;높아집니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Active mitigation strategies (적극적인 완화 전략)&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;생성&amp;nbsp;중에&amp;nbsp;LLM이&amp;nbsp;작동하는&amp;nbsp;방식의&amp;nbsp;매개변수를&amp;nbsp;제어하는&amp;nbsp;설정과&amp;nbsp;같은&amp;nbsp;일부&amp;nbsp;LLM&amp;nbsp;설정을&amp;nbsp;사용합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 이에 대한 좋은 예는 출력의 임의성을 제어할 수 있는 온도(temperature) 매개변수입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;낮은 온도는 보다 보수적이고 집중적인 반응을 생성하고 높은 온도는 보다 다양하고 창의적인 반응을 생성합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;높은 온도는 hallucination을 발생시킬 가능성을 가집니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;multi-shot prompting&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;LLM에게 원하는 출력 포맷 또는 컨텍스트의 다양한 예시를 제공&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Hallucination</category>
      <category>Large Language Model</category>
      <category>환각</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/433</guid>
      <comments>https://yumdata.tistory.com/433#entry433comment</comments>
      <pubDate>Thu, 3 Aug 2023 21:28:25 +0900</pubDate>
    </item>
    <item>
      <title>Risks of Large Language Models (대규모 언어 모델의 위험)</title>
      <link>https://yumdata.tistory.com/432</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Risks&amp;nbsp;of&amp;nbsp;Large&amp;nbsp;Language&amp;nbsp;Models&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://www.youtube.com/watch?v=r4kButlDLUc&quot;&gt;https://www.youtube.com/watch?v=r4kButlDLUc&lt;/a&gt;&lt;/p&gt;
&lt;figure data-ke-type=&quot;video&quot; data-ke-style=&quot;alignCenter&quot; data-video-host=&quot;youtube&quot; data-video-url=&quot;https://www.youtube.com/watch?v=r4kButlDLUc&quot; data-video-thumbnail=&quot;https://scrap.kakaocdn.net/dn/nI8LM/hyTxRAr3Q8/KPOlaAjRZ6sz1WnGkcSYnk/img.jpg?width=1280&amp;amp;height=720&amp;amp;face=852_156_996_312&quot; data-video-width=&quot;860&quot; data-video-height=&quot;484&quot; data-video-origin-width=&quot;860&quot; data-video-origin-height=&quot;484&quot; data-ke-mobilestyle=&quot;widthContent&quot; data-original-url=&quot;&quot; data-video-title=&quot;&quot;&gt;&lt;iframe src=&quot;https://www.youtube.com/embed/r4kButlDLUc&quot; width=&quot;860&quot; height=&quot;484&quot; frameborder=&quot;&quot; allowfullscreen=&quot;true&quot;&gt;&lt;/iframe&gt;
&lt;figcaption style=&quot;display: none;&quot;&gt;&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;&lt;b&gt;Risks&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;&lt;b&gt;Strategies&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;Hallucinations&lt;br /&gt;&amp;nbsp;- falsehoods&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;Explainability&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;Bias&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;Culture and Audits&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;Consent&lt;br /&gt;&amp;nbsp;- copyright issues&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;Accountability&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;Security&lt;br /&gt;&amp;nbsp;- jailbreaking&lt;br /&gt;&amp;nbsp;- indirect prompt injection&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;Education&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;AI Hallucinations (환각)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;인공지능(&lt;/span&gt;AI&lt;span style=&quot;text-align: left;&quot;&gt;)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하기 때문에 발생합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;사람이 질문에 것에 대한 이해를 바탕으로 정확한 답변을 생성하는 것이 아니라 확률적으로 가장 적합한 답변을 예측하기 때문입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;잘못된 답변은 statistical error(통계적 오류) 입니다.&lt;/span&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Bias (편향)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;불완전한 데이터는 AI의 편향을 초래할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;학습한 데이터에 편향이 존재하는 경우, 인공지능의 답변에 편향이 존재할 수 있습니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어, AI는 때때로 모든 의사가 남자라고 생각합니다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Consent (동의)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다음은 세부적으로 이해하기 쉽고 이해하기 쉬운 팩트 시트에 포함되어야 합니다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;큐레이팅하는&amp;nbsp;데이터가&amp;nbsp;대표적입니까?&lt;/li&gt;
&lt;li&gt;동의하에&amp;nbsp;수집되었습니까?&lt;/li&gt;
&lt;li&gt;저작권&amp;nbsp;문제가&amp;nbsp;있습니까?&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;종종 우리는 대규모 언어 모델의 훈련 데이터가 어디에서 수집되어 있는지 모르는 경우가 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Security&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Jailbreaking&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;해커는&amp;nbsp;AI&amp;nbsp;모델을&amp;nbsp;통해&amp;nbsp;원래&amp;nbsp;프로그래밍을&amp;nbsp;변경하고&amp;nbsp;인종&amp;nbsp;차별과&amp;nbsp;같은&amp;nbsp;것을&amp;nbsp;지지하고&amp;nbsp;사람들이&amp;nbsp;불법적인&amp;nbsp;일을&amp;nbsp;하도록&amp;nbsp;제안합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Indirect prompt injection&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이것은, 제3자가 웹사이트를 변경하고 숨겨진 데이터를 추가하여 AI의 동작을 변경합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI에&amp;nbsp;의존하는&amp;nbsp;자동화는&amp;nbsp;잠재적으로&amp;nbsp;사용자가&amp;nbsp;인지하지&amp;nbsp;못하는&amp;nbsp;사이에&amp;nbsp;악의적인&amp;nbsp;지침을&amp;nbsp;보낼&amp;nbsp;수&amp;nbsp;있습니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Strategies&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Explainability&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;인라인&amp;nbsp;설명&amp;nbsp;기능을&amp;nbsp;제공하고&amp;nbsp;지식&amp;nbsp;그래프를&amp;nbsp;통해&amp;nbsp;실제&amp;nbsp;데이터&amp;nbsp;및&amp;nbsp;데이터&amp;nbsp;계보&amp;nbsp;및&amp;nbsp;출처를&amp;nbsp;제공하는&amp;nbsp;시스템과&amp;nbsp;대규모&amp;nbsp;언어&amp;nbsp;모델을&amp;nbsp;결합할&amp;nbsp;수&amp;nbsp;있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;- 모델이&amp;nbsp;방금&amp;nbsp;말한&amp;nbsp;것을&amp;nbsp;왜&amp;nbsp;말했습니까?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;- 어디에서&amp;nbsp;데이터를&amp;nbsp;가져왔습니까?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;- 데이터의 소스는 무엇입니까?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;대규모&amp;nbsp;언어&amp;nbsp;모델은&amp;nbsp;지식&amp;nbsp;그래프에서&amp;nbsp;제공한&amp;nbsp;답변에&amp;nbsp;대한&amp;nbsp;변형을&amp;nbsp;제공할&amp;nbsp;수&amp;nbsp;있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Culture and Audits&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;문화는&amp;nbsp;아무도&amp;nbsp;보고&amp;nbsp;있지&amp;nbsp;않을&amp;nbsp;때&amp;nbsp;사람들이&amp;nbsp;하는&amp;nbsp;것입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI는&amp;nbsp;우리&amp;nbsp;자신의&amp;nbsp;편견에&amp;nbsp;대한&amp;nbsp;훌륭한&amp;nbsp;거울이기&amp;nbsp;때문에&amp;nbsp;AI에&amp;nbsp;대해&amp;nbsp;작업하는&amp;nbsp;본질적으로&amp;nbsp;다양하고&amp;nbsp;여러&amp;nbsp;분야의&amp;nbsp;팀이&amp;nbsp;필요합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;AI 모델에 대한 감사 결과를 가지고 이질적인 결과가 있을 때 우리 자신의 조직 문화를 수정하십시오.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;사전 모델 배포와 사후 모델 배포를 감사하십시오.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;Accountability&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;데이터 동의 관련 위험을 완화하려면 감사(auditing)와 책임(accountability)을 결합한 노력이 필요합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;책임에는&amp;nbsp;AI&amp;nbsp;거버넌스&amp;nbsp;프로세스&amp;nbsp;설정,&amp;nbsp;기존&amp;nbsp;법률&amp;nbsp;및&amp;nbsp;규정&amp;nbsp;준수&amp;nbsp;확인,&amp;nbsp;사람들이&amp;nbsp;피드백을&amp;nbsp;통합할&amp;nbsp;수&amp;nbsp;있는&amp;nbsp;방법&amp;nbsp;제공이&amp;nbsp;포함됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;대규모&amp;nbsp;언어&amp;nbsp;모델은&amp;nbsp;사람들의&amp;nbsp;개인&amp;nbsp;정보&amp;nbsp;유출,&amp;nbsp;피싱,&amp;nbsp;스팸,&amp;nbsp;사기를&amp;nbsp;돕는&amp;nbsp;등&amp;nbsp;모든&amp;nbsp;종류의&amp;nbsp;악의적인&amp;nbsp;작업에&amp;nbsp;사용될&amp;nbsp;수&amp;nbsp;있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Education&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;완전히&amp;nbsp;새로운&amp;nbsp;대규모&amp;nbsp;언어&amp;nbsp;모델을&amp;nbsp;교육하는&amp;nbsp;것은&amp;nbsp;뉴욕과&amp;nbsp;베이징&amp;nbsp;사이를&amp;nbsp;왕복하는&amp;nbsp;1000번&amp;nbsp;이상의&amp;nbsp;항공편만큼&amp;nbsp;많은&amp;nbsp;탄소를&amp;nbsp;생성합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이것은 이러한 기술의 강점과 약점을 아는 것이 중요하다는 의미입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이는&amp;nbsp;AI의&amp;nbsp;책임&amp;nbsp;있는&amp;nbsp;큐레이션,&amp;nbsp;위험,&amp;nbsp;환경&amp;nbsp;비용,&amp;nbsp;안전&amp;nbsp;장치&amp;nbsp;및&amp;nbsp;기회에&amp;nbsp;대한&amp;nbsp;원칙에&amp;nbsp;대해&amp;nbsp;직원을&amp;nbsp;교육하는&amp;nbsp;것을&amp;nbsp;의미합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;일부&amp;nbsp;기술&amp;nbsp;회사는&amp;nbsp;대규모&amp;nbsp;언어&amp;nbsp;모델&amp;nbsp;학습&amp;nbsp;데이터가&amp;nbsp;악의적으로&amp;nbsp;변조되지&amp;nbsp;않았다고&amp;nbsp;믿고&amp;nbsp;있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그러나, 충분한&amp;nbsp;예제로&amp;nbsp;데이터&amp;nbsp;세트를&amp;nbsp;오염시키면&amp;nbsp;대규모&amp;nbsp;언어&amp;nbsp;모델의&amp;nbsp;동작과&amp;nbsp;출력에&amp;nbsp;영원히&amp;nbsp;영향을&amp;nbsp;미칠&amp;nbsp;수&amp;nbsp;있습니다.&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Hallucinations</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>환각</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/432</guid>
      <comments>https://yumdata.tistory.com/432#entry432comment</comments>
      <pubDate>Thu, 3 Aug 2023 20:37:12 +0900</pubDate>
    </item>
    <item>
      <title>[LLM] 업스테이지 모델, &amp;lsquo;허깅페이스 오픈 LLM 리더보드&amp;rsquo;서 세계 1위</title>
      <link>https://yumdata.tistory.com/431</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;업스테이지 &lt;span style=&quot;background-color: #ffffff; color: #374151; text-align: start;&quot;&gt;LLaMa-2-70b-instruct-v2 model&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://huggingface.co/upstage/Llama-2-70b-instruct-v2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://huggingface.co/upstage/Llama-2-70b-instruct-v2&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1690955937118&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;upstage/Llama-2-70b-instruct-v2 &amp;middot; Hugging Face&quot; data-og-description=&quot;This model can be loaded on the Inference API on-demand.&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/upstage/Llama-2-70b-instruct-v2&quot; data-og-url=&quot;https://huggingface.co/upstage/Llama-2-70b-instruct-v2&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/c2t1oM/hyTwmt7iHS/3N0t93h5D1DGoDkecPzPR0/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/sFnGy/hyTvhOJiNE/gLZgEGkItqi5eJJdK9BnP0/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200&quot;&gt;&lt;a href=&quot;https://huggingface.co/upstage/Llama-2-70b-instruct-v2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/upstage/Llama-2-70b-instruct-v2&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/c2t1oM/hyTwmt7iHS/3N0t93h5D1DGoDkecPzPR0/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/sFnGy/hyTvhOJiNE/gLZgEGkItqi5eJJdK9BnP0/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;upstage/Llama-2-70b-instruct-v2 &amp;middot; Hugging Face&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;This model can be loaded on the Inference API on-demand.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;782&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/czZl6D/btspNQehG4L/1PriXNi3yVL3WjZ06MTr71/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/czZl6D/btspNQehG4L/1PriXNi3yVL3WjZ06MTr71/img.jpg&quot; data-alt=&quot;upstage - LLaMa-2-70b-instruct&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/czZl6D/btspNQehG4L/1PriXNi3yVL3WjZ06MTr71/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FczZl6D%2FbtspNQehG4L%2F1PriXNi3yVL3WjZ06MTr71%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;326&quot; height=&quot;425&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;782&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;upstage - LLaMa-2-70b-instruct&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #1e1e1e; text-align: start;&quot;&gt;한국어 자연어이해(NLU) 평가 데이터셋 &amp;lsquo;클루(KLUE)&amp;rsquo;를 구축하고, OCR 세계대회 ICDAR에서 4개종목 우승, 생성 AI 서비스 &amp;lsquo;AskUp&amp;rsquo; 운영으로 축적된 프롬프트 엔지니어링 및 파인튜닝 노하우 등 업스테이지만의 차별화된 기술 자산을 총 결집한 결과&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Backbone Model&lt;/b&gt;:&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://github.com/facebookresearch/llama/tree/main&quot;&gt;LLaMA-2&lt;/a&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/423&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;&amp;nbsp;[Large Language Model] LLaMA&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Language(s)&lt;/b&gt;: English&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #1e1e1e; text-align: start;&quot;&gt;Hugging Face Open LLM Leaderboard&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #1e1e1e; text-align: start;&quot;&gt;오픈소스 생성 AI 모델의 바로미터&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #1e1e1e; text-align: start;&quot;&gt;전 세계 500여개의 오픈 모델들이 추론과 상식 능력, 언어 이해 종합능력 및 환각현상(할루시네이션) 방지 등 4가지 지표의 평균 점수로 경쟁, 공신력 있는 순위가 매겨진다.&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #1e1e1e; text-align: start;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Large Language Model</category>
      <category>llama</category>
      <category>LLM</category>
      <category>UpStage</category>
      <category>업스테이지</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/431</guid>
      <comments>https://yumdata.tistory.com/431#entry431comment</comments>
      <pubDate>Wed, 2 Aug 2023 15:08:01 +0900</pubDate>
    </item>
    <item>
      <title>[Data LakeHouse] Apache Iceberg</title>
      <link>https://yumdata.tistory.com/430</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Apache Iceberg&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;800&quot; data-origin-height=&quot;218&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/ob156/btspFl6d2Fk/m41FCh8owSzrgKXFr2x7ek/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/ob156/btspFl6d2Fk/m41FCh8owSzrgKXFr2x7ek/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/ob156/btspFl6d2Fk/m41FCh8owSzrgKXFr2x7ek/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fob156%2FbtspFl6d2Fk%2Fm41FCh8owSzrgKXFr2x7ek%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;532&quot; height=&quot;145&quot; data-origin-width=&quot;800&quot; data-origin-height=&quot;218&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&lt;span style=&quot;text-align: left;&quot;&gt;a high-performance format for huge analytic tables&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Iceberg는 대규모 분석 테이블을 위한 고성능 형식입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Iceberg는 SQL 테이블의 신뢰성과 단순성을 빅 데이터에 제공하는 동시에 Spark, Trino, Flink, Presto, Hive 및 Impala와 같은 엔진이 동시에 동일한 테이블에서 안전하게 작업할 수 있도록 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;대형&amp;nbsp;페타바이트(PB)&amp;nbsp;규모의&amp;nbsp;테이블용으로&amp;nbsp;설계&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;ACID&amp;nbsp;준수&amp;nbsp;트랜잭션&amp;nbsp;지원&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc; background-color: #ffffff; color: #051922; text-align: left;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Atomicity : 원자성. 트랜잭션과 관련된 일은 모두 실행되던지 모두 실행되지 않도록 하던지를 보장하는 특성&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Consistency : 일관성. 트랜잭션이 성공했다면, 데이터베이스는 그 일관성을 유지해야 한다. 일관성은 특정한 조건을 두고, 그 조건을 만족하는지를 확인하는 방식으로 검사할 수 있다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Isolation : 독립성. 트랜잭션을 수행하는 도중에 다른 연산작업이 끼어들지 못하도록 한다. 임계영역을 두는 것으로 달성할 수 있다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Durability : 성공적으로 트랜잭션이 수행되었다면, 그 결과는 완전히 반영이 되어야 한다. 완전히 반영되면&amp;nbsp;로그를 남기게 되는데, 후에 이 로그를 이용해서 트랜잭션 수행전 상태로 되돌릴 수 있어야 한다. 때문에 트랜잭션은 로그저장이 완료된 시점에서 종료가 되어야 한다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;스키마 진화, 파티션 진화 및 테이블 버전 롤백을 포함하여 다른 테이블 형식에서는 일반적으로 사용할 수 없는 기능을 제공(모두 데이터를 다시 쓰지 않고)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;고급&amp;nbsp;데이터&amp;nbsp;필터링&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시간&amp;nbsp;여행&amp;nbsp;쿼리를&amp;nbsp;통해&amp;nbsp;과거&amp;nbsp;시점의&amp;nbsp;데이터를&amp;nbsp;볼&amp;nbsp;수&amp;nbsp;있음.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 style=&quot;background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;Expressive SQL (&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;표현 SQL)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Iceberg는 새로운 데이터를 병합하고, 기존 행을 업데이트하고, 대상이 지정된 삭제를 수행하는 유연한 SQL 명령을 지원합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Iceberg는 읽기 성능을 위해 열심히 데이터 파일을 다시 쓰거나 더 빠른 업데이트를 위해 델타 삭제를 사용할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;Full Schema Evolution (&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;전체 스키마 진화)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;스키마 진화는 제대로 작동합니다. 열을 추가해도 '좀비' 데이터는 다시 가져오지 않습니다. 열의 이름을 바꾸고 재정렬할 수 있습니다. 무엇보다도 스키마를 변경할 때 테이블을 다시 작성할 필요가 없습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;Hidden Partitioning&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Iceberg는 테이블의 행에 대한 파티션 값을 생성하는 지루하고 오류가 발생하기 쉬운 작업을 처리하고 불필요한 파티션과 파일을 자동으로 건너뜁니다. 빠른 쿼리를 위해 추가 필터가 필요하지 않으며 데이터 또는 쿼리가 변경되면 테이블 레이아웃을 업데이트할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;Time Travel and Rollback&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;시간 이동을 통해 정확히 동일한 테이블 스냅샷을 사용하는 재현 가능한 쿼리를 사용하거나 사용자가 변경 사항을 쉽게 검토할 수 있습니다. 버전 롤백을 사용하면 테이블을 양호한 상태로 재설정하여 사용자가 문제를 신속하게 수정할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;Data Compaction (데이터 압축)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 압축은 기본적으로 지원되며 bin-packing 또는 정렬과 같은 다양한 재작성 전략 중에서 선택하여 파일 레이아웃 및 크기를 최적화할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;References&lt;/span&gt;&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://iceberg.apache.org/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://iceberg.apache.org/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://iceberg.apache.org/docs/0.13.0/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://iceberg.apache.org/docs/0.13.0/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Data &amp;amp; DataOps/Data &amp;amp; DataOps</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/430</guid>
      <comments>https://yumdata.tistory.com/430#entry430comment</comments>
      <pubDate>Tue, 1 Aug 2023 15:45:25 +0900</pubDate>
    </item>
    <item>
      <title>부분구문분석(청크나누기, Chunking)</title>
      <link>https://yumdata.tistory.com/429</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;부분구문분석(청크나누기,&amp;nbsp;Chunking)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;부분구문분석(shallow parsing) = 청크나누기(Chunking)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;명사, 동사, 형용사와 같은 문법 요소로 구성된 고차원의 단위를 유도해 내는 것&lt;/li&gt;
&lt;li&gt;사전 훈련된 품사태깅 모델이 존재함&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;여러 개의 품사로 구(pharase)를 만드는 것을 chunking이라 하고, 이 구(pharase)를 chunk라 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;문장을 각 품사로 구분하고, Chunking에 의해 구로 구분하면 문장의 의미를 파악하기 용이해 집니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;문장에서 (DT + JJ + NN), (DT + JJ + JJ + NN), (JJ + NN), 등의 시퀀스는 모두 명사구 (NP : Noun phrase)로 판단합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;겹치는 위치에서 태그 패턴이 일치하는 경우 가장 왼쪽 일치가 우선합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;590&quot; data-origin-height=&quot;178&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/pvT0G/btsnZXmnFQm/kXXIWkafcvhY6zbwxxT5N1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/pvT0G/btsnZXmnFQm/kXXIWkafcvhY6zbwxxT5N1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/pvT0G/btsnZXmnFQm/kXXIWkafcvhY6zbwxxT5N1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FpvT0G%2FbtsnZXmnFQm%2FkXXIWkafcvhY6zbwxxT5N1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;590&quot; height=&quot;178&quot; data-origin-width=&quot;590&quot; data-origin-height=&quot;178&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;spaCy을 활용한 chunking&lt;/h4&gt;
&lt;pre id=&quot;code_1689654886300&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;import spacy
nlp = spacy.load('en')
doc = nlp(u&quot;Mary slapped the green witch.&quot;)
for chunk in doc.noun_chunks:
  print('{} -&amp;gt; {}'.format(chunk, chunk.label_))&lt;/code&gt;&lt;/pre&gt;
&lt;pre id=&quot;code_1689654917141&quot; class=&quot;shell&quot; data-ke-language=&quot;shell&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;Mary -&amp;gt; NP
the green witch -&amp;gt; NP&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;정규식을 활용한 chunking&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;부분구문분석(chunking)모델 훈련에 사용될 데이터가 없다면, 정규식을 활용하여 부분구문분석을 진행할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;nltk에서 RegexpParser를 사용할 수 있다고 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Chunk 구조 - IOB Tags&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Chunk내의 각 품사의 위치에 따라 B (Begin), I (Inside), O (Outside)를 붙입니다. (chunk tag).&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;B-NP는 NP chunk의 시작 부분을 의미하고, I-NP는 NP chunk의 내부 부분을 의미합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Chunk 구조는 IOB tags로 표현할 수도 있고, 트리 구조로 표현할 수도 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;NLTK 트리 구조&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;590&quot; data-origin-height=&quot;230&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bjZPrz/btsn0FluEp4/M3o0AHOvDk4a7zYPYVcg5K/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bjZPrz/btsn0FluEp4/M3o0AHOvDk4a7zYPYVcg5K/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bjZPrz/btsn0FluEp4/M3o0AHOvDk4a7zYPYVcg5K/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbjZPrz%2Fbtsn0FluEp4%2FM3o0AHOvDk4a7zYPYVcg5K%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;590&quot; height=&quot;230&quot; data-origin-width=&quot;590&quot; data-origin-height=&quot;230&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Clause(절)&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;문법에 clause (절)를 정의하면 문장을 아래와 같이 분석 (chunking) 할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Recursion in Linguistic Structure&lt;/b&gt;&lt;/p&gt;
&lt;pre id=&quot;code_1689655553253&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;grammar = r&quot;&quot;&quot;
NP: {&amp;lt;DT|JJ|NN.*&amp;gt;+} # Chunk sequences of DT, JJ, NN
PP: {&amp;lt;IN&amp;gt;&amp;lt;NP&amp;gt;} # Chunk prepositions followed by NP
VP: {&amp;lt;VB.*&amp;gt;&amp;lt;NP|PP|CLAUSE&amp;gt;+$} # Chunk verbs and their arguments
CLAUSE: {&amp;lt;NP&amp;gt;&amp;lt;VP&amp;gt;} # Chunk NP, VP
&quot;&quot;&quot;
cp = nltk.RegexpParser(grammar)
sentence = [(&quot;Mary&quot;, &quot;NN&quot;), (&quot;saw&quot;, &quot;VBD&quot;), (&quot;the&quot;, &quot;DT&quot;), (&quot;cat&quot;, &quot;NN&quot;),
(&quot;sit&quot;, &quot;VB&quot;), (&quot;on&quot;, &quot;IN&quot;), (&quot;the&quot;, &quot;DT&quot;), (&quot;mat&quot;, &quot;NN&quot;)]
print(cp.parse(sentence))&lt;/code&gt;&lt;/pre&gt;
&lt;pre id=&quot;code_1689655654516&quot; class=&quot;shell&quot; data-ke-language=&quot;shell&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;(S (NP Mary/NN) saw/VBD (CLAUSE (NP the/DT cat/NN) (VP sit/VB (PP on/IN (NP the/DT mat/NN)))))&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;590&quot; data-origin-height=&quot;368&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b3NQEa/btsnYZehP6k/scLxOMtq916VaY3tjm8D8K/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b3NQEa/btsnYZehP6k/scLxOMtq916VaY3tjm8D8K/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b3NQEa/btsnYZehP6k/scLxOMtq916VaY3tjm8D8K/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb3NQEa%2FbtsnYZehP6k%2FscLxOMtq916VaY3tjm8D8K%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;465&quot; height=&quot;290&quot; data-origin-width=&quot;590&quot; data-origin-height=&quot;368&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;pre id=&quot;code_1689655595839&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;cp = nltk.RegexpParser(grammar, loop=2)
print(cp.parse(sentence))&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;pre id=&quot;code_1689655644076&quot; class=&quot;shell&quot; data-ke-language=&quot;shell&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;(S (NP John/NNP) thinks/VBZ (CLAUSE (NP Mary/NN) (VP saw/VBD (CLAUSE (NP the/DT cat/NN) (VP sit/VB (PP on/IN (NP the/DT mat/NN)))))))&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;RegexpParser()에&lt;span&gt;&amp;nbsp;&lt;/span&gt;loop = 2를 지정하면 아래와 같이 clause 안에 또 다른 clause를 재귀적(recursion)으로 분석합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이와 같이 문장에 맞게 트리를 깊게 구성하는 것을&lt;span&gt;&amp;nbsp;&lt;/span&gt;cascaded chunking (계단식 chunk)&lt;span&gt;&amp;nbsp;&lt;/span&gt;이라 합니다.&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;590&quot; data-origin-height=&quot;352&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cC9NJR/btsnYYl7hZx/zPQluTPd6kLs7mc6FGK681/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cC9NJR/btsnYYl7hZx/zPQluTPd6kLs7mc6FGK681/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cC9NJR/btsnYYl7hZx/zPQluTPd6kLs7mc6FGK681/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcC9NJR%2FbtsnYYl7hZx%2FzPQluTPd6kLs7mc6FGK681%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;590&quot; height=&quot;352&quot; data-origin-width=&quot;590&quot; data-origin-height=&quot;352&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Chinking&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;특정 부분을 chunk 밖으로 빼내는 것을 chinking이라고 합니다. Chink는 문장에서 chunk를 제외한 나머지 부분을 의미합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;문장 전체를 chunk로 정의하고, 특정 부분을 chinking하면 나머지 부분이 chunk가 됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Chinking을 이용해서 Chunking을 할 수도 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://didu-story.tistory.com/72&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://didu-story.tistory.com/72&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://jynee.github.io/NLP%EA%B8%B0%EC%B4%88_3/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://jynee.github.io/NLP%EA%B8%B0%EC%B4%88_3/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>NLP/Embedding</category>
      <category>chinking</category>
      <category>chunk</category>
      <category>Chunking</category>
      <category>부분구문분석</category>
      <category>청크</category>
      <category>청킹</category>
      <category>칭킹</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/429</guid>
      <comments>https://yumdata.tistory.com/429#entry429comment</comments>
      <pubDate>Tue, 18 Jul 2023 13:48:00 +0900</pubDate>
    </item>
    <item>
      <title>LangChain for LLM Application Development</title>
      <link>https://yumdata.tistory.com/428</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #1c1c1e; text-align: left;&quot;&gt;LangChain&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #1c1c1e; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;930&quot; data-origin-height=&quot;210&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/Irofw/btsn0GKQbgK/LLT2nzs5uEbAkDfiLg22M1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/Irofw/btsn0GKQbgK/LLT2nzs5uEbAkDfiLg22M1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/Irofw/btsn0GKQbgK/LLT2nzs5uEbAkDfiLg22M1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FIrofw%2Fbtsn0GKQbgK%2FLLT2nzs5uEbAkDfiLg22M1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;320&quot; height=&quot;72&quot; data-origin-width=&quot;930&quot; data-origin-height=&quot;210&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;text-align: left;&quot;&gt;LLM을 사용하여 애플리케이션 생성을 단순화하도록 설계된 프레임워크&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;LLM 프롬프트의 실행과 외부 소스의 실행(계산기, 구글 검색, 슬랙 메시지 전송이나 소스코드 실행 등)을 엮어 연쇄(Chaining)하는 것&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;나의 질문과 LLM의 답변 사이에 여러가지 Tool들을 이용해 프롬프트 엔지니어링을 하는 것&lt;br /&gt;그러한 과정을 반복해 원하는 답을 찾는 것&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://docs.langchain.com/docs/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://docs.langchain.com/docs/&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689605191181&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot; ️  LangChain |  ️  LangChain&quot; data-og-description=&quot;LangChain is a framework for developing applications powered by language models.&quot; data-og-host=&quot;docs.langchain.com&quot; data-og-source-url=&quot;https://docs.langchain.com/docs/&quot; data-og-url=&quot;https://docs.langchain.com/docs/&quot; data-og-image=&quot;&quot;&gt;&lt;a href=&quot;https://docs.langchain.com/docs/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://docs.langchain.com/docs/&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url();&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt; ️  LangChain |  ️  LangChain&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;LangChain is a framework for developing applications powered by language models.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;docs.langchain.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Open-source development framework for LLM applications&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Python and Javascript(TypeScript) packages&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Focused on composition and modularity&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;key value adds:&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Modular components&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Use cases: Common ways to combine components&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Language: Large Language Model의 Language&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Chain: 모듈들을 체인으로 연결하여 다른 툴의 출력을 다음 툴의 입력으로 연결하는 방식&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; ex) 검색 &amp;rarr; OpenAI(LLM) &amp;rarr; 계산&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LLM을 이용해서 애플리케이션을 만들때 쓸 수 있는 툴/라이브러리 모음&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모듈화로 쉽게 부품을 갈아끼울 수 있음&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; LLM은 홀로 사용하기에는 불충분하고 여러가지 소스와 지식을 결합해야 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;한 API(LLM 포함)의 output이 다른 LLM의 input으로 들어가고, 또 그 LLM의 output이 다른 LLM의 input으로 들어가는 등 체인처럼 연결된다는 것으로 이해할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start; color: #000000;&quot;&gt;LangChain은 단순히 API 엑세스 하는 기능도 있지만 그 외에도 다양한 컴포넌트들이 준비되어 있으며,&amp;nbsp;아래와 같이 크게 두 가지 원칙에 기반하여 작성되었다고 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Be data-aware&amp;nbsp;: 언어 모델을 다른 데이터 원본에 연결합니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Be agentic&amp;nbsp;: 언어 모델이 해당 환경과 상호 작용할 수 있도록 허용합니다.&lt;/span&gt;&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;LangChain은 머신 러닝 스타트업인 Robust Intelligence에서 근무하던 Harrison Chase가&amp;nbsp;&lt;b&gt;2022년 10월&lt;/b&gt;&amp;nbsp;오픈 소스 프로젝트로 시작했습니다. 이 프로젝트는 GitHub의 수백 명의 기여자의 개선, Twitter의 최신 토론, 프로젝트의 Discord 서버에서의 활발한 활동, 많은 YouTube 자습서 및 샌프란시스코와 런던의 모임을 통해 빠르게 인기를 얻었습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;&lt;b&gt;2023년 4월&lt;/b&gt;, 새로운 스타트업은 Benchmark에서 1,000만 달러의 종자 투자를 발표한 지 일주일 만에 벤처 기업인 Sequoia Capital로부터 최소 2억 달러의 가치로 2,000만 달러 이상의 자금을 조달했습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;&lt;b&gt;2023년 3월,&lt;/b&gt; LangChain은 Amazon, Google 및 Microsoft Azure 클라우드 스토리지를 포함한 시스템과의 통합을 포함했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;뉴스, 영화 정보 및 날씨에 대한 API 래퍼 요약, 구문 및 의미 검사, 쉘 스크립트 실행을 위한 Bash 여러 웹 스크래핑 하위 시스템 및 템플릿  few-shot 학습 프롬프트 생성 지원; &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;코드에서 'todo' 작업 찾기 및 요약 Google 드라이브 문서, 스프레드시트 및 프레젠테이션 요약, 추출 및 생성 &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;Google 검색 및 Microsoft Bing 웹 검색 OpenAI, Anthropic 및 Hugging Face 언어 모델 iFixit 수리 안내서 및 위키 검색 및 요약; &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;질문 답변, 문서 결합 및 질문 생성을 위한 MapReduce N-그램 중첩 점수; &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;PDF 파일 텍스트 추출 및 조작을 위한 PyPDF, pdfminer, fitz 및 pymupdf; &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;Python 및 JavaScript 코드 생성, 분석 및 디버깅 임베딩 및 데이터 개체를 캐시하기 위해 벡터 데이터베이스를 위배합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;Redis 캐시 데이터베이스 스토리지 API 요청을 위한 Python RequestsWrapper 및 기타 메서드 JSON 지원을 포함한 SQL 및 NoSQL 데이터베이스 Streamlit(로깅 포함) k-최근접 이웃 검색을 위한 텍스트 매핑; &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;시간대 변환 및 캘린더 작업 스레드 및 비동기 하위 프로세스 실행에서 스택 기호 추적 및 기록 및 Wolfram Alpha 웹사이트 및 SDK. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #333333; text-align: left;&quot;&gt;2023년 4월부터 50개 이상의 문서 유형 및 데이터 소스에서 읽을 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;a href=&quot;https://github.com/logspace-ai/langflow&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;Langflow&lt;/span&gt;&lt;/a&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;LangChain 설계를 위한 GUI 프로젝트&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;800&quot; data-origin-height=&quot;500&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/lQLD9/btsnXjwxKzv/S1Wm9GpMo1rD2t3sWlolE0/img.gif&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/lQLD9/btsnXjwxKzv/S1Wm9GpMo1rD2t3sWlolE0/img.gif&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/lQLD9/btsnXjwxKzv/S1Wm9GpMo1rD2t3sWlolE0/img.gif&quot; srcset=&quot;https://blog.kakaocdn.net/dn/lQLD9/btsnXjwxKzv/S1Wm9GpMo1rD2t3sWlolE0/img.gif&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;800&quot; height=&quot;500&quot; data-origin-width=&quot;800&quot; data-origin-height=&quot;500&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LangChain에는 사전 설정된 모듈(Module)이 존재하고 사용자는 이 모듀을 적절히 혼합하여 여러 구성 요소(Component)로 엮어낸 뒤 각 구성 요소 간의 파이프라인을 설정할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;모듈에는 다양한 종류가 있으며 프레임워크 생태계의 발전에 따라 계속해서 증가하고 있습니다. 여러 개의 모듈이 모여 하나의 구성 요소를 이루고, 또 이렇게 모인 구성 요소가 체인을 이루어 마치&lt;/span&gt;&lt;b&gt;&amp;nbsp;레고 블록을 쌓아 올리듯이 하나의 완성된 어플리케이션을 빌드하는 역할&lt;/b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;을 합니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #555555; text-align: start;&quot;&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000; font-size: 1.44em; letter-spacing: -1px; font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif;&quot;&gt;Components&lt;/span&gt;&lt;/h2&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #555555; text-align: start;&quot;&gt;&lt;a style=&quot;background-color: #e6f5ff; color: #0070d1;&quot; href=&quot;https://docs.langchain.com/docs/&quot;&gt;LangChain&lt;/a&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;사이트에서는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;7개 카테고리의 컴포넌트&lt;/b&gt;&lt;span style=&quot;color: #555555; text-align: start;&quot;&gt;들과 다양한&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;사용 사례&lt;/b&gt;&lt;span style=&quot;color: #555555; text-align: start;&quot;&gt;들을 소개하고 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Schema&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;ChatMessages&lt;/li&gt;
&lt;li&gt;Document&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Models&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;LLMs&lt;/span&gt;: 20+ integrations&lt;/li&gt;
&lt;li&gt;Chat Models&lt;/li&gt;
&lt;li&gt;Text Embedding Models: 10+ integrations&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Prompts&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Prompt&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;Prompt Templates&lt;/span&gt;: &lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;챗봇 스타일 템플릿, ELI5 질문-답변 등 다양한 유형의 프롬프트를 위한 템플릿&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;Example Selectors: 5+ implementations&lt;/li&gt;
&lt;li&gt;Output Parsers: 5+ implementations
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Retry/fixing logic&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Indexes&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Document Loaders: 50+ implementations&lt;/li&gt;
&lt;li&gt;Text Splitters: 10+ implementations&lt;/li&gt;
&lt;li&gt;Vector Stores: 10+ integrations&lt;/li&gt;
&lt;li&gt;Retrievers: 5+ integrations/implementations&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;Memory&lt;/span&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Chat Message History&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;Chains&lt;/span&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Prompt + LLM + Output parsing&lt;/li&gt;
&lt;li&gt;Can be used as building blocks for longer chains&lt;/li&gt;
&lt;li&gt;More application specific chains: 20+ types&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;Agents - Tools&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLMs를 사용하여 어떤 행동이 취해져야 하는지 결정하는 도구입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;웹 검색이나 계산기와 같은 도구를 사용할 수 있으며, 모든 것은 논리적인 연산 루프에 패키지화 됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Agent Types: 5+ types
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Algorithms for getting LLMs to use tools&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;Agent Toolkits: 10+ implementations
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Agents armed with specific tools for a specific application&amp;nbsp;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;사전준비 (python 기준, 환경설정)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #555555; text-align: start;&quot;&gt;1. openai, langchain SDK 설치&lt;/span&gt;&lt;/p&gt;
&lt;pre id=&quot;code_1689605874418&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;$ pip install openai
$ pip install langchain&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1-1) Optional: 구글 검색, 위키피디아, VectorStore, Huggingface Embedding 등 관련&lt;/p&gt;
&lt;pre id=&quot;code_1689643578156&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;$ pip install google-search-results
$ pip install wikipedia
$ pip install faiss-cpu # 오픈소스 벡터DB (Facebook, MIT license)
$ pip install sentence_transformers # HuggingFace Embedding 사용 위해서 필요
$ pip install tiktoken # Summarization 할때 필요&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2. OpenAI API key&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;2-1) ChatOpenAI 생성 시&lt;/p&gt;
&lt;pre id=&quot;code_1689605887416&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;chat = ChatOpenAI(openai_api_key=openai_api_key)&lt;/code&gt;&lt;/pre&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #555555; text-align: start;&quot;&gt;2-2) 환경 변수 설정&lt;/span&gt;&lt;/p&gt;
&lt;pre id=&quot;code_1689605911636&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;export OPENAI_API_KEY=&quot;XXX-...&quot;&lt;/code&gt;&lt;/pre&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #555555; text-align: start;&quot;&gt;2-3) jupyter notebook 사용 시, 환경 변수 설정&lt;/span&gt;&lt;/p&gt;
&lt;pre id=&quot;code_1689605925782&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;import os
os.environ[&quot;OPENAI_API_KEY&quot;] = &quot;...&quot;&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Schema&lt;/h2&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;ChatMessages&lt;/h4&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LLM과 상호 작용하는 가장 기본이 되는 인터페이스입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;현재는 System, Human, AI 3종류의 사용자를 지원합니다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;System&amp;nbsp;: AI에게 해야 할 일을 알려주는 배경 컨텍스트&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Human : 사용자 메세지&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI : AI가 응답한 내용을 보여주는 상세 메세지&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Document&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;텍스트와 메타데이터를 담고있는 객체입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Models&lt;/h2&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;LLMs(Large Language Models)&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;텍스트 문자열을 입력하고, 텍스트 문자열을 출력하는 모델입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LangChain은 LLM 공급자가 아니며, 인터페이스만 제공합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LLM 모듈은 Langchain의 엔진&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;입니다. &lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;각기 다른 언어 모델 혹은 언어 모델 제공 서비스가 가진 API를&amp;nbsp;&lt;/span&gt;Langchain의 다른 여러 모듈에서 사용할 수 있도록 정규화한 인터페이스&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;로 제공하는 역할을 합니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;모듈에 연결할 LLM은 어떤 종류의 모델이라고 상관없습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;OpenAI, Huggingface의 Inference API로 호스팅하고 있는 모델, 로컬에서 실행중인 LLaMa 기반 모델 등 모두 가능합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;하나의 어플리케이션에서 다양한 LLMs를 사용할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;요구사항에 따라 필요한 모델을 사용하는 방식으로 어플리케이션을 잘 구성하면 불필요한 리소스 낭비를 줄이고 비용을 절감할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;pre id=&quot;code_1689644920380&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;import { ChatOpenAI } from 'langchain/chat_models';

export const gpt4Model = new ChatOpenAI({
  temperature: 0.6,
  modelName: 'gpt-4',
  verbose: true,
  streaming: true,
});&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Chat Models&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;채팅 모델은 언어 모델의 변형으로, 내부적으로는 언어 모델을 사용하지만 노출되는 인터페이스는 약간 다릅니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;현재보다 나은 추상화를 위해서 지속적으로 개선이 이뤄지고 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Text Embedding Models&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;텍스트를 벡터 (텍스트의 의미를 담고 있는 일련의 숫자)로 변경합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;주로 두 텍스트를 함께 비교할 때 사용합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Prompts&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델을 프로그래밍하는 새로운 방법을 프롬프트를 사용하는 것입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다른 데이터 유형(이미지, 오디오) 등을 고려하여 추상화 작업이 진행되고 있으며, 현재는 텍스트를 처리합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Prompt Templates&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Prompt Template은&amp;nbsp;사전 설정된 Prompt에 지정된 변수를 쉽게 넣을 수 있도록 구성한 템플릿 모듈입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;사용자로부터 일련의 매개변수를 가져와 프롬프트를 생성할 수 있는 텍스트 문자열이 포함되어 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Example Selector&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트에서 상황에 맞는 정보를 동적으로 배치할 수 있는 예제 중에서 쉽게 선택할 수 있는 방법을 제공합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Output Parser&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;일반적으로 LLM은 텍스트를 출력합니다. 하지만 보다 구조화된 정보를 얻고 싶을 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;출력 파서를 이용하여 LLM 응답을 구조화할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;출력 파서는 두 가지 컨셉을 가지고 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Format instructions: 원하는 결과의 포맷을 지정하여 LLM에 알려줍니다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Parser: 원하는 텍스트 출력 구조(보통 JSON)을 추출하도록 합니다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Indexes&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;인덱스는 LLM이 다른 소스에서 문서를 쉽게 가져올 수 있도록 하는 방법입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;문서 작성을 위한 유틸리티 함수, 다양한 유형의 Index, 그리고 이러한 Index를 체이닝하여 사용합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Document Loader&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;특정 문서나 웹페이지, 이메일, 파워포인트, 워드, 유튜브, 트위터 등에서 텍스트 정보를 긁어오는 로드하는 역할입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;GPT4의 최대 입력 토큰은 32,768개로 약 64,000 단어 분량의 값을 입력할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Document Loader 전체 목록&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://python.langchain.com/docs/modules/data_connection/document_loaders/&lt;/a&gt;&lt;/p&gt;
&lt;div data-ke-type=&quot;moreLess&quot; data-text-more=&quot;더보기&quot; data-text-less=&quot;닫기&quot;&gt;&lt;a class=&quot;btn-toggle-moreless&quot;&gt;더보기&lt;/a&gt;
&lt;div class=&quot;moreless-content&quot;&gt;
&lt;ul style=&quot;list-style-type: disc; background-color: #ffffff; color: #1c1e21; text-align: left;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/acreom&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;acreom&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/airbyte_json&quot;&gt;Airbyte JSON&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/airtable&quot;&gt;Airtable&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/alibaba_cloud_maxcompute&quot;&gt;Alibaba Cloud MaxCompute&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/apify_dataset&quot;&gt;Apify Dataset&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/arxiv&quot;&gt;Arxiv&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/aws_s3_directory&quot;&gt;AWS S3 Directory&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/aws_s3_file&quot;&gt;AWS S3 File&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/azlyrics&quot;&gt;AZLyrics&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/azure_blob_storage_container&quot;&gt;Azure Blob Storage Container&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/azure_blob_storage_file&quot;&gt;Azure Blob Storage File&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/bibtex&quot;&gt;BibTeX&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/bilibili&quot;&gt;BiliBili&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/blackboard&quot;&gt;Blackboard&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/blockchain&quot;&gt;Blockchain&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/brave_search&quot;&gt;Brave Search&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/browserless&quot;&gt;Browserless&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/chatgpt_loader&quot;&gt;chatgpt_loader&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/college_confidential&quot;&gt;College Confidential&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/confluence&quot;&gt;Confluence&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/conll-u&quot;&gt;CoNLL-U&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/copypaste&quot;&gt;Copy Paste&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/csv&quot;&gt;CSV&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/cube_semantic&quot;&gt;Cube Semantic Layer&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/datadog_logs&quot;&gt;Datadog Logs&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/diffbot&quot;&gt;Diffbot&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/discord&quot;&gt;Discord&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/docugami&quot;&gt;Docugami&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/duckdb&quot;&gt;DuckDB&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/email&quot;&gt;Email&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/embaas&quot;&gt;Embaas&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/epub&quot;&gt;EPub&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/evernote&quot;&gt;EverNote&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;
&lt;div&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/#&quot;&gt;example_data&lt;/a&gt;&lt;/div&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/excel&quot;&gt;Microsoft Excel&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/facebook_chat&quot;&gt;Facebook Chat&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/fauna&quot;&gt;Fauna&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/figma&quot;&gt;Figma&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/git&quot;&gt;Git&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/gitbook&quot;&gt;GitBook&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/github&quot;&gt;GitHub&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/google_bigquery&quot;&gt;Google BigQuery&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/google_cloud_storage_directory&quot;&gt;Google Cloud Storage Directory&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/google_cloud_storage_file&quot;&gt;Google Cloud Storage File&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/google_drive&quot;&gt;Google Drive&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/grobid&quot;&gt;Grobid&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/gutenberg&quot;&gt;Gutenberg&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/hacker_news&quot;&gt;Hacker News&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/hugging_face_dataset&quot;&gt;HuggingFace dataset&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/ifixit&quot;&gt;iFixit&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/image&quot;&gt;Images&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/image_captions&quot;&gt;Image captions&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/imsdb&quot;&gt;IMSDb&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/iugu&quot;&gt;Iugu&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/joplin&quot;&gt;Joplin&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/jupyter_notebook&quot;&gt;Jupyter Notebook&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/larksuite&quot;&gt;LarkSuite (FeiShu)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/mastodon&quot;&gt;Mastodon&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/mediawikidump&quot;&gt;MediaWikiDump&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/merge_doc_loader&quot;&gt;MergeDocLoader&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/mhtml&quot;&gt;mhtml&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/microsoft_onedrive&quot;&gt;Microsoft OneDrive&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/microsoft_powerpoint&quot;&gt;Microsoft PowerPoint&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/microsoft_word&quot;&gt;Microsoft Word&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/modern_treasury&quot;&gt;Modern Treasury&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/notion&quot;&gt;Notion DB 1/2&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/notiondb&quot;&gt;Notion DB 2/2&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/obsidian&quot;&gt;Obsidian&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/odt&quot;&gt;Open Document Format (ODT)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/open_city_data&quot;&gt;Open City Data&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/org_mode&quot;&gt;Org-mode&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/pandas_dataframe&quot;&gt;Pandas DataFrame&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/psychic&quot;&gt;Psychic&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/pyspark_dataframe&quot;&gt;PySpark DataFrame Loader&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/readthedocs_documentation&quot;&gt;ReadTheDocs Documentation&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/recursive_url_loader&quot;&gt;Recursive URL Loader&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/reddit&quot;&gt;Reddit&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/roam&quot;&gt;Roam&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/rockset&quot;&gt;Rockset&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/rst&quot;&gt;RST&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/sitemap&quot;&gt;Sitemap&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/slack&quot;&gt;Slack&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/snowflake&quot;&gt;Snowflake&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/source_code&quot;&gt;Source Code&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/spreedly&quot;&gt;Spreedly&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/stripe&quot;&gt;Stripe&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/subtitle&quot;&gt;Subtitle&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/telegram&quot;&gt;Telegram&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/tencent_cos_directory&quot;&gt;Tencent COS Directory&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/tencent_cos_file&quot;&gt;Tencent COS File&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/tomarkdown&quot;&gt;2Markdown&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/toml&quot;&gt;TOML&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/trello&quot;&gt;Trello&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/tsv&quot;&gt;TSV&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/twitter&quot;&gt;Twitter&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/unstructured_file&quot;&gt;Unstructured File&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/url&quot;&gt;URL&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/weather&quot;&gt;Weather&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/web_base&quot;&gt;WebBaseLoader&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/whatsapp_chat&quot;&gt;WhatsApp Chat&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/wikipedia&quot;&gt;Wikipedia&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/xml&quot;&gt;XML&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/xorbits&quot;&gt;Xorbits Pandas DataFrame&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/youtube_audio&quot;&gt;Loading documents from a YouTube url&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/youtube_transcript&quot;&gt;YouTube transcripts&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Text Splitters&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;문서의 내용이 길어서 LLM에 한번에 입력이 어려운 경우, 문서를 잘게 쪼개야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 경우 텍스트 분할기를 이용하여 도움을 받을 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Vector Stores&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;벡터를 저장하는 데이터베이스와 관련된 기능입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;벡터 저장소 작업의 핵심 부분은 일반적으로 임베딩을 통해 생성되는 벡터를 만드는 것입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Embedding &amp;amp; Vector Store&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Embedding&lt;/b&gt;은 문서를 LLM에 입력하면 나오는 특징 벡터, Neural Network의 특정 메모리를 읽어서 만듭니다. &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;보통 512개 이상의 float로 만들어집니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;의미상 비슷한 input이 들어갔을 때, 나오는 특징 벡터가 유사한 특징을 갖고, 거리상 가깝게 됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;OpenAI에서 text를 넣으면 Embedding을 돌려주는 API를 제공합니다. (단, 비용 발생)&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;기본적으로 사용되는 OpenAI API는 비용이 발생하므로 로컬에서 HuggingfaceEmbeddings를 이용하면 GPU 가속도 지원합니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Vector Database&lt;/b&gt;는 Embedding 벡터와 텍스트를 저장하는 DB입니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;특징 벡터와 텍스트를 저장하고 파일에 저장합니다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc; background-color: #ffffff; color: #5c5c5c; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li style=&quot;list-style-type: disc;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Pinecone 서비스 (유료, 무료 제한적)&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;FAISS (페이스북, 오픈소스, 로컬)&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Embeddings -&amp;gt; 텍스트를 저장&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Embeddings로 검색할 수 있으며, 거리상 가장 가까운 항목을 가져올 수 있음. (거리를 구하는 방법은 여러 가지)&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;유사한 의미를 갖는 텍스트에 대한 Embedding 벡터는 거리상 가까움.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Retrievers&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;리트리버 인터페이스는 문서를 쉽게 결합할 수 있는 일반 인터페이스입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;ChatGPT Plugin Retriever&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;VectorStore Retrierver&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Memory&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;기본적으로 체인과 에이전트는 상태를 저장하지 않습니다. 즉, 쿼리가 수행되면 독립적으로 처리합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Memory 컴포넌트는 LLM이 정보를 기억할 수 있도록 지원합니다. 간단하게는 과거 채팅 히스토를 기억할 수도 있고, 더 복잡한 정보를 검색할 수도 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, ChatAPI는 stateless이기 때문에 그 전에 대한 기억을 하기 위한 메모리 저장 기능입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Memory 컴포넌트 목록&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://python.langchain.com/docs/modules/memory/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://python.langchain.com/docs/modules/memory/&lt;/a&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc; background-color: #ffffff; color: #1c1e21; text-align: left;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/memory/integrations/cassandra_chat_message_history&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Cassandra Chat Message History&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/memory/integrations/dynamodb_chat_message_history&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Dynamodb Chat Message History&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/memory/integrations/entity_memory_with_sqlite&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Entity Memory with SQLite storage&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/memory/integrations/momento_chat_message_history&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Momento Chat Message History&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/memory/integrations/mongodb_chat_message_history&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Mongodb Chat Message History&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/memory/integrations/motorhead_memory&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Mot&amp;ouml;rhead Memory&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/memory/integrations/motorhead_memory_managed&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Mot&amp;ouml;rhead Memory (Managed)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/memory/integrations/postgres_chat_message_history&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Postgres Chat Message History&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/memory/integrations/redis_chat_message_history&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Redis Chat Message History&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a style=&quot;color: #000000;&quot; href=&quot;https://python.langchain.com/docs/modules/memory/integrations/zep_memory&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Zep Memory&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Chat Message History&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;ChatMessageHistory 클래스는 Human, AI 메세지를 저장한 다음 모두 가져올 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Chains&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다양한 LLM을 호출하는데 사용되는 컴포넌트입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Sequential Chains&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LLMChaing을 이용하여 LLM 출력을 다른 LMM의 입력으로 사용할 수 있도록 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Summarize Chains&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Load된 Document를 이용하여 LLM으로 요약합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한번에 처리가 어려운 문서를 나눠서 요약할 수도 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;pre id=&quot;code_1689653759887&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;from langchain.chains.summarize import load_summarize_chain

chain = load_summarize_chain(chat, chain_type=&quot;map_reduce&quot;, verbose=True)
chain.run(docs[1:3])&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;chain_type&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc; background-color: #ffffff; color: #5c5c5c; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li style=&quot;list-style-type: disc;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&quot;stuff&quot;: LLM 한 번에 다 보냄. 길면 오류.&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&quot;map_reduce&quot;: 나눠서 요약, 전체 요약본 다시 요약&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&quot;refine&quot;: (요약 + 다음 문서) =&amp;gt; 요약&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&quot;map_rerank&quot;: 점수 매겨서 중요한 것으로 요약&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Agents&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;사용자 입력에 따라 Agent는 여러 도구 중 호출할 수 있는 경우 도구를 결정할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Agent는 LLM을 사용하여 수행할 작업과 순서를 결정합니다. 이 과정에서 도구를 사용하여 출력을 관찰하거나 사용자에게 반환할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Agent는&amp;nbsp;Langchain에서 가장 핵심적인 역할을 하는 모듈일 뿐 아니라, 가장 복잡하고 정교한 사고 작업의 실행을 담당하는 모듈입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Agent의 개념은 몇가지 핵심적인 생성 인공지능 논문에 그 뿌리를 두고 있으며, 새로운 접근 방법이 제시될 때 마다 거기에 맞추어 계속해서 개선되고 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc; background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://arxiv.org/abs/2201.11903&quot;&gt;Chain-of-Thought Prompting Elicits Reasoning in Large Language Models&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://arxiv.org/abs/2302.04761&quot;&gt;Toolformer: Language Models Can Teach Themselves to Use Tools&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://arxiv.org/abs/2210.03629&quot;&gt;ReAct: Synergizing Reasoning and Acting in Language Models&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Agent&lt;/b&gt;는 주체적으로 주어진 자원을 활용하여 어떤 작업을 실행하는 역할을 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Action Agent&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1. Action planning / Reasoning&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;자신에게 주어진 Task를 수행하기 위해, 주어진 도구(Tools)와 현재 상황을 토대로 사고(Thought)하여 필요한 다음 행동을 설계합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2. 설계가 끝났다면 현재 필요한 Action을 적절한 Input과 함께 수행합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;3. Chain of Thought&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Action의 수행이 끝나면 그 수행 결과를 분석(Observation)하고, 분석한 결과와 현재까지 수행했던 Action의 결과를 토대로 1~3의 작업을 반복합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;4. 결과를 분석하여 Task가 완료되었거나 완료 가능하다면 작업 수행을 완료하고 종료합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Plan-and-Execute Agent&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;현재 단계의 Action만 추론하는게 아닌 전체 실행의 단계를 처음부터 모두 구상하여 단계별로 실행합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Agent&lt;/b&gt;: 어떤 툴을 어떤 순서로 실행할지 결정하는 역할(LLM 이용)&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Tool&lt;/b&gt;: 특정 일을 하는 역할. 예) 구글 검색, DB 조회, Python 실행/계산&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Tools&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;구글 검색, 데이터베이스 조회, Python REPL 등을 이용할여 현재 문자열을 입력받아 결과값을 출력합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;OpenAI Plugins와 유사한 영역입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Tool은&amp;nbsp;Agent가 각 Action을 수행할 때 사용할 수 있도록 추상화된 일종의 함수입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Agent는 자신이 사용할 수 있는 Tool의 목록을 아래 값과 함께 프롬프트의 일부로 전달 받게 됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc; background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Tool의 이름&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;해당 Tool의 Description (어떤 역할을 수행하는 Tool인지, Input은 어떻게 전달해야 하는지 등)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;pre id=&quot;code_1689654410685&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;interface Tool {
  call(arg: string): Promise&amp;lt;string&amp;gt;;

  name: string;

  description: string;
}&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Langchain에 정의된 Tool의 Interface는 위와 같습니다. 간단하지만 유연하며, 문자열으로 결과 값을 반환하기만 한다면 call 내부에서 어떤 동작을 수행해도 좋습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;zwj;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;여러가지 다른 모듈로 구성된 복잡한 Agent마저도 다른 Agent에게 Tool의 형태로 제공될 수 있으며, 이&amp;nbsp;간단하지만 강력한 Interface가 Langchain의 활용 가능성을 무궁무진하게 끌어올리는 요소 중 하나입니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Conclusion&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;LangChain은 아주 빠른 속도로 개발되고 있는 프로젝트 입니다. 그러나, 그 자체가 완벽한 솔루션은 아닙니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;LLM 역시 확률 모델이기 때문에 포맷을 마음대로 어겨서 대답하는 경우도 있고, 끝없이 chaining하기도 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;뿐만 아니라, 툴의 output이 완전치 못하거나, 검색 결과가 엉망이거나 온전하지 않는 경우들도 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그럼에도, LangChain 같은 프레임워크를 이용해서 LLM을 이용한 애플리케이션 개발을 위한, 프롬프트 엔지니어링 작업이 가능하다는 부분에서는 기대가 크다고 할 수 있을거 같습니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://docs.langchain.com/docs/&quot;&gt;https://docs.langchain.com/docs/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://python.langchain.com/docs/get_started/quickstart&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://python.langchain.com/docs/get_started/quickstart&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://learn.deeplearning.ai/langchain&quot;&gt;https://learn.deeplearning.ai/langchain&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://github.com/gkamradt/langchain-tutorials&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://github.com/gkamradt/langchain-tutorials&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://revf.tistory.com/280&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://revf.tistory.com/280&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://corp.onda.me/post/developing-llm-applications-with-langchain&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://corp.onda.me/post/developing-llm-applications-with-langchain&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>langchain</category>
      <category>Langflow</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/428</guid>
      <comments>https://yumdata.tistory.com/428#entry428comment</comments>
      <pubDate>Mon, 17 Jul 2023 23:16:38 +0900</pubDate>
    </item>
    <item>
      <title>[Prompt Engineering] Best Practices of Prompt Engineering</title>
      <link>https://yumdata.tistory.com/427</link>
      <description>&lt;p style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;출처: &lt;a href=&quot;https://towardsdatascience.com/summarising-best-practices-for-prompt-engineering-c5e86c483af4&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://towardsdatascience.com/summarising-best-practices-for-prompt-engineering-c5e86c483af4&lt;/a&gt;&lt;/p&gt;
&lt;p style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt Engineering&lt;/h2&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;프롬프트 엔지니어링은 OpenAI의 ChatGPT와 같은 LLM(Large Language Models)에 대한 프롬프트라는 명령을 만드는 프로세스를 말합니다. 광범위한 작업을 해결할 수 있는 LLM의 엄청난 잠재력을 통해 프롬프트 엔지니어링을 활용하면 상당한 시간을 절약하고 인상적인 응용 프로그램을 쉽게 개발할 수 있습니다. 이 거대한 모델의 모든 기능을 최대한 활용하여 우리가 상호 작용하고 혜택을 받는 방식을 변화시키는 열쇠를 쥐고 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 id=&quot;acc4&quot; style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;Best Practices for Prompt Engineering&lt;/h2&gt;
&lt;blockquote style=&quot;color: #666666; text-align: left;&quot; data-ke-style=&quot;style2&quot;&gt;여기서 주목해야 할 한 가지 중요한 점은 ChatGPT가 LLM만이 아니라는 것입니다.&lt;br /&gt;&lt;a style=&quot;color: #0070d1;&quot; href=&quot;https://huyenchip.com/2023/05/02/rlhf.html&quot;&gt;RLHF(Reinforcement Learning from Human Feedback)&lt;/a&gt;로 더욱 finetuned된 SFT(Supervised Fine-Tuning) 모델이기도 합니다. 현재 많은 개발자가 실험 프로젝트 및 개인 탐색을 위해 OpenAI의 모델을 활용하고 있지만 개인 정보 보호 및 기타 이유로 인해 대기업의 생산 환경에 배포하기에 더 적합한 다른 모델이 있습니다.&lt;br /&gt;&lt;br /&gt;기본 모델(예: GPT-3,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a style=&quot;color: #0070d1;&quot; href=&quot;https://arxiv.org/abs/2203.15556&quot;&gt;Chinchilla&lt;/a&gt;,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a style=&quot;color: #0070d1;&quot; href=&quot;https://ai.meta.com/blog/large-language-model-llama-meta-ai/&quot;&gt;LLaMA&lt;/a&gt;)이 fine-tuning 및 RLHF 교육을 받은 비서(예:&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a style=&quot;color: #0070d1;&quot; href=&quot;https://openai.com/blog/chatgpt&quot;&gt;ChatGPT&lt;/a&gt;,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a style=&quot;color: #0070d1;&quot; href=&quot;https://bair.berkeley.edu/blog/2023/04/03/koala/&quot;&gt;Koala&lt;/a&gt;,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a style=&quot;color: #0070d1;&quot; href=&quot;https://crfm.stanford.edu/2023/03/13/alpaca.html&quot;&gt;Alpaca&lt;/a&gt;)와 동일한 방식으로 작동하지 않는 이유를 알고 싶다면&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a style=&quot;color: #0070d1;&quot; href=&quot;https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2&quot;&gt;Andrej Karpathy가 GPT와 유사한 모델을 훈련하고 사용하는 방법&lt;/a&gt;에 대해 설명합니다. 더 깊은 이해를 위해 확인하는 것이 좋습니다.&amp;nbsp;&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/426&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;State of GPT&lt;/a&gt;&lt;/h3&gt;
&lt;figure id=&quot;og_1689577683258&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Microsoft Build: Highlights from 2023&quot; data-og-description=&quot;Keep sharpening your skills with the event&amp;rsquo;s best on-demand sessions and find upcoming opportunities to spark your interest. Be sure to join us next year for the latest on developer innovations.&quot; data-og-host=&quot;build.microsoft.com&quot; data-og-source-url=&quot;https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2&quot; data-og-url=&quot;https://build.microsoft.com&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/g17ho/hyTk4VqrDW/Z1ogJhvOfos9WdxvLXtRF0/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630,https://scrap.kakaocdn.net/dn/bF4Sfm/hyTk2wyzHs/lmifY03myGHGk0eU3kvdl0/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630&quot;&gt;&lt;a href=&quot;https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/g17ho/hyTk4VqrDW/Z1ogJhvOfos9WdxvLXtRF0/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630,https://scrap.kakaocdn.net/dn/bF4Sfm/hyTk2wyzHs/lmifY03myGHGk0eU3kvdl0/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Microsoft Build: Highlights from 2023&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Keep sharpening your skills with the event&amp;rsquo;s best on-demand sessions and find upcoming opportunities to spark your interest. Be sure to join us next year for the latest on developer innovations.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;build.microsoft.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 id=&quot;7a63&quot; style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;Iterative Prompt Development&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;머신 러닝 모델이 반복 프로세스를 통해 구축되는 것처럼 효과적인 프롬프트도 유사한 반복 접근 방식을 통해 구성됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;가장 재능 있는 개발자라도 첫 번째 시도에서 완벽한 프롬프트를 만들지 못할 수 있으므로 원하는 목표를 달성하기 위해 수십 번의 시도가 필요할 수 있는 현실에 대비하십시오.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;598&quot; data-origin-height=&quot;599&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b0UlPX/btsnZvJwAGU/pKKMki5Khx9RJJZo9dMZs0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b0UlPX/btsnZvJwAGU/pKKMki5Khx9RJJZo9dMZs0/img.png&quot; data-alt=&quot;Building data-based applications is always an iterative process.&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b0UlPX/btsnZvJwAGU/pKKMki5Khx9RJJZo9dMZs0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb0UlPX%2FbtsnZvJwAGU%2FpKKMki5Khx9RJJZo9dMZs0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;468&quot; height=&quot;469&quot; data-origin-width=&quot;598&quot; data-origin-height=&quot;599&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Building data-based applications is always an iterative process.&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 통해 사물을 이해하는 것이 항상 더 좋습니다. 작업 설명에서 정보를 추출하는 시스템 구축을 시작하겠습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;초기 프롬프트는 모델에 특정 정보를 추출하도록 요청하는 것처럼 간단할 수 있습니다. 또한 구분 기호를 사용할 것입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;로컬 애플리케이션이 &lt;a href=&quot;https://learnprompting.org/docs/prompt_hacking/injection&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;프롬프트 인젝션 공격&lt;/a&gt;(prompt injection attacks)에 취약할 가능성은 낮지만 이는 좋은 습관입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;b&gt;* Prompt Injection&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;prompt injection은 언어 모델의 출력을 하이재킹하는 프로세스입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이를 통해 해커는 모델이 원하는 모든 것을 말할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;신뢰할 수 없는 텍스트가 프롬프트의 일부로 사용될 때 발생할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 id=&quot;e589&quot; style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;Asking for a Structural Output&lt;/h3&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;논의하고 싶은 두 번째 요점은 모델이 예상되는 구조적 형식으로 결과를 출력하도록 요청하는 것입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;웹 인터페이스를 통해 LLM과 상호 작용하는 데 중요하지 않을 수 있지만(예: ChatGPT에서 수행하는 작업) 결과를 구문 분석하는 프로세스가 훨씬 쉽기 때문에 LLM 기반 애플리케이션에 매우 유용합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;일반적인 방법 중 하나는 JSON 또는 XML과 같은 형식을 사용하고 특정 키를 정의하여 출력 데이터를 구성하는 것입니다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;a href=&quot;https://lmql.ai/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;LMQL&lt;/a&gt;과 같은 언어는 언어 모델 프롬프트에 프로그래밍과 유사한 접근 방식을 제공합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이러한 도구는 지속적으로 발전하고 개선됨에 따라 우리가 LLM과 상호 작용하는 방식을 혁신하여 보다 정확하고 구조화된 응답을 얻을 수 있는 잠재력을 가지고 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1000&quot; data-origin-height=&quot;358&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/o9ZwF/btsnTD2xvSw/DzU5OgP4iohzLGRG628Nk1/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/o9ZwF/btsnTD2xvSw/DzU5OgP4iohzLGRG628Nk1/img.jpg&quot; data-alt=&quot;LMQL query example&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/o9ZwF/btsnTD2xvSw/DzU5OgP4iohzLGRG628Nk1/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fo9ZwF%2FbtsnTD2xvSw%2FDzU5OgP4iohzLGRG628Nk1%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1000&quot; height=&quot;358&quot; data-origin-width=&quot;1000&quot; data-origin-height=&quot;358&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;LMQL query example&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;Chain-of-Thought Reasoning&lt;/h2&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;CoT(Chain-of-Thought) 추론은 추론이 필요한 작업에 매우 유용한 것으로 밝혀졌습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;따라서 LLM에 훌륭한 접근 방식이 될 수 있는 여러 개의 간단한 단계로 나누어 작업을 해결할 기회가 있다면...&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;원본 논문의 예를 살펴보십시오. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;문제를 더 작은 단계로 나누고 명시적인 지침을 제공함으로써 모델이 올바른 출력을 생성하도록 도울 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;논문출처: &lt;a href=&quot;https://arxiv.org/pdf/2201.11903.pdf&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://arxiv.org/pdf/2201.11903.pdf&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;348&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/xxRuW/btsnLvEccAq/R7vLZXF1izMjKM0n9nxqCK/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/xxRuW/btsnLvEccAq/R7vLZXF1izMjKM0n9nxqCK/img.jpg&quot; data-alt=&quot;Introducing CoT prompting&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/xxRuW/btsnLvEccAq/R7vLZXF1izMjKM0n9nxqCK/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FxxRuW%2FbtsnLvEccAq%2FR7vLZXF1izMjKM0n9nxqCK%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;700&quot; height=&quot;348&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;348&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Introducing CoT prompting&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;흥미롭게도 프롬프트 끝에 간단하고 마법 같은 'let&amp;rsquo;s think step by step(단계적으로 생각해 봅시다)'를 추가하면 결과가 향상될 수 있다는 사실이 나중에 드러납니다. 이 기술은 zero-shot CoT로 ​​알려져 있습니다. 따라서 토큰을 생성하는 것 외에는 생각을 표현할 수 있는 다른 기능이 없기 때문에 모델이 '&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;think out loud(&lt;/span&gt;소리내어 생각)'할 수 있도록 프롬프트를 구성하십시오.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;지금까지 가장 좋은 zero-shot CoT 프롬프트는 &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;'Let&amp;rsquo;s work this out in a step by step way to be sure we have the right answer(정답을 얻을 수 있도록 단계별로 해결해 봅시다)'입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;342&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b0oG6f/btsn0COKBhD/VeW3yYFg3d6DC1NLpY0U6K/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b0oG6f/btsn0COKBhD/VeW3yYFg3d6DC1NLpY0U6K/img.jpg&quot; data-alt=&quot;Best zero-shot prompts, 출처: LLMs Are Human-Level Prompt Engineers paper&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b0oG6f/btsn0COKBhD/VeW3yYFg3d6DC1NLpY0U6K/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb0oG6f%2Fbtsn0COKBhD%2FVeW3yYFg3d6DC1NLpY0U6K%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;700&quot; height=&quot;342&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;342&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Best zero-shot prompts, 출처: LLMs Are Human-Level Prompt Engineers paper&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style1&quot; /&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;훨씬 더 복잡한 작업을 해결하기 위한 보다 정교한 접근 방식이 현재 활발히 개발되고 있습니다. 일부 시나리오에서는 훨씬 뛰어난 성능을 발휘하지만 실제 사용은 다소 제한적입니다. 자기 일관성(self-consistency)과 생각의 나무(Tree of Thoughts)라는 두 가지 기술을 언급하겠습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;자기 일관성 논문(&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/2203.11171.pdf&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;self-consistency paper&lt;/a&gt;)&lt;/span&gt;의 저자는 다음과 같은 접근 방식을 제안했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;초기 모델 출력에 의존하는 대신 여러 번 샘플링하고 다수결 투표를 통해 결과를 집계할 것을 제안했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 기술은 고전적인 머신 러닝에서 직관과 &lt;a href=&quot;https://en.wikipedia.org/wiki/Ensemble_learning&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;앙상블&lt;/a&gt;의 성공에 의존함으로써 모델의 견고성을 향상시킵니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;출처: &lt;a href=&quot;https://arxiv.org/pdf/2203.11171.pdf&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;&lt;span style=&quot;color: #777777; text-align: center;&quot;&gt;Self-Consistency Improves CoT Reasoning in Language Models paper&lt;/span&gt;&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;323&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/KIGbs/btsnLvEcTQK/3zzqIgkKemi77yaAuThvkK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/KIGbs/btsnLvEcTQK/3zzqIgkKemi77yaAuThvkK/img.png&quot; data-alt=&quot;Self-consistency(출처: Self-Consistency Improves CoT Reasoning in Language Models paper)&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/KIGbs/btsnLvEcTQK/3zzqIgkKemi77yaAuThvkK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FKIGbs%2FbtsnLvEcTQK%2F3zzqIgkKemi77yaAuThvkK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;700&quot; height=&quot;323&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;323&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Self-consistency(출처: Self-Consistency Improves CoT Reasoning in Language Models paper)&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;집계(aggregation) 단계를 구현하지 않고 자체 일관성을 적용할 수도 있습니다. 출력이 짧은 작업의 경우 모델에 몇 가지 옵션을 제안하고 가장 좋은 옵션을 선택하도록 요청합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;ToT(Tree of Thoughts)는 이 개념을 한 단계 더 발전시킵니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그것은 모델의 '추론적 생각(resoning thoughts)'에 대해 트리 검색 알고리즘을 적용하는 아이디어를 제시하며, 기본적으로 잘못된 가정을 발견했을 때 역추적합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;출처: &lt;a href=&quot;https://arxiv.org/pdf/2305.10601.pdf&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;&lt;span style=&quot;color: #777777; text-align: center;&quot;&gt;Tree of Thoughts: Deliberate Problem Solving with LLMs paper&lt;/span&gt;&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;342&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/yVOao/btsnLcxI34Y/Z3sn5BdXYHSGs3eOYQPCaK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/yVOao/btsnLcxI34Y/Z3sn5BdXYHSGs3eOYQPCaK/img.png&quot; data-alt=&quot;Tree of Thoughts (출처:Tree of Thoughts: Deliberate Problem Solving with LLMs paper)&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/yVOao/btsnLcxI34Y/Z3sn5BdXYHSGs3eOYQPCaK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FyVOao%2FbtsnLcxI34Y%2FZ3sn5BdXYHSGs3eOYQPCaK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;700&quot; height=&quot;342&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;342&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Tree of Thoughts (출처:Tree of Thoughts: Deliberate Problem Solving with LLMs paper)&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;특정 시나리오의 경우 사고 연쇄 추론(Chain-of-Thought reasoning)을 사용할 필요는 없지만 두 단계로 요약 작업을 수행하도록 모델을 유도할 수 있습니다. 처음에는 전체 직무 설명을 요약한 다음 직무 책임에 초점을 맞춰 도출된 요약을 요약할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 id=&quot;8bc8&quot; style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;Few-shot Learning&lt;/h2&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;우리가 다룰 마지막 기술은 상황 내 학습이라고도 하는 few-shot 학습입니다. 작업에 대한 명확한 그림을 모델에 제공하기 위해 &lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;몇 가지 예를 프롬프트에 통합하는 것만큼 간단합니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이러한 예는 작업과 관련이 있을 뿐만 아니라 데이터의 다양성을 요약할 수 있도록 다양해야 합니다. 특히 파이프라인에 단계가 많거나 입력이 긴 경우 CoT를 사용할 때 few-shot 학습을 위한 데이터 '레이블 지정'이 조금 더 어려울 수 있습니다. 그러나 일반적으로 결과는 노력할 가치가 있습니다. 또한 몇 가지 예에 레이블을 지정하는 것이 기존 ML 모델 개발에서와 같이 전체 훈련/테스트 세트에 레이블을 지정하는 것보다 훨씬 저렴합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;프롬프트에 예제를 추가하면 요구 사항을 더 잘 이해할 수 있습니다. 예를 들어 글머리 기호 형식의 최종 요약을 선호한다는 것을 입증하면 모델이 템플릿을 미러링합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Summarizing Best Practices&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;프롬프트 엔지니어링을 위한 모범 사례를 요약하려면 다음을 고려하십시오.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;실험하는 것을 두려워하지 마십시오. 다양한 접근 방식을 시도하고 점진적으로 반복하면서 모델을 수정하고 한 번에 작은 단계를 수행합니다.&lt;/li&gt;
&lt;li&gt;입력에 구분 기호를 사용하고(예: ) 구조화된 출력을 요청합니다(예: JSON)&lt;/li&gt;
&lt;li&gt;작업을 완료하기 위한 작업 목록을 제공합니다. 가능할 때마다 모델에 일련의 작업을 제공하고 '내부 생각'을 출력하도록 합니다.&lt;/li&gt;
&lt;li&gt;짧은 출력의 경우 여러 제안을 요청하십시오.&lt;/li&gt;
&lt;li&gt;예를 제공하십시오. 가능하면 원하는 출력으로 데이터를 나타내는 여러 가지 다양한 예를 모델에 보여줍니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 프레임워크가 정보 추출, 요약, 이메일과 같은 텍스트 생성 등과 같은 광범위한 일상 작업을 자동화하기 위한 충분한 기반을 제공한다고 말하고 싶습니다. 성능을 더욱 향상시키기 위해 특정 데이터 세트에서 모델을 &lt;a href=&quot;https://magazine.sebastianraschka.com/p/finetuning-large-language-models&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;fine-tuning&lt;/a&gt;하여 모델을 최적화합니다. 또한 &lt;a href=&quot;https://openai.com/blog/chatgpt-plugins&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;플러그인&lt;/a&gt;과 &lt;a href=&quot;https://www.pinecone.io/learn/series/langchain/langchain-agents/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;에이전트&lt;/a&gt;가 빠르게 개발되고 있지만 완전히 다른 이야기입니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://towardsdatascience.com/summarising-best-practices-for-prompt-engineering-c5e86c483af4&quot;&gt;https://towardsdatascience.com/summarising-best-practices-for-prompt-engineering-c5e86c483af4&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Prompt Engineering &amp;amp; Tuning</category>
      <category>Generative AI</category>
      <category>prompt</category>
      <category>Prompt engineering</category>
      <category>RLHF</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/427</guid>
      <comments>https://yumdata.tistory.com/427#entry427comment</comments>
      <pubDate>Mon, 17 Jul 2023 16:08:24 +0900</pubDate>
    </item>
    <item>
      <title>[Generative AI][Large Language Model] State of GPT</title>
      <link>https://yumdata.tistory.com/426</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;State of GPT&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2023.5.24&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Speaker: &lt;a href=&quot;https://build.microsoft.com/en-US/speakers/1db4b2b5-c5df-4372-aaae-c96b6fa93ef8?source=/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Andrej Karpathy&lt;/a&gt; | OpenAI&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;State of GPT를 주제로 OpenAI Andrej Karpathy가 발표한 내용을 발췌하여 정리한 내용입니다.&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;ChatGPT와 같은 &lt;/span&gt;GPT Assistant training pipeline&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;에 대해 토큰화에서 pretraining, supervised finetuning, Reinforcement Learning from Human Feedback(RLHF)에 대해 알아보세요. 프롬프트 전략, finetuning, 빠르게 성장하는 도구 생태계 및 향후 확장을 포함하여 이러한 모델을 효과적으로 사용하기 위한 실용적인 기술 및 정신 모델에 대해 자세히 알아보십시오.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689564418590&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Microsoft Build: Highlights from 2023&quot; data-og-description=&quot;Keep sharpening your skills with the event&amp;rsquo;s best on-demand sessions and find upcoming opportunities to spark your interest. Be sure to join us next year for the latest on developer innovations.&quot; data-og-host=&quot;build.microsoft.com&quot; data-og-source-url=&quot;https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2&quot; data-og-url=&quot;https://build.microsoft.com&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/g17ho/hyTk4VqrDW/Z1ogJhvOfos9WdxvLXtRF0/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630,https://scrap.kakaocdn.net/dn/bF4Sfm/hyTk2wyzHs/lmifY03myGHGk0eU3kvdl0/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630&quot;&gt;&lt;a href=&quot;https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/g17ho/hyTk4VqrDW/Z1ogJhvOfos9WdxvLXtRF0/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630,https://scrap.kakaocdn.net/dn/bF4Sfm/hyTk2wyzHs/lmifY03myGHGk0eU3kvdl0/img.png?width=1200&amp;amp;height=630&amp;amp;face=0_0_1200_630');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Microsoft Build: Highlights from 2023&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Keep sharpening your skills with the event&amp;rsquo;s best on-demand sessions and find upcoming opportunities to spark your interest. Be sure to join us next year for the latest on developer innovations.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;build.microsoft.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;How to train your (Chat)GPT Assistant - GPT Assistant training pipeline&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;pretraining, supervised fine-tuning, reward modeling, reinforcement learning의 네 가지 주요 단계가 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그들은 서로를 연속적으로 따릅니다.&lt;br /&gt;&lt;br /&gt;이제 각 단계에는 해당 단계를 지원하는 데이터 세트가 있습니다. 목적을 위해 신경망 훈련을 위한 목표가 될 알고리즘을 가지고 있습니다. 그리고 결과 모델이 있습니다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Pretraining Stage&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cTNqvA/btsnGjpZ9ug/6ruiK7aTWMKJKYkKTZ7u90/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cTNqvA/btsnGjpZ9ug/6ruiK7aTWMKJKYkKTZ7u90/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cTNqvA/btsnGjpZ9ug/6ruiK7aTWMKJKYkKTZ7u90/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcTNqvA%2FbtsnGjpZ9ug%2F6ruiK7aTWMKJKYkKTZ7u90%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 단계는 이 다이어그램에서 특별합니다. 그리고 이 다이어그램은 모든 계산 작업이 기본적으로 발생하는 단계이기 때문에 확장할 수 없습니다. 이것은 교육 컴퓨팅 시간의 99%를 차지합니다.&lt;br /&gt;그래서 여기에서 우리는 슈퍼컴퓨터에 있는 수천 개의 GPU와 잠재적으로 수개월의 훈련을 통해 인터넷 규모의 데이터 세트를 다루고 있습니다. 다른 세 단계는 몇 시간 또는 며칠 동안 GPU 몇 개에 훨씬 더 가까운  fine tuning 단계입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/Wc7bA/btsnLalog5a/a71HhGYMzdgAAxPqv9fpk1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/Wc7bA/btsnLalog5a/a71HhGYMzdgAAxPqv9fpk1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/Wc7bA/btsnLalog5a/a71HhGYMzdgAAxPqv9fpk1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FWc7bA%2FbtsnLalog5a%2Fa71HhGYMzdgAAxPqv9fpk1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;첫째,&amp;nbsp;많은&amp;nbsp;양의&amp;nbsp;데이터를&amp;nbsp;수집할&amp;nbsp;것입니다.&amp;nbsp;다음은&amp;nbsp;이&amp;nbsp;LLaMA&amp;nbsp;기반&amp;nbsp;모델을&amp;nbsp;발표한&amp;nbsp;Meta에서&amp;nbsp;발표한&amp;nbsp;이&amp;nbsp;백서에서&amp;nbsp;가져온&amp;nbsp;데이터&amp;nbsp;혼합이라고&amp;nbsp;부르는&amp;nbsp;예입니다.&lt;br /&gt;&lt;br /&gt;이제 이러한 컬렉션에 들어가는 데이터 세트의 종류를 대략적으로 볼 수 있습니다. 따라서 웹 스크랩인 Common Crawl, Common Crawl이기도 한 C4, 그리고 일부 고품질 데이터 세트도 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예를&amp;nbsp;들어&amp;nbsp;GitHub,&amp;nbsp;Wikipedia,&amp;nbsp;Books,&amp;nbsp;Archive,&amp;nbsp;Stock&amp;nbsp;Exchange&amp;nbsp;등이&amp;nbsp;있습니다.&amp;nbsp;이것들은&amp;nbsp;모두&amp;nbsp;함께&amp;nbsp;섞인&amp;nbsp;다음&amp;nbsp;주어진&amp;nbsp;비율에&amp;nbsp;따라&amp;nbsp;샘플링되고&amp;nbsp;GPT의&amp;nbsp;신경망에&amp;nbsp;대한&amp;nbsp;훈련&amp;nbsp;세트를&amp;nbsp;형성합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bulHvd/btsnIKm8DHl/VZMIFYDkZIlmp9cjrnqXdk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bulHvd/btsnIKm8DHl/VZMIFYDkZIlmp9cjrnqXdk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bulHvd/btsnIKm8DHl/VZMIFYDkZIlmp9cjrnqXdk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbulHvd%2FbtsnIKm8DHl%2FVZMIFYDkZIlmp9cjrnqXdk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 이 데이터를 실제로 학습하기 전에 한 가지 전처리 단계를 더 거쳐야 합니다. 바로 토큰화(tokenization)입니다. 그리고 이것은 기본적으로 우리가 인터넷에서 스크랩한 원시 텍스트를 일련의 정수로 번역한 것입니다. 이것이 GPT가 작동하는 기본 표현이기 때문입니다.&lt;br /&gt;&lt;br /&gt;이제 이것은 텍스트 조각과 토큰 및 정수 사이의 무손실 변환이며 스테이지에 대한 여러 알고리즘이 있습니다. 일반적으로 예를 들어 작은 텍스트 청크를 반복적으로 병합하고 토큰으로 그룹화하는 바이트 쌍 인코딩(BPE, Byte Pair Encoding)과 같은 것을 사용할 수 있습니다.&lt;br /&gt;&lt;br /&gt;그래서 여기서는 이러한 토큰의 일부 예를 보여주고 있으며 이것은 실제로 transofomer에 공급되는 원시 정수 시퀀스(raw integer sequence)입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/H3TbA/btsnGOJVP0O/nSNWn4lxf3MAW8duKBzuqK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/H3TbA/btsnGOJVP0O/nSNWn4lxf3MAW8duKBzuqK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/H3TbA/btsnGOJVP0O/nSNWn4lxf3MAW8duKBzuqK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FH3TbA%2FbtsnGOJVP0O%2FnSNWn4lxf3MAW8duKBzuqK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제&amp;nbsp;여기에서&amp;nbsp;단계를&amp;nbsp;제어하는&amp;nbsp;하이퍼&amp;nbsp;매개변수에&amp;nbsp;대한&amp;nbsp;두&amp;nbsp;종류의&amp;nbsp;유사한&amp;nbsp;예를&amp;nbsp;보여주고&amp;nbsp;있습니다.&amp;nbsp;GPT-4,&amp;nbsp;훈련&amp;nbsp;방법&amp;nbsp;등에&amp;nbsp;대한&amp;nbsp;정보를&amp;nbsp;너무&amp;nbsp;많이&amp;nbsp;공개하지&amp;nbsp;않았습니다.&amp;nbsp;그래서&amp;nbsp;저는&amp;nbsp;GPT-3의&amp;nbsp;수치를&amp;nbsp;사용하고&amp;nbsp;있지만,&amp;nbsp;물론&amp;nbsp;GPT-3는&amp;nbsp;지금,&amp;nbsp;약&amp;nbsp;3년&amp;nbsp;전쯤이면&amp;nbsp;조금&amp;nbsp;오래된&amp;nbsp;것입니다.&amp;nbsp;그러나&amp;nbsp;LLaMA는&amp;nbsp;Meta의&amp;nbsp;상당히&amp;nbsp;최근&amp;nbsp;모델입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그래서&amp;nbsp;이것은&amp;nbsp;우리가&amp;nbsp;사전&amp;nbsp;훈련을&amp;nbsp;할&amp;nbsp;때&amp;nbsp;처리하는&amp;nbsp;대략적인&amp;nbsp;규모입니다.&amp;nbsp;어휘&amp;nbsp;크기는&amp;nbsp;일반적으로&amp;nbsp;10,000&amp;nbsp;토큰입니다.&amp;nbsp;컨텍스트&amp;nbsp;길이는&amp;nbsp;일반적으로&amp;nbsp;2,000,&amp;nbsp;4,000&amp;nbsp;또는&amp;nbsp;요즘에는&amp;nbsp;100,000&amp;nbsp;정도입니다.&amp;nbsp;그리고&amp;nbsp;이것은&amp;nbsp;GPT가&amp;nbsp;시퀀스에서&amp;nbsp;다음&amp;nbsp;정수를&amp;nbsp;예측하려고&amp;nbsp;할&amp;nbsp;때&amp;nbsp;볼&amp;nbsp;정수의&amp;nbsp;최대&amp;nbsp;수를&amp;nbsp;제어합니다.&lt;br /&gt;&lt;br /&gt;예를 들어 LLaMA의 경우 대략적인 매개변수 수가 650억개임을 알 수 있습니다. 이제 LLaMA에는 GPT-3의 1,750억 개의 매개변수와 비교하여 65개의 매개변수만 있지만 LLaMA는 훨씬 더 강력한 모델이며 직관적으로 이는 모델이 훨씬 더 오래 훈련되기 때문입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;포함된 매개변수의 수만으로 모델의 성능을 판단해서는 안 됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;트랜스포머 신경망을 지정하는 데 일반적으로 사용되는 여러 하이퍼파라미터의 표가 나와 있습니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;heads의 수, 차원(dimension) 크기, 레이어(layers) 수 등이 있습니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;그리고&amp;nbsp;하단에는&amp;nbsp;몇&amp;nbsp;가지&amp;nbsp;학습&amp;nbsp;하이퍼파라미터가&amp;nbsp;표시되어&amp;nbsp;있습니다.&amp;nbsp;예를&amp;nbsp;들어,&amp;nbsp;65B&amp;nbsp;모델을&amp;nbsp;교육하기&amp;nbsp;위해&amp;nbsp;Meta는&amp;nbsp;2,000개의&amp;nbsp;GPU,&amp;nbsp;약&amp;nbsp;21일의&amp;nbsp;교육,&amp;nbsp;약&amp;nbsp;수백만&amp;nbsp;달러를&amp;nbsp;사용했습니다.&amp;nbsp;이것이&amp;nbsp;사전&amp;nbsp;훈련&amp;nbsp;단계에서&amp;nbsp;염두에&amp;nbsp;두어야&amp;nbsp;할&amp;nbsp;대략적인&amp;nbsp;크기입니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bxLRsS/btsnF40yV9c/qSeLZ9iuKMZDbyxXm01nt1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bxLRsS/btsnF40yV9c/qSeLZ9iuKMZDbyxXm01nt1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bxLRsS/btsnF40yV9c/qSeLZ9iuKMZDbyxXm01nt1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbxLRsS%2FbtsnF40yV9c%2FqSeLZ9iuKMZDbyxXm01nt1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 실제로 pretraining을 하면 어떻게 될까요?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;대략적으로 말하자면, 우리는 토큰을 가져와 데이터 배치에 배치할 것입니다. 우리는 transformer에 입력할 이러한 배열을 가지고 있으며 이러한 배열은 배치 크기인 B이고 행에 쌓인 모든 독립적인 예이며 B x T이고 T는 최대 컨텍스트 길이입니다.&lt;br /&gt;&lt;br /&gt;제 사진에는 10개밖에 없지만 이것이 컨텍스트 길이이므로 2,000, 4,000 등이 될 수 있습니다. 이것은 매우 긴 행이며 우리가 하는 일은 이러한 문서를 가져와서 행으로 묶고 이러한 특수 텍스트 끝 토큰으로 구분하여 기본적으로 transformer에게 새 문서가 시작되는 위치를 알려줍니다. 그래서 여기에 문서의 몇 가지 예가 있고 이를 이 입력으로 확장했습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/XEJGf/btsnIJV1O5t/1V8vNyvHRlagyKKYKyl13K/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/XEJGf/btsnIJV1O5t/1V8vNyvHRlagyKKYKyl13K/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/XEJGf/btsnIJV1O5t/1V8vNyvHRlagyKKYKyl13K/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FXEJGf%2FbtsnIJV1O5t%2F1V8vNyvHRlagyKKYKyl13K%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 이 모든 숫자를 transformer에 공급할 것입니다. 그리고 하나의 특정 셀에 초점을 맞추겠습니다. 하지만 이 다이어그램의 모든 셀에서 동일한 일이 발생합니다.&lt;br /&gt;&lt;br /&gt;이제 녹색 셀을 살펴보겠습니다. 녹색 셀은 그 앞에 있는 모든 토큰을 살펴볼 것이므로 모든 토큰은 노란색입니다. 그리고 우리는 전체 컨텍스트를 transformer 신경망에 공급할 것입니다. 그리고 transformer는 시퀀스의 다음 토큰(이 경우에는 빨간색)을 예측하려고 시도할 것입니다.&lt;br /&gt;&lt;br /&gt;이제 transformer는 안타깝게도 이 신경망 아키텍처에 대해 자세히 설명할 시간이 많지 않습니다. 일반적으로 또는 이와 유사한 것입니다.&lt;br /&gt;&lt;br /&gt;물론 이러한 매개 변수를 tuning하면 이러한 셀 각각에 대해 약간씩 다른 예측 분포를 얻게 됩니다. 예를 들어 어휘 크기가 50,257 토큰인 경우 다음 항목에 대한 확률 분포를 지정해야 하기 때문에 기본적으로 뒤따를 모든 항목에 대한 확률을 가질 수 있기 때문에 그만큼 많은 수를 갖게 됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 특정 셀에 대한 이 특정 예에서 513이 다음에 올 것입니다. 그래서 우리는 이것을 transformer weights(가중치)를 업데이트하기 위한 supervision 소스로 사용할 수 있습니다. 그래서 우리는 이것을 기본적으로 병렬의 모든 단일 셀에 적용하고 있습니다. 그리고 우리는 배치를 계속 교환하고 transformer가 시퀀스에서 다음에 오는 토큰에 대해 올바른 예측을 하도록 노력하고 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/rgQdF/btsnSYEOQ8C/GJ4D6SoD87PKhMgKNlUJqk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/rgQdF/btsnSYEOQ8C/GJ4D6SoD87PKhMgKNlUJqk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/rgQdF/btsnSYEOQ8C/GJ4D6SoD87PKhMgKNlUJqk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FrgQdF%2FbtsnSYEOQ8C%2FGJ4D6SoD87PKhMgKNlUJqk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이&amp;nbsp;모델&amp;nbsp;중&amp;nbsp;하나를&amp;nbsp;훈련할&amp;nbsp;때&amp;nbsp;이것이&amp;nbsp;어떻게&amp;nbsp;보이는지&amp;nbsp;좀&amp;nbsp;더&amp;nbsp;구체적으로&amp;nbsp;보여드리겠습니다.&amp;nbsp;이것은&amp;nbsp;실제로&amp;nbsp;New&amp;nbsp;York&amp;nbsp;Times에서&amp;nbsp;나온&amp;nbsp;것이며&amp;nbsp;셰익스피어에&amp;nbsp;대해&amp;nbsp;소규모&amp;nbsp;GPT를&amp;nbsp;교육했습니다.&amp;nbsp;그래서&amp;nbsp;여기에&amp;nbsp;셰익스피어의&amp;nbsp;작은&amp;nbsp;스니펫이&amp;nbsp;있고&amp;nbsp;그들은&amp;nbsp;그것에&amp;nbsp;대해&amp;nbsp;GPT를&amp;nbsp;교육했습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제&amp;nbsp;초기화&amp;nbsp;초기에&amp;nbsp;GPT는&amp;nbsp;완전히&amp;nbsp;임의의&amp;nbsp;가중치로&amp;nbsp;시작하므로&amp;nbsp;완전히&amp;nbsp;임의의&amp;nbsp;출력도&amp;nbsp;얻게&amp;nbsp;됩니다.&amp;nbsp;그러나&amp;nbsp;시간이&amp;nbsp;지남에&amp;nbsp;따라&amp;nbsp;GPT를&amp;nbsp;더&amp;nbsp;오래&amp;nbsp;훈련할수록&amp;nbsp;모델에서&amp;nbsp;점점&amp;nbsp;더&amp;nbsp;일관되고&amp;nbsp;일관된&amp;nbsp;종류의&amp;nbsp;샘플을&amp;nbsp;얻게&amp;nbsp;됩니다.&lt;br /&gt;&lt;br /&gt;물론&amp;nbsp;샘플에서&amp;nbsp;샘플링하는&amp;nbsp;방식은&amp;nbsp;다음에&amp;nbsp;무엇이&amp;nbsp;올지&amp;nbsp;예측하는&amp;nbsp;것입니다.&amp;nbsp;해당&amp;nbsp;분포에서&amp;nbsp;샘플링하고&amp;nbsp;계속&amp;nbsp;프로세스에&amp;nbsp;다시&amp;nbsp;공급하면&amp;nbsp;기본적으로&amp;nbsp;큰&amp;nbsp;시퀀스를&amp;nbsp;샘플링할&amp;nbsp;수&amp;nbsp;있습니다.&lt;br /&gt;&lt;br /&gt;그래서 마지막에는 transformer가 단어와 공백을 넣을 위치, 쉼표를 넣을 위치 등에 대해 학습했음을 알 수 있습니다. 그래서 우리는 시간이 지남에 따라 점점 더 일관된 예측을 하고 있습니다.&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/l8Iwe/btsnSX0bwL3/hybeh04kemwalHxLWINSP1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/l8Iwe/btsnSX0bwL3/hybeh04kemwalHxLWINSP1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/l8Iwe/btsnSX0bwL3/hybeh04kemwalHxLWINSP1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fl8Iwe%2FbtsnSX0bwL3%2Fhybeh04kemwalHxLWINSP1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이것은&amp;nbsp;모델&amp;nbsp;사전&amp;nbsp;교육을&amp;nbsp;수행할&amp;nbsp;때&amp;nbsp;보고&amp;nbsp;있는&amp;nbsp;종류의&amp;nbsp;플롯입니다.&amp;nbsp;효과적으로,&amp;nbsp;우리는&amp;nbsp;당신이&amp;nbsp;훈련하면서&amp;nbsp;시간이&amp;nbsp;지남에&amp;nbsp;따라&amp;nbsp;손실&amp;nbsp;함수를&amp;nbsp;보고&amp;nbsp;있습니다.&amp;nbsp;그리고&amp;nbsp;손실이&amp;nbsp;낮다는&amp;nbsp;것은&amp;nbsp;트랜스포머가&amp;nbsp;올바른&amp;nbsp;것을&amp;nbsp;예측한다는&amp;nbsp;것을&amp;nbsp;의미합니다.&amp;nbsp;시퀀스에서&amp;nbsp;올바른&amp;nbsp;다음&amp;nbsp;정수에&amp;nbsp;더&amp;nbsp;높은&amp;nbsp;확률을&amp;nbsp;제공합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cIpiEa/btsnFEVqeC5/jIZXjHwgsKed94EZrl9cp1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cIpiEa/btsnFEVqeC5/jIZXjHwgsKed94EZrl9cp1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cIpiEa/btsnFEVqeC5/jIZXjHwgsKed94EZrl9cp1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcIpiEa%2FbtsnFEVqeC5%2FjIZXjHwgsKed94EZrl9cp1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 한 달 후에 이 모델을 학습시킨 후 이 모델로 무엇을 할까요? 우리가 현장에서 가장 먼저 알아차린 것은 이러한 모델이 기본적으로 언어 모델링 프로세스에 있고 매우 강력한 일반 표현을 학습하며 임의의 다운스트림 작업에 대해 매우 효율적으로 fine-tuning할 수 있다는 것에 관심이 있습니다.&lt;br /&gt;&lt;br /&gt;예를 들어, 감정 분류에 관심이 있는 경우 이전에는 많은 긍정과 부정을 수집한 다음 이를 위해 일종의 NLP 모델을 훈련시키는 접근 방식을 사용했습니다. 그러나 새로운 접근 방식은 감정, 분류를 무시하고 대규모 언어 모델 사전 교육을 수행하고 대규모 transformer를 교육한 다음에만 가능합니다. 몇 가지 예만 있을 수 있으며 이를 위해 모델을 매우 효율적으로 fine-tuning할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이것은 실제로 매우 잘 작동합니다. 그 이유는 기본적으로 transformer가 언어 모델링 작업에서 엄청난 양의 작업을 멀티태스킹해야 하기 때문입니다. 왜냐하면 다음&amp;nbsp;토큰을&amp;nbsp;예측하는&amp;nbsp;것만으로도&amp;nbsp;텍스트의&amp;nbsp;구조와&amp;nbsp;그&amp;nbsp;안의&amp;nbsp;모든&amp;nbsp;다른&amp;nbsp;개념에&amp;nbsp;대해&amp;nbsp;많은&amp;nbsp;것을&amp;nbsp;이해해야&amp;nbsp;하기&amp;nbsp;때문입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이것이&amp;nbsp;GPT-1이었습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/r5FYU/btsnXi3WNVi/qE9axw1JxgF5Yqi5o5i6R1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/r5FYU/btsnXi3WNVi/qE9axw1JxgF5Yqi5o5i6R1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/r5FYU/btsnXi3WNVi/qE9axw1JxgF5Yqi5o5i6R1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fr5FYU%2FbtsnXi3WNVi%2FqE9axw1JxgF5Yqi5o5i6R1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 GPT-2 즈음에 사람들은 실제로 fine-tuning보다 훨씬 더 낫다는 사실을 알아차렸습니다. 실제로 이러한 모델을 매우 효과적으로 유도할 수 있습니다. 그래서 이들은 언어 모델이고 그들은 문서를 완성하기를 원합니다. 따라서 이러한 가짜 문서를 배열하는 것만으로도 실제로 작업을 수행하도록 그들을 속일 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예를 들어, 우리는 약간의 구절이 있고 &quot;QA, QA, QA&quot;와 같은 종류의 작업을 수행합니다. 이것은 few-shot 프롬프트라고 합니다. 그런 다음 Q를 수행한 다음 transformer가 시도할 때 문서를 완성하면 실제로 질문에 대한 답변이 됩니다. 따라서 이것은 기본 모델을 프롬프트 엔지니어링하여 일종의 문서를 모방하고 작업을 수행하도록 믿게 만드는 예입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그래서 이것은 prompting은 fine-tuning을 촉구하고 신경망 훈련이나 fine-tuning 등이 없어도 실제로 많은 문제에서 매우 잘 작동할 수 있음을 확인하는 시대가 시작되었다고 생각합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/YCmB8/btsnILzzK6c/laXwhPWHRHvy6LtaOcoj51/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/YCmB8/btsnILzzK6c/laXwhPWHRHvy6LtaOcoj51/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/YCmB8/btsnILzzK6c/laXwhPWHRHvy6LtaOcoj51/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FYCmB8%2FbtsnILzzK6c%2FlaXwhPWHRHvy6LtaOcoj51%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제&amp;nbsp;그&amp;nbsp;이후로&amp;nbsp;모든&amp;nbsp;사람이&amp;nbsp;훈련한&amp;nbsp;기본&amp;nbsp;모델의&amp;nbsp;전체&amp;nbsp;진화&amp;nbsp;트리를&amp;nbsp;보았습니다.&amp;nbsp;모든&amp;nbsp;모델을&amp;nbsp;사용할&amp;nbsp;수&amp;nbsp;있는&amp;nbsp;것은&amp;nbsp;아닙니다.&amp;nbsp;예를&amp;nbsp;들어&amp;nbsp;GPT-4&amp;nbsp;기본&amp;nbsp;모델은&amp;nbsp;출시되지&amp;nbsp;않았습니다.&amp;nbsp;API를&amp;nbsp;통해&amp;nbsp;상호&amp;nbsp;작용할&amp;nbsp;수&amp;nbsp;있는&amp;nbsp;GPT-4&amp;nbsp;모델은&amp;nbsp;기본&amp;nbsp;모델이&amp;nbsp;아닙니다.&amp;nbsp;그것은&amp;nbsp;보조&amp;nbsp;모델이고&amp;nbsp;우리는&amp;nbsp;그것들을&amp;nbsp;얻는&amp;nbsp;방법을&amp;nbsp;조금&amp;nbsp;다룰&amp;nbsp;것입니다.&lt;br /&gt;&lt;br /&gt;GPT-3&amp;nbsp;기본&amp;nbsp;모델은&amp;nbsp;DaVinci라는&amp;nbsp;이름의&amp;nbsp;API를&amp;nbsp;통해&amp;nbsp;사용할&amp;nbsp;수&amp;nbsp;있으며&amp;nbsp;GPT-2&amp;nbsp;기본&amp;nbsp;모델은&amp;nbsp;GitHub&amp;nbsp;저장소의&amp;nbsp;가중치로도&amp;nbsp;사용할&amp;nbsp;수&amp;nbsp;있습니다.&amp;nbsp;그러나&amp;nbsp;현재&amp;nbsp;가장&amp;nbsp;사용&amp;nbsp;가능한&amp;nbsp;기본&amp;nbsp;모델은&amp;nbsp;Meta의&amp;nbsp;LLaMA&amp;nbsp;시리즈일&amp;nbsp;것입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/ceXDtp/btsnLbdxnqX/dUfITf0lDucp7FKc9BTKAK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/ceXDtp/btsnLbdxnqX/dUfITf0lDucp7FKc9BTKAK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/ceXDtp/btsnLbdxnqX/dUfITf0lDucp7FKc9BTKAK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FceXDtp%2FbtsnLbdxnqX%2FdUfITf0lDucp7FKc9BTKAK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 한 가지 지적할 점은 기본 모델이 assistant(조수)가 아니라는 것입니다. 그들은 당신의 질문에 답하기를 원하지 않습니다. 그들은 단지 문서를 완성하기를 원할 뿐입니다. 그래서 만약 당신이 그들에게 &quot;빵과 치즈에 대한 시를 써라&quot;라고 말한다면, 그것은 단지 &amp;ndash; 알다시피, 그것은 더 많은 질문으로 질문에 답할 것입니다. 문서라고 생각하는 것을 완성하는 것입니다.&lt;br /&gt;&lt;br /&gt;그러나&amp;nbsp;작동&amp;nbsp;가능성이&amp;nbsp;더&amp;nbsp;높은&amp;nbsp;기본&amp;nbsp;모델에&amp;nbsp;대해&amp;nbsp;특정&amp;nbsp;방식으로&amp;nbsp;메시지를&amp;nbsp;표시할&amp;nbsp;수&amp;nbsp;있습니다.&amp;nbsp;예를&amp;nbsp;들어&amp;nbsp;빵과&amp;nbsp;치즈에&amp;nbsp;대한&amp;nbsp;시가&amp;nbsp;있습니다.&amp;nbsp;이&amp;nbsp;경우&amp;nbsp;올바르게&amp;nbsp;자동&amp;nbsp;완성됩니다.&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cZBicq/btsnGj4ASg9/QBuAW1OByKA5OeNxcB2RKk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cZBicq/btsnGj4ASg9/QBuAW1OByKA5OeNxcB2RKk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cZBicq/btsnGj4ASg9/QBuAW1OByKA5OeNxcB2RKk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcZBicq%2FbtsnGj4ASg9%2FQBuAW1OByKA5OeNxcB2RKk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;기본&amp;nbsp;모델을&amp;nbsp;보조자로&amp;nbsp;속일&amp;nbsp;수도&amp;nbsp;있습니다.&amp;nbsp;이를&amp;nbsp;수행하는&amp;nbsp;방법은&amp;nbsp;사람과&amp;nbsp;조수&amp;nbsp;사이에&amp;nbsp;일종의&amp;nbsp;문서가&amp;nbsp;있고&amp;nbsp;일종의&amp;nbsp;정보를&amp;nbsp;교환하는&amp;nbsp;것처럼&amp;nbsp;보이게&amp;nbsp;하는&amp;nbsp;특정&amp;nbsp;몇&amp;nbsp;번만&amp;nbsp;프롬프트를&amp;nbsp;만드는&amp;nbsp;것입니다.&lt;br /&gt;&lt;br /&gt;그런 다음 맨 아래에 쿼리를 끝에 넣으면 기본 모델이 조건 자체와 같이 도움이 되는 도우미 및 일종의 답변이 될 것입니다. 그러나 이것은 그다지 신뢰할 수 없으며 실제로는 잘 작동하지 않지만 수행할 수는 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Supervised Fine-tuning Stage&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bO8ojK/btsnG0DMPuc/mze9TIkzSaxYNcOV2RjBvk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bO8ojK/btsnG0DMPuc/mze9TIkzSaxYNcOV2RjBvk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bO8ojK/btsnG0DMPuc/mze9TIkzSaxYNcOV2RjBvk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbO8ojK%2FbtsnG0DMPuc%2Fmze9TIkzSaxYNcOV2RjBvk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;따라서&amp;nbsp;대신&amp;nbsp;기본&amp;nbsp;모델&amp;nbsp;문서&amp;nbsp;완성자가&amp;nbsp;아닌&amp;nbsp;실제&amp;nbsp;GPT&amp;nbsp;조수를&amp;nbsp;만드는&amp;nbsp;다른&amp;nbsp;경로가&amp;nbsp;있습니다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그래서 supervised fine-tuning으로 우리를 데려갑니다. 따라서 supervised fine-tuning 단계에서는 작지만 고품질 데이터 세트를 수집할 것입니다. 그리고 이 경우 인간 계약자에게 신속하고 이상적인 응답 형식의 데이터를 수집하도록 요청할 것입니다. 그리고 우리는 이것들을 많이, 일반적으로 수만 개 정도 수집할 것입니다.&lt;br /&gt;&lt;br /&gt;그런&amp;nbsp;다음&amp;nbsp;이&amp;nbsp;데이터에&amp;nbsp;대해&amp;nbsp;언어&amp;nbsp;모델링을&amp;nbsp;계속&amp;nbsp;수행할&amp;nbsp;것입니다.&amp;nbsp;따라서&amp;nbsp;알고리즘적으로&amp;nbsp;변경된&amp;nbsp;사항은&amp;nbsp;없습니다.&amp;nbsp;훈련&amp;nbsp;세트를&amp;nbsp;교체하는&amp;nbsp;중입니다.&amp;nbsp;그래서&amp;nbsp;예전에는&amp;nbsp;인터넷&amp;nbsp;문서였는데,&amp;nbsp;기본적으로&amp;nbsp;QA&amp;nbsp;즉각&amp;nbsp;대응하는&amp;nbsp;자료의&amp;nbsp;경우는&amp;nbsp;대용량/저품질,&amp;nbsp;저건&amp;nbsp;저품질/저품질이었습니다.&lt;br /&gt;&lt;br /&gt;그래서 우리는 여전히 언어 모델링을 할 것입니다. 그런 다음 훈련 후 SFT(Supervised Fine-Tuning) 모델을 얻습니다. 이 모델을 실제로 배포할 수 있습니다. 그들은 실제 조수이며 어느 정도 작동합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bQDeU4/btsnLaZ2bWg/nXKI8nkRDGUYa8A6pSBq0k/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bQDeU4/btsnLaZ2bWg/nXKI8nkRDGUYa8A6pSBq0k/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bQDeU4/btsnLaZ2bWg/nXKI8nkRDGUYa8A6pSBq0k/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbQDeU4%2FbtsnLaZ2bWg%2FnXKI8nkRDGUYa8A6pSBq0k%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예제&amp;nbsp;데모가&amp;nbsp;어떤&amp;nbsp;모습인지&amp;nbsp;보여드리겠습니다.&amp;nbsp;그래서&amp;nbsp;여기에&amp;nbsp;인간&amp;nbsp;계약자가&amp;nbsp;생각해&amp;nbsp;낼&amp;nbsp;수&amp;nbsp;있는&amp;nbsp;것이&amp;nbsp;있습니다.&amp;nbsp;&quot;&lt;span&gt;Can you write a short introduction about the relevance of the term monopsony (&lt;/span&gt;단독이라는 용어의 관련성에 대한 짧은 소개를 써주실 수 있나요)?&quot; 또는 이와 유사한 질문이 있습니다. 그런 다음 계약자도 이상적인 응답을 작성합니다.&lt;br /&gt;&lt;br /&gt;그리고&amp;nbsp;이러한&amp;nbsp;응답을&amp;nbsp;작성할&amp;nbsp;때&amp;nbsp;광범위한&amp;nbsp;라벨&amp;nbsp;문서를&amp;nbsp;따르고&amp;nbsp;있으며&amp;nbsp;도움이&amp;nbsp;되고&amp;nbsp;진실하며&amp;nbsp;무해해야&amp;nbsp;합니다.&amp;nbsp;여기에&amp;nbsp;있는&amp;nbsp;라벨링&amp;nbsp;지침입니다.&amp;nbsp;아마&amp;nbsp;당신은&amp;nbsp;그것을&amp;nbsp;읽을&amp;nbsp;수&amp;nbsp;없을&amp;nbsp;것이고&amp;nbsp;나도&amp;nbsp;읽을&amp;nbsp;수&amp;nbsp;없을&amp;nbsp;것입니다.&amp;nbsp;그러나&amp;nbsp;그들은&amp;nbsp;길고&amp;nbsp;이것은&amp;nbsp;지시를&amp;nbsp;따르고&amp;nbsp;이&amp;nbsp;지시를&amp;nbsp;완료하려고&amp;nbsp;노력하는&amp;nbsp;사람들일&amp;nbsp;뿐입니다.&lt;br /&gt;&lt;br /&gt;이것이&amp;nbsp;데이터&amp;nbsp;세트의&amp;nbsp;모습입니다.&amp;nbsp;그리고&amp;nbsp;이러한&amp;nbsp;모델을&amp;nbsp;훈련시킬&amp;nbsp;수&amp;nbsp;있으며&amp;nbsp;이것은&amp;nbsp;어느&amp;nbsp;정도&amp;nbsp;작동합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Reward Modeling&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/mhWdv/btsnK9UlQi7/aA9FtK6aLUu67skQhOzF8k/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/mhWdv/btsnK9UlQi7/aA9FtK6aLUu67skQhOzF8k/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/mhWdv/btsnK9UlQi7/aA9FtK6aLUu67skQhOzF8k/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FmhWdv%2FbtsnK9UlQi7%2FaA9FtK6aLUu67skQhOzF8k%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 실제로 여기에서 파이프라인을 계속 진행하고 보상 모델링과 강화 학습으로 구성된 인간 피드백의 강화 학습인 RLHF(Reinforcement Learning from Human Feedback)로 이동할 수 있습니다.&lt;br /&gt;&lt;br /&gt;그래서&amp;nbsp;그&amp;nbsp;부분을&amp;nbsp;다룬&amp;nbsp;다음&amp;nbsp;추가&amp;nbsp;단계를&amp;nbsp;거쳐야&amp;nbsp;하는&amp;nbsp;이유와&amp;nbsp;SFT&amp;nbsp;모델과&amp;nbsp;비교하는&amp;nbsp;방법에&amp;nbsp;대해&amp;nbsp;다시&amp;nbsp;설명하겠습니다.&lt;br /&gt;따라서 보상 모델링 단계에서 우리가 할 일은 이제 데이터 수집을 비교 형식으로 전환하는 것입니다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bMzNbc/btsnFKOUL21/9QrAF7cmFCksKSOoyUZr81/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bMzNbc/btsnFKOUL21/9QrAF7cmFCksKSOoyUZr81/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bMzNbc/btsnFKOUL21/9QrAF7cmFCksKSOoyUZr81/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbMzNbc%2FbtsnFKOUL21%2F9QrAF7cmFCksKSOoyUZr81%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;여기 데이터 세트가 어떻게 생겼는지에 대한 예가 있습니다. 동일한 프롬프트가 맨 위에 있습니다. 어시스턴트에게 주어진 문자열이 회문인지 확인하는 프로그램이나 함수를 작성하도록 요청하는 것입니다.&lt;br /&gt;&lt;br /&gt;그런&amp;nbsp;다음&amp;nbsp;우리가&amp;nbsp;하는&amp;nbsp;일은&amp;nbsp;이미&amp;nbsp;학습한&amp;nbsp;SFT&amp;nbsp;모델을&amp;nbsp;가져와&amp;nbsp;여러&amp;nbsp;완성을&amp;nbsp;만드는&amp;nbsp;것입니다.&amp;nbsp;따라서&amp;nbsp;이&amp;nbsp;경우에는&amp;nbsp;모델이&amp;nbsp;생성한&amp;nbsp;3개의&amp;nbsp;완성이&amp;nbsp;있습니다.&amp;nbsp;그런&amp;nbsp;다음&amp;nbsp;사람들에게&amp;nbsp;이러한&amp;nbsp;완료&amp;nbsp;순위를&amp;nbsp;매기도록&amp;nbsp;요청합니다.&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/Ruetf/btsnGZdLmmK/ntWurK47CoKDkeYBtZckw0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/Ruetf/btsnGZdLmmK/ntWurK47CoKDkeYBtZckw0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/Ruetf/btsnGZdLmmK/ntWurK47CoKDkeYBtZckw0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FRuetf%2FbtsnGZdLmmK%2FntWurK47CoKDkeYBtZckw0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;따라서 잠시 동안 이것을 응시한다면 이러한 예측 중 일부를 비교하기에는 매우 어려운 일이며 사람들은 단일 프롬프트 완료 쌍에 몇 시간이 걸릴 수 있습니다. 그러나 이들 중 하나가 다른 것보다 훨씬 낫다고 판단하고 순위를 매긴다고 가정해 봅시다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/rdJ2X/btsnGjwPWj3/tjasb1wCA09UlFWWv5As30/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/rdJ2X/btsnGjwPWj3/tjasb1wCA09UlFWWv5As30/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/rdJ2X/btsnGjwPWj3/tjasb1wCA09UlFWWv5As30/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FrdJ2X%2FbtsnGjwPWj3%2Ftjasb1wCA09UlFWWv5As30%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그런&amp;nbsp;다음&amp;nbsp;이러한&amp;nbsp;완성&amp;nbsp;사이의&amp;nbsp;가능한&amp;nbsp;모든&amp;nbsp;쌍에&amp;nbsp;대한&amp;nbsp;이진&amp;nbsp;분류와&amp;nbsp;매우&amp;nbsp;유사한&amp;nbsp;것으로&amp;nbsp;이를&amp;nbsp;따를&amp;nbsp;수&amp;nbsp;있습니다.&lt;br /&gt;&lt;br /&gt;이제&amp;nbsp;행에&amp;nbsp;프롬프트를&amp;nbsp;배치하고&amp;nbsp;프롬프트는&amp;nbsp;여기에&amp;nbsp;있는&amp;nbsp;세&amp;nbsp;행&amp;nbsp;모두에서&amp;nbsp;동일합니다.&amp;nbsp;따라서&amp;nbsp;모두&amp;nbsp;같은&amp;nbsp;프롬프트이지만&amp;nbsp;완성도가&amp;nbsp;다르므로&amp;nbsp;노란색&amp;nbsp;토큰은&amp;nbsp;SFT&amp;nbsp;모델에서&amp;nbsp;나옵니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;그런 다음 마지막에 또 다른 특별 보상 판독 토큰을 추가하고 기본적으로 이 단일 녹색 토큰에서만 transformer를 감독하고&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;transformer는 해당 프롬프트에 대한 완료가 얼마나 좋은지에 대한 보상을 예측합니다.&lt;br /&gt;&lt;br /&gt;그래서&amp;nbsp;기본적으로&amp;nbsp;각&amp;nbsp;완료의&amp;nbsp;품질에&amp;nbsp;대해&amp;nbsp;추측합니다.&amp;nbsp;그런&amp;nbsp;다음&amp;nbsp;그것들&amp;nbsp;모두에&amp;nbsp;대해&amp;nbsp;추측을&amp;nbsp;하면&amp;nbsp;우리는&amp;nbsp;그것들의&amp;nbsp;순위를&amp;nbsp;알려주는&amp;nbsp;실측&amp;nbsp;정보도&amp;nbsp;갖게&amp;nbsp;됩니다.&amp;nbsp;그래서&amp;nbsp;우리는&amp;nbsp;실제로&amp;nbsp;이&amp;nbsp;숫자&amp;nbsp;중&amp;nbsp;일부가&amp;nbsp;다른&amp;nbsp;것보다&amp;nbsp;훨씬&amp;nbsp;높아야&amp;nbsp;한다고&amp;nbsp;강제할&amp;nbsp;수&amp;nbsp;있습니다.&amp;nbsp;우리는&amp;nbsp;이것을&amp;nbsp;손실&amp;nbsp;함수로&amp;nbsp;공식화하고&amp;nbsp;모든&amp;nbsp;계약자들의&amp;nbsp;비교에서&amp;nbsp;나오는&amp;nbsp;실측과&amp;nbsp;일치하는&amp;nbsp;보상&amp;nbsp;예측을&amp;nbsp;하도록&amp;nbsp;모델을&amp;nbsp;훈련합니다.&lt;br /&gt;&lt;br /&gt;이것이&amp;nbsp;우리가&amp;nbsp;보상&amp;nbsp;모델을&amp;nbsp;훈련하는&amp;nbsp;방법이며&amp;nbsp;이를&amp;nbsp;통해&amp;nbsp;프롬프트에&amp;nbsp;대한&amp;nbsp;완료가&amp;nbsp;얼마나&amp;nbsp;좋은지&amp;nbsp;점수를&amp;nbsp;매길&amp;nbsp;수&amp;nbsp;있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Reinforcement Learning Stage&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cmpiFd/btsnXiQqkE5/RzC9cTtZYPVOU5EkTX5xqK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cmpiFd/btsnXiQqkE5/RzC9cTtZYPVOU5EkTX5xqK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cmpiFd/btsnXiQqkE5/RzC9cTtZYPVOU5EkTX5xqK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcmpiFd%2FbtsnXiQqkE5%2FRzC9cTtZYPVOU5EkTX5xqK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;일단&amp;nbsp;보상&amp;nbsp;모델이&amp;nbsp;있으면&amp;nbsp;그&amp;nbsp;자체로는&amp;nbsp;어시스턴트로서&amp;nbsp;그다지&amp;nbsp;유용하지&amp;nbsp;않기&amp;nbsp;때문에&amp;nbsp;이것을&amp;nbsp;배치할&amp;nbsp;수&amp;nbsp;없지만,&amp;nbsp;지금&amp;nbsp;뒤따르는&amp;nbsp;강화&amp;nbsp;학습&amp;nbsp;단계에는&amp;nbsp;매우&amp;nbsp;유용합니다.&amp;nbsp;보상&amp;nbsp;모델이&amp;nbsp;있기&amp;nbsp;때문에&amp;nbsp;주어진&amp;nbsp;프롬프트에&amp;nbsp;대한&amp;nbsp;임의&amp;nbsp;완료의&amp;nbsp;품질에&amp;nbsp;점수를&amp;nbsp;매길&amp;nbsp;수&amp;nbsp;있습니다.&lt;br /&gt;&lt;br /&gt;따라서&amp;nbsp;강화&amp;nbsp;학습&amp;nbsp;중에&amp;nbsp;우리가&amp;nbsp;하는&amp;nbsp;것은&amp;nbsp;기본적으로&amp;nbsp;다시&amp;nbsp;많은&amp;nbsp;프롬프트&amp;nbsp;모음을&amp;nbsp;얻고&amp;nbsp;이제&amp;nbsp;보상&amp;nbsp;모델과&amp;nbsp;관련하여&amp;nbsp;강화&amp;nbsp;학습을&amp;nbsp;수행하는&amp;nbsp;것입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/AvbHC/btsnFEgPaah/CML7pmrK5v3Zf7rHZQKbw1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/AvbHC/btsnFEgPaah/CML7pmrK5v3Zf7rHZQKbw1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/AvbHC/btsnFEgPaah/CML7pmrK5v3Zf7rHZQKbw1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FAvbHC%2FbtsnFEgPaah%2FCML7pmrK5v3Zf7rHZQKbw1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그&amp;nbsp;모습은&amp;nbsp;다음과&amp;nbsp;같습니다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;우리는&amp;nbsp;하나의&amp;nbsp;프롬프트를&amp;nbsp;취하여&amp;nbsp;행으로&amp;nbsp;배치하고&amp;nbsp;이제&amp;nbsp;SFT&amp;nbsp;모델을&amp;nbsp;사용합니다.&amp;nbsp;우리는&amp;nbsp;기본적으로&amp;nbsp;SFT&amp;nbsp;모델로&amp;nbsp;초기화된&amp;nbsp;학습하려는&amp;nbsp;모델을&amp;nbsp;사용하여&amp;nbsp;노란색으로&amp;nbsp;일부&amp;nbsp;완성을&amp;nbsp;생성합니다.&amp;nbsp;그런&amp;nbsp;다음&amp;nbsp;보상&amp;nbsp;토큰을&amp;nbsp;다시&amp;nbsp;추가하고&amp;nbsp;현재&amp;nbsp;고정된&amp;nbsp;보상&amp;nbsp;모델에&amp;nbsp;따라&amp;nbsp;보상을&amp;nbsp;읽습니다.&amp;nbsp;더&amp;nbsp;이상&amp;nbsp;변하지&amp;nbsp;않습니다.&lt;br /&gt;&lt;br /&gt;이제 보상 모델은 이러한 프롬프트에 대한 모든 단일 완료의 품질을 알려줍니다. 따라서 우리가 할 수 있는 것은 이제 기본적으로 동일한 언어 모델링 손실 함수를 적용할 수 있지만 현재 노란색 토큰에 대해 훈련하고 있습니다. 그리고 우리는 보상 모델이 나타내는 보상으로 언어 모델링 목표를 저울질하고 있습니다.&lt;br /&gt;&lt;br /&gt;예를&amp;nbsp;들어,&amp;nbsp;첫&amp;nbsp;번째&amp;nbsp;행에서&amp;nbsp;보상&amp;nbsp;모델은&amp;nbsp;이것이&amp;nbsp;상당히&amp;nbsp;높은&amp;nbsp;점수&amp;nbsp;완료라고&amp;nbsp;말했습니다.&amp;nbsp;따라서&amp;nbsp;첫&amp;nbsp;번째&amp;nbsp;행에서&amp;nbsp;샘플링하게&amp;nbsp;된&amp;nbsp;모든&amp;nbsp;토큰은&amp;nbsp;강화될&amp;nbsp;것이며&amp;nbsp;미래에&amp;nbsp;더&amp;nbsp;높은&amp;nbsp;확률을&amp;nbsp;갖게&amp;nbsp;될&amp;nbsp;것입니다.&amp;nbsp;반대로&amp;nbsp;두&amp;nbsp;번째&amp;nbsp;행에서&amp;nbsp;보상&amp;nbsp;모델은&amp;nbsp;이&amp;nbsp;완성,&amp;nbsp;-1.2를&amp;nbsp;정말&amp;nbsp;좋아하지&amp;nbsp;않았습니다.&amp;nbsp;따라서&amp;nbsp;두&amp;nbsp;번째&amp;nbsp;행에서&amp;nbsp;샘플링한&amp;nbsp;모든&amp;nbsp;단일&amp;nbsp;토큰은&amp;nbsp;미래에&amp;nbsp;대해&amp;nbsp;약간&amp;nbsp;더&amp;nbsp;높은&amp;nbsp;확률을&amp;nbsp;갖게&amp;nbsp;될&amp;nbsp;것입니다.&amp;nbsp;그리고&amp;nbsp;우리는&amp;nbsp;많은&amp;nbsp;프롬프트에서&amp;nbsp;많은&amp;nbsp;배치로&amp;nbsp;이&amp;nbsp;작업을&amp;nbsp;반복합니다.&amp;nbsp;그리고&amp;nbsp;기본적으로&amp;nbsp;여기에&amp;nbsp;노란색&amp;nbsp;토큰을&amp;nbsp;생성하는&amp;nbsp;정책을&amp;nbsp;얻습니다.&amp;nbsp;기본적으로&amp;nbsp;모든&amp;nbsp;것이&amp;nbsp;여기에&amp;nbsp;있습니다.&amp;nbsp;여기에서&amp;nbsp;완료한&amp;nbsp;모든&amp;nbsp;항목은&amp;nbsp;이전&amp;nbsp;단계에서&amp;nbsp;교육한&amp;nbsp;보상&amp;nbsp;모델에&amp;nbsp;따라&amp;nbsp;높은&amp;nbsp;점수를&amp;nbsp;받습니다.&lt;br /&gt;&lt;br /&gt;그것이 우리가 훈련하는 방법입니다. 이것이 바로 RLHF 파이프라인입니다. 그리고 마지막에는 배포할 수 있는 모델을 얻습니다. 예를 들어 ChatGPT는 RLHF 모델이지만 (inaudible) 등의 다른 모델은 SFT 모델입니다. 우리는 기본 모델, SFT 모델 및 RLHF 모델을 보유하고 있으며 이는 일종의 상태와 비슷합니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Why RLHF?&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cjjK6l/btsnSXlBrLK/PVPUGhLrTA3KtBzAln0Th0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cjjK6l/btsnSXlBrLK/PVPUGhLrTA3KtBzAln0Th0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cjjK6l/btsnSXlBrLK/PVPUGhLrTA3KtBzAln0Th0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcjjK6l%2FbtsnSXlBrLK%2FPVPUGhLrTA3KtBzAln0Th0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 왜 RLHF를 하고 싶습니까? 그다지 흥미롭지 않은 한 가지 대답은 그것이 더 잘 작동한다는 것입니다. 이것은 instruct GPT 논문에서 나온 것입니다. 얼마 전 이러한 실험에 따르면 이러한 PPO 모델은 RLHF입니다. 그리고 우리는 그것들을 인간에게 줄 때 많은 비교에서 기본적으로 선호된다는 것을 봅니다. 인간은 기본적으로 보조자가 되라는 메시지가 표시되는 기본 모델에 비해 SFT 모델에 비해 RLHF 모델에서 오는 토큰을 기본적으로 선호합니다. 그래서 더 잘 작동합니다.&lt;br /&gt;&lt;br /&gt;하지만 이유를 물을 수 있습니다. 왜 더 잘 작동합니까?&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cazMXh/btsnILffUVE/qFYrSxlC4Rdc2grbt4cmsK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cazMXh/btsnILffUVE/qFYrSxlC4Rdc2grbt4cmsK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cazMXh/btsnILffUVE/qFYrSxlC4Rdc2grbt4cmsK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcazMXh%2FbtsnILffUVE%2FqFYrSxlC4Rdc2grbt4cmsK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그리고&amp;nbsp;저는&amp;nbsp;커뮤니티가&amp;nbsp;실제로&amp;nbsp;동의한&amp;nbsp;하나의&amp;nbsp;놀라운&amp;nbsp;대답이&amp;nbsp;있다고&amp;nbsp;생각하지&amp;nbsp;않지만&amp;nbsp;잠재적으로&amp;nbsp;한&amp;nbsp;가지&amp;nbsp;이유를&amp;nbsp;제시할&amp;nbsp;것입니다.&amp;nbsp;그것은&amp;nbsp;계산적으로&amp;nbsp;비교하는&amp;nbsp;것과&amp;nbsp;생성하는&amp;nbsp;것이&amp;nbsp;얼마나&amp;nbsp;쉬운지&amp;nbsp;사이의&amp;nbsp;비대칭성과&amp;nbsp;관련이&amp;nbsp;있습니다.&lt;br /&gt;&lt;br /&gt;하이쿠(haiku)를 생성하는 예를 들어 보겠습니다. 모델에게 클립에 대한 하이쿠를 쓰라고 요청한다고 가정해 보겠습니다. 훈련 데이터를 제공하려는 계약자라면 SFT에 대한 기본 데이터를 수집하는 계약자라고 상상해 보십시오. 클립으로 멋진 하이쿠를 만들려면 어떻게 해야 합니까? 당신이 그것에 능숙하지 않을 수도 있지만, 내가 당신에게 하이쿠의 몇 가지 예를 든다면, 당신은 이 하이쿠들 중 일부를 다른 하이쿠들보다 훨씬 더 감상할 수 있을 것입니다. 그래서 어느 것이 좋은지 판단하는 것이 훨씬 쉬운 일입니다. 따라서 기본적으로 이 비대칭성은 비교가 인간으로서 잠재적으로 자신을 활용하고 약간 더 나은 모델을 만들기 위한 판단에 더 나은 방법이 되도록 만듭니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/taEzj/btsnLviTeLd/pK2fQ1v2GdoiJz6k9foIYk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/taEzj/btsnLviTeLd/pK2fQ1v2GdoiJz6k9foIYk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/taEzj/btsnLviTeLd/pK2fQ1v2GdoiJz6k9foIYk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FtaEzj%2FbtsnLviTeLd%2FpK2fQ1v2GdoiJz6k9foIYk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제&amp;nbsp;RLHF&amp;nbsp;모델은&amp;nbsp;경우에&amp;nbsp;따라&amp;nbsp;기본&amp;nbsp;모델을&amp;nbsp;엄격하게&amp;nbsp;개선한&amp;nbsp;것이&amp;nbsp;아닙니다.&amp;nbsp;특히,&amp;nbsp;예를&amp;nbsp;들어&amp;nbsp;엔트로피가&amp;nbsp;약간&amp;nbsp;손실되는&amp;nbsp;것을&amp;nbsp;발견했습니다.&amp;nbsp;그것은&amp;nbsp;그들이&amp;nbsp;더&amp;nbsp;많은&amp;nbsp;(PT?)&amp;nbsp;결과를&amp;nbsp;제공한다는&amp;nbsp;것을&amp;nbsp;의미합니다.&amp;nbsp;더&amp;nbsp;낮은&amp;nbsp;변형을&amp;nbsp;출력할&amp;nbsp;수&amp;nbsp;있습니다.&amp;nbsp;기본&amp;nbsp;모델보다&amp;nbsp;변동이&amp;nbsp;적은&amp;nbsp;샘플을&amp;nbsp;출력할&amp;nbsp;수&amp;nbsp;있습니다.&amp;nbsp;기본&amp;nbsp;모델에는&amp;nbsp;많은&amp;nbsp;엔트로피가&amp;nbsp;있으며&amp;nbsp;다양한&amp;nbsp;출력을&amp;nbsp;제공합니다.&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cBXd1m/btsnOrN5NzC/CZfOzihtQ1C0sIRJfND1L1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cBXd1m/btsnOrN5NzC/CZfOzihtQ1C0sIRJfND1L1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cBXd1m/btsnOrN5NzC/CZfOzihtQ1C0sIRJfND1L1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcBXd1m%2FbtsnOrN5NzC%2FCZfOzihtQ1C0sIRJfND1L1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예를&amp;nbsp;들어,&amp;nbsp;내가&amp;nbsp;여전히&amp;nbsp;기본&amp;nbsp;모델을&amp;nbsp;사용하는&amp;nbsp;것을&amp;nbsp;선호하는&amp;nbsp;한&amp;nbsp;가지&amp;nbsp;장소는&amp;nbsp;기본적으로&amp;nbsp;n개의&amp;nbsp;항목이&amp;nbsp;있고&amp;nbsp;이와&amp;nbsp;유사한&amp;nbsp;항목을&amp;nbsp;더&amp;nbsp;생성하려는&amp;nbsp;설정입니다.&amp;nbsp;여기&amp;nbsp;제가&amp;nbsp;방금&amp;nbsp;준비한&amp;nbsp;예가&amp;nbsp;있습니다.&amp;nbsp;멋진&amp;nbsp;포켓몬&amp;nbsp;이름을&amp;nbsp;생성하고&amp;nbsp;싶습니다.&amp;nbsp;7개의&amp;nbsp;포켓몬&amp;nbsp;이름을&amp;nbsp;부여하고&amp;nbsp;기본&amp;nbsp;모델에&amp;nbsp;문서를&amp;nbsp;완성하도록&amp;nbsp;요청했습니다.&amp;nbsp;그리고&amp;nbsp;그것은&amp;nbsp;나에게&amp;nbsp;훨씬&amp;nbsp;더&amp;nbsp;많은&amp;nbsp;포켓몬&amp;nbsp;이름을&amp;nbsp;주었다.&amp;nbsp;이들은&amp;nbsp;허구입니다.&amp;nbsp;나는&amp;nbsp;그것들을&amp;nbsp;찾아보려고&amp;nbsp;노력했다.&amp;nbsp;나는&amp;nbsp;실제&amp;nbsp;포켓몬이&amp;nbsp;있다고&amp;nbsp;믿지&amp;nbsp;않는다.&amp;nbsp;그리고&amp;nbsp;이것은&amp;nbsp;기본&amp;nbsp;모델이&amp;nbsp;잘할&amp;nbsp;것이라고&amp;nbsp;생각하는&amp;nbsp;종류의&amp;nbsp;작업입니다.&amp;nbsp;왜냐하면&amp;nbsp;여전히&amp;nbsp;엔트로피가&amp;nbsp;많고&amp;nbsp;이전에&amp;nbsp;제공한&amp;nbsp;것과&amp;nbsp;같이&amp;nbsp;다양하고&amp;nbsp;멋진&amp;nbsp;종류의&amp;nbsp;더&amp;nbsp;많은&amp;nbsp;것을&amp;nbsp;제공할&amp;nbsp;것이기&amp;nbsp;때문입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Assistant models in the wild&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/Lz6h9/btsnOfte2yS/44WyFR2fBpaoNE6BvxlhoK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/Lz6h9/btsnOfte2yS/44WyFR2fBpaoNE6BvxlhoK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/Lz6h9/btsnOfte2yS/44WyFR2fBpaoNE6BvxlhoK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FLz6h9%2FbtsnOfte2yS%2F44WyFR2fBpaoNE6BvxlhoK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;모든&amp;nbsp;것을&amp;nbsp;말했지만&amp;nbsp;이들은&amp;nbsp;현재&amp;nbsp;시점에서&amp;nbsp;사용할&amp;nbsp;수&amp;nbsp;있는&amp;nbsp;보조&amp;nbsp;모델과&amp;nbsp;비슷합니다.&amp;nbsp;사용&amp;nbsp;가능한&amp;nbsp;많은&amp;nbsp;보조&amp;nbsp;모델의&amp;nbsp;순위를&amp;nbsp;매기고&amp;nbsp;기본적으로&amp;nbsp;ELO&amp;nbsp;등급을&amp;nbsp;부여한&amp;nbsp;Berkeley&amp;nbsp;팀이&amp;nbsp;있습니다.&amp;nbsp;물론&amp;nbsp;현재&amp;nbsp;최고의&amp;nbsp;모델&amp;nbsp;중&amp;nbsp;일부는&amp;nbsp;GPT-4이며,&amp;nbsp;Claude&amp;nbsp;GPT&amp;nbsp;3.5와&amp;nbsp;여러&amp;nbsp;모델이&amp;nbsp;그&amp;nbsp;뒤를&amp;nbsp;잇고&amp;nbsp;있습니다.&amp;nbsp;이들&amp;nbsp;중&amp;nbsp;일부는&amp;nbsp;Kuna,&amp;nbsp;Koala&amp;nbsp;등과&amp;nbsp;같은&amp;nbsp;가중치로&amp;nbsp;사용할&amp;nbsp;수&amp;nbsp;있습니다.&amp;nbsp;그리고&amp;nbsp;여기&amp;nbsp;처음&amp;nbsp;세&amp;nbsp;행은&amp;nbsp;모두&amp;nbsp;RLHF&amp;nbsp;모델이고&amp;nbsp;다른&amp;nbsp;모든&amp;nbsp;모델은&amp;nbsp;제가&amp;nbsp;아는&amp;nbsp;한&amp;nbsp;SFT&amp;nbsp;모델입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이것이&amp;nbsp;우리가&amp;nbsp;높은&amp;nbsp;수준에서&amp;nbsp;이러한&amp;nbsp;모델을&amp;nbsp;훈련시키는&amp;nbsp;방법입니다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Applications&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bXWchJ/btsnSYSlrL9/nt5EuIk67hkeZ4Q0uw8nq1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bXWchJ/btsnSYSlrL9/nt5EuIk67hkeZ4Q0uw8nq1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bXWchJ/btsnSYSlrL9/nt5EuIk67hkeZ4Q0uw8nq1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbXWchJ%2FbtsnSYSlrL9%2Fnt5EuIk67hkeZ4Q0uw8nq1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 기어를 바꿔 문제에 GPT 도우미 모델을 가장 잘 적용할 수 있는 방법을 살펴보겠습니다.&lt;br /&gt;&lt;br /&gt;이제&amp;nbsp;저는&amp;nbsp;구체적인&amp;nbsp;예를&amp;nbsp;들어&amp;nbsp;작업하고&amp;nbsp;싶습니다.&amp;nbsp;여기서&amp;nbsp;구체적인&amp;nbsp;예를&amp;nbsp;들어&amp;nbsp;보겠습니다.&amp;nbsp;기사나&amp;nbsp;블로그&amp;nbsp;게시물을&amp;nbsp;작성&amp;nbsp;중이고&amp;nbsp;마지막에&amp;nbsp;이&amp;nbsp;문장을&amp;nbsp;작성한다고&amp;nbsp;가정해&amp;nbsp;보겠습니다.&amp;nbsp;&amp;ldquo;California&amp;rsquo;s population is 53 times that of Alaska.(캘리포니아 인구는 알래스카 인구의 53배입니다.)&amp;rdquo; 어떤 이유로 이 두 주의 인구를 비교하려고 합니다.&lt;br /&gt;&lt;br /&gt;풍부한&amp;nbsp;내부&amp;nbsp;독백과&amp;nbsp;도구&amp;nbsp;사용에&amp;nbsp;대해&amp;nbsp;생각하고&amp;nbsp;이&amp;nbsp;마지막&amp;nbsp;문장을&amp;nbsp;생성하기&amp;nbsp;위해&amp;nbsp;실제로&amp;nbsp;두뇌에서&amp;nbsp;얼마나&amp;nbsp;많은&amp;nbsp;계산&amp;nbsp;작업이&amp;nbsp;수행되는지&amp;nbsp;생각해&amp;nbsp;보십시오.&amp;nbsp;이것이&amp;nbsp;당신의&amp;nbsp;뇌에서&amp;nbsp;어떻게&amp;nbsp;보일지&amp;nbsp;모릅니다.&lt;br /&gt;&lt;br /&gt;좋습니다. 다음 단계에서는 블로그를 작성하겠습니다. 이 두 모집단을 비교해 보겠습니다. 좋아요, 우선, 당연히 이 두 모집단을 모두 확보해야 합니다. 이제 저는 이 인구를 제 머리 위로 알지 못할 수도 있다는 것을 알고 있습니다. 그래서 저는 제가 아는 것을 알고 있거나 제 자기 지식에 대해 알지 못하는 것과 비슷합니다. 도구를 사용하고 Wikipedia로 이동하여 캘리포니아 인구와 알래스카 인구를 조회합니다.&lt;br /&gt;&lt;br /&gt;이제&amp;nbsp;저는&amp;nbsp;이&amp;nbsp;둘을&amp;nbsp;나누어야&amp;nbsp;한다는&amp;nbsp;것을&amp;nbsp;알고&amp;nbsp;있지만,&amp;nbsp;다시&amp;nbsp;한&amp;nbsp;번&amp;nbsp;39.2를&amp;nbsp;0.74로&amp;nbsp;나누는&amp;nbsp;것이&amp;nbsp;성공할&amp;nbsp;가능성이&amp;nbsp;매우&amp;nbsp;낮다는&amp;nbsp;것을&amp;nbsp;알고&amp;nbsp;있습니다.&amp;nbsp;그것은&amp;nbsp;내&amp;nbsp;머리로&amp;nbsp;할&amp;nbsp;수&amp;nbsp;있는&amp;nbsp;종류의&amp;nbsp;일이&amp;nbsp;아닙니다.&amp;nbsp;따라서&amp;nbsp;저는&amp;nbsp;계산기에&amp;nbsp;의존할&amp;nbsp;것입니다.&amp;nbsp;저는&amp;nbsp;계산기를&amp;nbsp;사용하여&amp;nbsp;펀칭하고&amp;nbsp;출력이&amp;nbsp;대략&amp;nbsp;53인지&amp;nbsp;확인할&amp;nbsp;것입니다.&amp;nbsp;그런&amp;nbsp;다음&amp;nbsp;아마도&amp;nbsp;53이&amp;nbsp;의미가&amp;nbsp;있도록&amp;nbsp;내&amp;nbsp;두뇌에서&amp;nbsp;반성&amp;nbsp;및&amp;nbsp;온전성&amp;nbsp;검사를&amp;nbsp;수행할&amp;nbsp;것입니다.&amp;nbsp;음,&amp;nbsp;그것은&amp;nbsp;상당히&amp;nbsp;큰&amp;nbsp;부분이지만&amp;nbsp;California는&amp;nbsp;가장&amp;nbsp;인구가&amp;nbsp;많은&amp;nbsp;주이므로&amp;nbsp;괜찮을&amp;nbsp;것&amp;nbsp;같습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그런&amp;nbsp;다음&amp;nbsp;필요한&amp;nbsp;모든&amp;nbsp;정보를&amp;nbsp;얻었고&amp;nbsp;이제&amp;nbsp;글쓰기의&amp;nbsp;일종의&amp;nbsp;창의적인&amp;nbsp;부분에&amp;nbsp;도달했습니다.&amp;nbsp;&quot;California has 53x times greater.(캘리포니아는 53배 더 큽니다.)&quot; 그리고 나서 스스로 생각합니다. 정말 어색한 표현입니다. 실제로 삭제하고 다시 시도하겠습니다. 그래서 저는 글을 쓰면서 제가 쓰고 있는 내용을 거의 검사하고 좋은지 아닌지 판단하는 별도의 프로세스를 가지고 있습니다. 그런 다음 삭제하고 재구성한 다음 결과에 만족할 수 있습니다.&lt;br /&gt;&lt;br /&gt;기본적으로&amp;nbsp;간단히&amp;nbsp;말해서,&amp;nbsp;이와&amp;nbsp;같은&amp;nbsp;문장을&amp;nbsp;만들&amp;nbsp;때&amp;nbsp;내부&amp;nbsp;독백&amp;nbsp;측면에서&amp;nbsp;많은&amp;nbsp;일이&amp;nbsp;발생합니다.&amp;nbsp;하지만&amp;nbsp;GPT를&amp;nbsp;훈련할&amp;nbsp;때&amp;nbsp;이와&amp;nbsp;같은&amp;nbsp;문장은&amp;nbsp;어떻게&amp;nbsp;보일까요?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/kOzQe/btsnGY0hhRU/rLkspnxwcvGL5bEcRcVjfK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/kOzQe/btsnGY0hhRU/rLkspnxwcvGL5bEcRcVjfK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/kOzQe/btsnGY0hhRU/rLkspnxwcvGL5bEcRcVjfK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FkOzQe%2FbtsnGY0hhRU%2FrLkspnxwcvGL5bEcRcVjfK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;GPT의 관점에서 이것은 일련의 토큰일 뿐입니다. GPT는 이러한 토큰을 읽거나 생성할 때 청크, 청크, 청크, 청크로 이동하며 각 청크는 각 토큰에 대해 대략 동일한 양의 계산 작업입니다. 그리고 이러한 transformer는 매우 얕은 네트워크가 아닙니다. 그들은 약 80개의 추론 레이어를 가지고 있지만 80개는 여전히 많지 않습니다. 따라서 이 transformer는 모방하기 위해 최선을 다할 것입니다. 하지만 물론 여기서 프로세스는 여러분이 수행한 프로세스와 매우 매우 다르게 보입니다.&lt;br /&gt;&lt;br /&gt;특히&amp;nbsp;최종&amp;nbsp;아티팩트에서&amp;nbsp;우리가&amp;nbsp;생성한&amp;nbsp;다음&amp;nbsp;결국&amp;nbsp;LLM에&amp;nbsp;공급하는&amp;nbsp;데이터&amp;nbsp;세트에서&amp;nbsp;모든&amp;nbsp;내부&amp;nbsp;대화가&amp;nbsp;완전히&amp;nbsp;제거됩니다.&amp;nbsp;그리고&amp;nbsp;귀하와&amp;nbsp;달리&amp;nbsp;GPT는&amp;nbsp;모든&amp;nbsp;단일&amp;nbsp;토큰을&amp;nbsp;살펴보고&amp;nbsp;모든&amp;nbsp;토큰에&amp;nbsp;동일한&amp;nbsp;양의&amp;nbsp;컴퓨팅을&amp;nbsp;소비합니다.&amp;nbsp;따라서&amp;nbsp;실제로&amp;nbsp;좋아할&amp;nbsp;것이라고&amp;nbsp;기대할&amp;nbsp;수&amp;nbsp;없습니다.&amp;nbsp;음,&amp;nbsp;토큰당&amp;nbsp;너무&amp;nbsp;많은&amp;nbsp;일을&amp;nbsp;할&amp;nbsp;것이라고&amp;nbsp;기대할&amp;nbsp;수&amp;nbsp;없습니다.&lt;br /&gt;&lt;br /&gt;또한 특히 기본적으로 이러한 transformer는 토큰 시뮬레이터와 같습니다. 그들은 그들이 모르는 것을 모릅니다. 그들은 단지 다음 토큰을 모방합니다. 그들은 자신이 잘하는 것과 못하는 것을 모릅니다. 그들은 단지 다음 토큰을 모방하기 위해 최선을 다할 뿐입니다. 루프에 반영되지 않습니다. 그들은 온전함을 확인하지 않습니다. 기본적으로 실수를 수정하지 않습니다. 그들은 단지 토큰 시퀀스를 샘플링합니다. 머릿속에 별도의 내부 독백 흐름이 없지 않나요? 그들은 무슨 일이 일어나고 있는지 평가하고 있습니다.&lt;br /&gt;&lt;br /&gt;이제 그들은 일종의 인지적 이점을 가지고 있다고 말하고 싶습니다. 즉, 그들은 실제로 100억 개의 매개변수를 가지고 있기 때문에 방대한 수의 영역에 걸쳐 매우 큰 사실 기반 지식을 가지고 있다는 것입니다. 그것은 많은 사실을 저장하는 많은 저장소이며, 또한 상대적으로 크고 완벽한 작업 메모리를 가지고 있다고 생각합니다. 컨텍스트 창에 맞는 것은 내부 자체 주의 메커니즘을 통해 트랜스포머에서 즉시 사용할 수 있습니다. 그래서 완벽한 기억과 비슷하지만 그 크기가 유한합니다. 그러나 트랜스포머는 그것에 매우 직접적으로 접근할 수 있습니다. 따라서 컨텍스트 창 안에 있는 모든 것을 무손실로 기억할 수 있습니다.&lt;br /&gt;&lt;br /&gt;그것이&amp;nbsp;내가&amp;nbsp;그&amp;nbsp;두&amp;nbsp;가지를&amp;nbsp;비교하는&amp;nbsp;방법입니다.&amp;nbsp;제가&amp;nbsp;이&amp;nbsp;모든&amp;nbsp;것을&amp;nbsp;언급하는&amp;nbsp;이유는&amp;nbsp;제&amp;nbsp;생각에&amp;nbsp;자극은&amp;nbsp;여기&amp;nbsp;있는&amp;nbsp;우리의&amp;nbsp;두뇌와&amp;nbsp;LLM&amp;nbsp;두뇌와&amp;nbsp;같은&amp;nbsp;두&amp;nbsp;종류의&amp;nbsp;아키텍처&amp;nbsp;사이의&amp;nbsp;인지적&amp;nbsp;차이를&amp;nbsp;보완하는&amp;nbsp;것이라고&amp;nbsp;생각하기&amp;nbsp;때문입니다.&amp;nbsp;거의&amp;nbsp;그렇게&amp;nbsp;보시면&amp;nbsp;됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/1ZPpq/btsnTDUUD1e/bIU3wAzYwVvNpoMLVnnVA0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/1ZPpq/btsnTDUUD1e/bIU3wAzYwVvNpoMLVnnVA0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/1ZPpq/btsnTDUUD1e/bIU3wAzYwVvNpoMLVnnVA0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F1ZPpq%2FbtsnTDUUD1e%2FbIU3wAzYwVvNpoMLVnnVA0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;예를 들어 사람들이 발견한 한 가지는 실제로 잘 작동합니다. 특히 작업에 추론이 필요한 경우&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;트랜스포머가 토큰당 너무 많은 추론을 수행할 것으로 기대할 수 없습니다. 따라서 점점 더 많은 토큰에 추론을 퍼뜨려야 합니다. 예를 들어&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;트랜스포머에게 매우 복잡한 질문을 주고 단일 토큰으로 답을 얻을 것으로 기대할 수 없습니다. 시간이 충분하지 않습니다. 이러한&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;트랜스포머는 생각하고, 인용하거나 인용하지 않으려면 토큰이 필요합니다. 저는 때때로 말하고 싶습니다.&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;그래서 이것은 잘 작동하는 것 중 일부입니다. 예를 들어 질문에 답할 때 작업을 표시해야 하는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;트랜스포머를 보여주는 몇 가지 짧은 프롬프트가 있을 수 있습니다. 그리고 몇 가지 예를 들면&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;트랜스포머가 해당 템플릿을 모방하고 평가 측면에서 더 잘 작동하게 됩니다.&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;또한&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;트랜스포머가 작업을 표시하도록 조건을 지정하기 때문에 단계적으로 생각해 봅시다. 그리고 작업을 표시하는 모드로 전환되기 때문에 토큰당 계산 작업이 줄어듭니다. 따라서 시간이 지남에 따라 추론이 느려지기 때문에 결과적으로 성공할 가능성이 더 큽니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/CXPw1/btsnF5rJLnC/dGyF5SytT5M4kBsS0sZQNK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/CXPw1/btsnF5rJLnC/dGyF5SytT5M4kBsS0sZQNK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/CXPw1/btsnF5rJLnC/dGyF5SytT5M4kBsS0sZQNK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FCXPw1%2FbtsnF5rJLnC%2FdGyF5SytT5M4kBsS0sZQNK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;여기 또 다른 예가 있습니다. 이것을 자기 일관성(Self-consistency)이라고합니다. 우리는 글쓰기를 시작할 수 있는 능력이 있다는 것을 알았지만 잘 되지 않았습니다. 다시 시도할 수 있고 여러 번 시도하고 가장 잘 작동하는 것을 선택할 수 있습니다. 이러한 접근 방식에서는 한 번만 샘플링하는 것이 아니라 여러 번 샘플링한 다음 좋은 것을 찾은 다음 해당 샘플만 보관하거나 다수결 투표를 하는 등의 프로세스를 가질 수 있습니다. 기본적으로 이러한 트랜스포머는 다음 토큰을 예측하는 과정에서 귀하와 마찬가지로 운이 좋지 않을 수 있습니다. 그리고 그들은 그다지 좋지 않은 토큰을 샘플링할 수 있었고 추론의 측면에서 일종의 막다른 골목처럼 내려갈 수 있습니다.&lt;br /&gt;&lt;br /&gt;그래서 당신과 달리 그들은 그것으로부터 회복할 수 없습니다. 그들은 샘플링하는 모든 단일 토큰에 갇혀 있습니다. 그래서 그들은 이 순서가 잘 풀리지 않을 것이라는 것을 알더라도 그 순서를 계속할 것입니다. 그들에게 되돌아보고, 검사하거나, 찾으려고 노력하고, 기본적으로 주위를 둘러볼 수 있는 능력을 주십시오.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;여기에도&amp;nbsp;하나의&amp;nbsp;기술이&amp;nbsp;있습니다.&amp;nbsp;실제로&amp;nbsp;LLM은&amp;nbsp;그들이&amp;nbsp;망쳤을&amp;nbsp;때를&amp;nbsp;압니다.&amp;nbsp;예를&amp;nbsp;들어,&amp;nbsp;운이&amp;nbsp;맞지&amp;nbsp;않는&amp;nbsp;시를&amp;nbsp;생성하도록&amp;nbsp;모델에&amp;nbsp;요청하면&amp;nbsp;시가&amp;nbsp;나올&amp;nbsp;수&amp;nbsp;있지만&amp;nbsp;실제로는&amp;nbsp;운이&amp;nbsp;맞습니다.&amp;nbsp;그러나&amp;nbsp;특히&amp;nbsp;GPT-4와&amp;nbsp;같은&amp;nbsp;더&amp;nbsp;큰&amp;nbsp;모델의&amp;nbsp;경우&amp;nbsp;그냥&amp;nbsp;물어볼&amp;nbsp;수&amp;nbsp;있습니다.&amp;nbsp;임무를&amp;nbsp;완수했습니까?&amp;nbsp;그리고&amp;nbsp;실제로&amp;nbsp;GPT-4는&amp;nbsp;자신이&amp;nbsp;임무를&amp;nbsp;수행하지&amp;nbsp;못했다는&amp;nbsp;사실을&amp;nbsp;잘&amp;nbsp;알고&amp;nbsp;있습니다.&amp;nbsp;샘플링에서&amp;nbsp;운이&amp;nbsp;좋지&amp;nbsp;않았습니다.&amp;nbsp;그래서&amp;nbsp;그것은&amp;nbsp;당신에게&amp;nbsp;말할&amp;nbsp;것입니다,&amp;nbsp;아니오,&amp;nbsp;나는&amp;nbsp;실제로&amp;nbsp;과제를&amp;nbsp;충족하지&amp;nbsp;못했습니다.&amp;nbsp;자,&amp;nbsp;다시&amp;nbsp;시도하겠습니다.&lt;br /&gt;&lt;br /&gt;그러나&amp;nbsp;당신이&amp;nbsp;그것을&amp;nbsp;촉구하지&amp;nbsp;않으면&amp;nbsp;그것은&amp;nbsp;알지도&amp;nbsp;못합니다.&amp;nbsp;다시&amp;nbsp;방문하는&amp;nbsp;것을&amp;nbsp;모릅니다.&amp;nbsp;프롬프트에서&amp;nbsp;이를&amp;nbsp;보충해야&amp;nbsp;합니다.&amp;nbsp;받으셔야&amp;nbsp;확인이&amp;nbsp;가능합니다.&amp;nbsp;확인을&amp;nbsp;요청하지&amp;nbsp;않으면&amp;nbsp;자체적으로&amp;nbsp;확인하지&amp;nbsp;않습니다.&amp;nbsp;그것은&amp;nbsp;단지&amp;nbsp;토큰&amp;nbsp;시뮬레이터입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bk92ow/btsnIJ9DIVi/4R1UG3uyxk0Vj1R6v7B7gk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bk92ow/btsnIJ9DIVi/4R1UG3uyxk0Vj1R6v7B7gk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bk92ow/btsnIJ9DIVi/4R1UG3uyxk0Vj1R6v7B7gk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbk92ow%2FbtsnIJ9DIVi%2F4R1UG3uyxk0Vj1R6v7B7gk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;좀 더 일반적으로, 이러한 기술 중 많은 부분이 시스템 2를 재생성한다고 말하는 bucket에 속한다고 생각합니다. 여러분은 인간을 위한 시스템 1, 시스템 2 사고에 익숙할 것입니다. 시스템 1은 빠르고 자동적인 프로세스이며 토큰을 샘플링하는 LLM에 해당한다고 생각합니다. 그리고 시스템 2는 더 느리고 의도적으로 계획하는 뇌의 한 부분입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그래서 이것은 실제로 지난 주에 나온 논문입니다. 공간이 꽤 빠르게 진화하고 있기 때문입니다. 그것은 생각의 나무라고 불리며 생각의 나무에서 이 논문의 저자는 주어진 프롬프트에 대해 여러 완성을 유지할 것을 제안했습니다. 그리고 그들은 또한 그 과정에서 점수를 매기고 잘 진행되고 있는 것을 유지하고 있습니다. 그래서 많은 사람들이 기본적으로 LLM을 위해 우리의 두뇌에 있는 이러한 능력 중 일부를 되살리기 위해 일종의 프롬프트 엔지니어링을 가지고 놀고 있습니다.&lt;br /&gt;&lt;br /&gt;자,&amp;nbsp;여기서&amp;nbsp;주목하고&amp;nbsp;싶은&amp;nbsp;한&amp;nbsp;가지는&amp;nbsp;이것이&amp;nbsp;단순한&amp;nbsp;프롬프트가&amp;nbsp;아니라는&amp;nbsp;것입니다.&amp;nbsp;이것은&amp;nbsp;실제로&amp;nbsp;여러&amp;nbsp;프롬프트를&amp;nbsp;유지해야&amp;nbsp;하기&amp;nbsp;때문에&amp;nbsp;일부&amp;nbsp;Python&amp;nbsp;글루&amp;nbsp;코드와&amp;nbsp;함께&amp;nbsp;사용되는&amp;nbsp;프롬프트이며&amp;nbsp;확장할&amp;nbsp;프롬프트를&amp;nbsp;파악하기&amp;nbsp;위해&amp;nbsp;여기에서&amp;nbsp;몇&amp;nbsp;가지&amp;nbsp;트리&amp;nbsp;검색&amp;nbsp;알고리즘을&amp;nbsp;수행해야&amp;nbsp;합니다.&amp;nbsp;Python&amp;nbsp;글루&amp;nbsp;코드와&amp;nbsp;(와일드?)&amp;nbsp;루프&amp;nbsp;또는&amp;nbsp;더&amp;nbsp;큰&amp;nbsp;알고리즘에서&amp;nbsp;호출되는&amp;nbsp;개별&amp;nbsp;프롬프트의&amp;nbsp;공생입니다.&lt;br /&gt;&lt;br /&gt;나는 또한 여기에 AlphaGo와 정말 멋진 유사점이 있다고 생각합니다. 알파고는 바둑을 칠 때 다음 돌을 놓는 정책이 있는데, 이 정책은 원래 인간을 흉내내어 훈련한 것이다. 그러나 이 정책 외에도 Monte-Carlo 트리 검색도 수행합니다. 그리고 기본적으로 머리 속에서 여러 가능성을 실행하고 모든 가능성을 평가하고 잘 작동하는 가능성만 유지합니다. 그래서 제 생각에는 이것이 일종의 AlphaGo와 비슷하다고 생각합니다. 하지만 그것이 의미가 있다면 텍스트의 경우입니다.&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/Ylw4j/btsnLwa85ux/1UxxnVFQQzT4OVEAK2fmrk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/Ylw4j/btsnLwa85ux/1UxxnVFQQzT4OVEAK2fmrk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/Ylw4j/btsnLwa85ux/1UxxnVFQQzT4OVEAK2fmrk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FYlw4j%2FbtsnLwa85ux%2F1UxxnVFQQzT4OVEAK2fmrk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Tree&amp;nbsp;of&amp;nbsp;Thought와&amp;nbsp;마찬가지로&amp;nbsp;사람들은&amp;nbsp;단순한&amp;nbsp;질문/답변&amp;nbsp;프롬프트가&amp;nbsp;아니라&amp;nbsp;많은&amp;nbsp;프롬프트를&amp;nbsp;함께&amp;nbsp;연결하는&amp;nbsp;Python&amp;nbsp;글루&amp;nbsp;코드와&amp;nbsp;훨씬&amp;nbsp;더&amp;nbsp;비슷해&amp;nbsp;보이는&amp;nbsp;더&amp;nbsp;일반적인&amp;nbsp;기술을&amp;nbsp;탐색하기&amp;nbsp;시작했습니다.&lt;br /&gt;&lt;br /&gt;오른쪽에는&amp;nbsp;생각,&amp;nbsp;행동,&amp;nbsp;관찰,&amp;nbsp;생각,&amp;nbsp;행동,&amp;nbsp;관찰의&amp;nbsp;순서로&amp;nbsp;프롬프트에&amp;nbsp;대한&amp;nbsp;답변을&amp;nbsp;구성하는&amp;nbsp;React라는&amp;nbsp;이&amp;nbsp;논문의&amp;nbsp;예가&amp;nbsp;있습니다.&amp;nbsp;질문에&amp;nbsp;답하기&amp;nbsp;위한&amp;nbsp;일종의&amp;nbsp;사고&amp;nbsp;과정인&amp;nbsp;전체&amp;nbsp;롤아웃입니다.&amp;nbsp;그리고&amp;nbsp;이러한&amp;nbsp;작업에서&amp;nbsp;모델은&amp;nbsp;도구&amp;nbsp;사용도&amp;nbsp;허용됩니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;왼쪽에는&amp;nbsp;Auto&amp;nbsp;GPT의&amp;nbsp;예가&amp;nbsp;있습니다.&amp;nbsp;그런데&amp;nbsp;이제&amp;nbsp;Auto&amp;nbsp;GPT는&amp;nbsp;최근에&amp;nbsp;많은&amp;nbsp;과대&amp;nbsp;광고를&amp;nbsp;받은&amp;nbsp;프로젝트이지만&amp;nbsp;여전히&amp;nbsp;영감을&amp;nbsp;주는&amp;nbsp;흥미로운&amp;nbsp;프로젝트라고&amp;nbsp;생각합니다.&amp;nbsp;LLM이&amp;nbsp;일종의&amp;nbsp;작업&amp;nbsp;목록을&amp;nbsp;유지하고&amp;nbsp;계속해서&amp;nbsp;재귀적으로&amp;nbsp;작업을&amp;nbsp;세분화할&amp;nbsp;수&amp;nbsp;있는&amp;nbsp;프로젝트입니다.&amp;nbsp;그리고&amp;nbsp;나는&amp;nbsp;이것이&amp;nbsp;현재&amp;nbsp;잘&amp;nbsp;작동하지&amp;nbsp;않는다고&amp;nbsp;생각하며&amp;nbsp;사람들에게&amp;nbsp;실제&amp;nbsp;응용&amp;nbsp;프로그램에서&amp;nbsp;사용하도록&amp;nbsp;조언하지&amp;nbsp;않습니다.&amp;nbsp;시간이&amp;nbsp;지남에&amp;nbsp;따라&amp;nbsp;이것이&amp;nbsp;어디로&amp;nbsp;가고&amp;nbsp;있는지에&amp;nbsp;대해&amp;nbsp;일반적으로&amp;nbsp;영감을&amp;nbsp;얻는&amp;nbsp;것이라고&amp;nbsp;생각합니다.&lt;br /&gt;&lt;br /&gt;이는&amp;nbsp;모델&amp;nbsp;시스템&amp;nbsp;2에&amp;nbsp;생각을&amp;nbsp;부여하는&amp;nbsp;것과&amp;nbsp;같습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dTWtYw/btsnGOQQTkh/VBFLyGg82MD3p7CBkLyLz0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dTWtYw/btsnGOQQTkh/VBFLyGg82MD3p7CBkLyLz0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dTWtYw/btsnGOQQTkh/VBFLyGg82MD3p7CBkLyLz0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdTWtYw%2FbtsnGOQQTkh%2FVBFLyGg82MD3p7CBkLyLz0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다음으로 흥미로운 점은 LLM의 거의 심리적인 단점은 LLM이 성공하기를 원하지 않는다는 것입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그들은 모방하고 싶어합니다. 당신은 성공하기를 원하고 그것을 요구해야 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;제 말은 트랜스포머가 훈련될 때 훈련 세트가 있다는 것입니다. 그리고 훈련 데이터에는 성능 품질의 전체 스펙트럼이 있을 수 있습니다.&lt;br /&gt;&lt;br /&gt;예를 들어 물리학 질문이나 그와 비슷한 질문에 대한 프롬프트가 있을 수 있고 완전히 잘못된 학생 솔루션이 있을 수 있지만 매우 옳은 전문가 답변이 있을 수도 있습니다. 그리고 트랜스포머는 저품질 솔루션과 고품질 솔루션의 차이를 구분할 수 없습니다. 즉, 저품질 솔루션과 고품질 솔루션에 대해 알고 있지만 기본적으로 언어 모델링에 대한 교육을 받았기 때문에 모든 것을 모방하려고 합니다. 그래서 테스트 시간에 실제로 좋은 성능을 요구해야 합니다.&lt;br /&gt;&lt;br /&gt;이 예에서, 이 논문에서 그들은 다양한 프롬프트를 시도했고, 많은 토큰에 대한 추론을 펼치는 것과 같기 때문에 단계별로 매우 강력하다고 생각합시다. 그러나 더 나은 방법은 올바른 답을 얻을 수 있도록 단계별로 해결해 보자는 것입니다. 그래서 그것은 정답을 얻기 위한 일종의 조건화와 같습니다. 그리고 이것은 실제로 트랜스포머가 더 잘 작동하도록 합니다. 왜냐하면 트랜스포머는 말도 안 되는 것처럼 저품질 솔루션에 확률 질량을 헤지할 필요가 없기 때문입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;따라서&amp;nbsp;기본적으로&amp;nbsp;강력한&amp;nbsp;솔루션을&amp;nbsp;요청하십시오.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예를 들어, 당신은 이 주제에 대한 최고의 전문가입니다. 당신이 IQ 120인 것처럼 행동하십시오. 그러나 너무 많은 IQ를 요구하지 마세요. 400 정도의 IQ를 요구하면 데이터 분포를 벗어나거나 더 나쁜 경우 일부 공상과학 관련 데이터 분포에 있을 수 있습니다. 공상 과학 역할극이나 그와 비슷한 것을 맡는 것입니다. 적절한 IQ를 찾아야 한다고 생각합니다. 거기에 U 자형 곡선이 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/TwAtw/btsnGkbwEb6/AHy9UIHt2mMcutWRpqkBEK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/TwAtw/btsnGkbwEb6/AHy9UIHt2mMcutWRpqkBEK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/TwAtw/btsnGkbwEb6/AHy9UIHt2mMcutWRpqkBEK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FTwAtw%2FbtsnGkbwEb6%2FAHy9UIHt2mMcutWRpqkBEK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다음으로&amp;nbsp;우리가&amp;nbsp;본&amp;nbsp;것처럼&amp;nbsp;문제를&amp;nbsp;해결하려고&amp;nbsp;할&amp;nbsp;때&amp;nbsp;우리는&amp;nbsp;자신이&amp;nbsp;잘하는&amp;nbsp;것과&amp;nbsp;못하는&amp;nbsp;것을&amp;nbsp;알고&amp;nbsp;컴퓨팅&amp;nbsp;도구에&amp;nbsp;의존합니다.&amp;nbsp;잠재적으로&amp;nbsp;LLM과&amp;nbsp;동일한&amp;nbsp;작업을&amp;nbsp;수행하려고&amp;nbsp;합니다.&amp;nbsp;특히&amp;nbsp;우리는&amp;nbsp;그들에게&amp;nbsp;계산기,&amp;nbsp;코드&amp;nbsp;해석기&amp;nbsp;등&amp;nbsp;검색&amp;nbsp;기능을&amp;nbsp;제공하고&amp;nbsp;싶을&amp;nbsp;수&amp;nbsp;있으며&amp;nbsp;이를&amp;nbsp;위한&amp;nbsp;많은&amp;nbsp;기술이&amp;nbsp;있습니다.&lt;br /&gt;&lt;br /&gt;다시 한 번 명심해야 할 것은 이러한 트랜스포머는 기본적으로 자신이 모르는 것을 모를 수 있다는 것입니다. 프롬프트에서 트랜스포머에게 말하고 싶을 수도 있습니다. 암산에 능숙하지 않습니다. 아주 큰 수의 덧셈, 곱셈 등을 해야 할 때마다 대신 이 계산기를 사용하세요. 다음은 계산기를 사용하는 방법입니다. 이 토큰 조합 등을 사용하십시오. 모델은 기본적으로 당신과 나처럼 자신이 잘하는 것과 못하는 것을 모르기 때문에 실제로 철자를 써야 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dq2wdy/btsnG0w8yDJ/KZ00XKhrw61Xax5FsNcHEk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dq2wdy/btsnG0w8yDJ/KZ00XKhrw61Xax5FsNcHEk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dq2wdy/btsnG0w8yDJ/KZ00XKhrw61Xax5FsNcHEk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fdq2wdy%2FbtsnG0w8yDJ%2FKZ00XKhrw61Xax5FsNcHEk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다음으로 매우 흥미로운 점은 우리가 검색만 가능한 세상에서 왔다는 것입니다. 끝까지 추는 LLM의 메모리에만 있는 다른 극단으로 흔들렸습니다. 그러나 실제로 이러한 검색 증강 모델(retrieval augmented models) 사이에는 전체 공간이 있으며 이는 실제로 매우 잘 작동합니다.&lt;br /&gt;&lt;br /&gt;내가 언급했듯이 트랜스포머의 컨텍스트 창은 작업 메모리입니다. 작업과 관련된 정보로 작업 메모리를 로드할 수 있다면 모델은 모든 메모리에 즉시 액세스할 수 있기 때문에 매우 잘 작동합니다. 그래서 많은 사람들이 기본적으로 검색 증강 세대(retrieval augmented generation)에 정말 관심이 있다고 생각합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그리고 하단에는 많은 다른 유형의 데이터에 대한 한 종류의 데이터 커넥터가 있는 LAMA 인덱스의 예가 있습니다. 그리고 그 모든 데이터를 인덱싱할 수 있고 LLM에서 액세스할 수 있도록 만들 수 있습니다.&lt;br /&gt;&lt;br /&gt;새로운 레시피는 관련 문서를 가져오고, 청크로 분할하고, 모두 삽입하고, 기본적으로 해당 데이터를 나타내는 삽입 벡터(embedding vectors)를 얻는 것입니다. 이를 벡터 저장소(vector store)에 저장한 다음 테스트 시간에 벡터 저장소에 일종의 쿼리를 만듭니다. 작업과 관련이 있을 수 있는 청크를 가져와 프롬프트에 입력한 다음 생성합니다. 이것은 실제로 잘 작동할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이것은 당신과 내가 문제를 해결할 때와 비슷하다고 생각합니다. 메모리에서 모든 것을 할 수 있고 트랜스포머는 매우 크고 광범위한 메모리를 가지고 있지만 일부 기본 문서를 참조하는 데 정말 도움이 됩니다. 무언가를 찾기 위해 교과서로 돌아가거나 무언가를 찾기 위해 라이브러리의 문서로 돌아가는 자신을 발견할 때마다 트랜스포머도 확실히 그렇게 하기를 원합니다. 라이브러리의 일부 문서가 작동하는 방식에 대해 약간의 기억이 있지만 찾아보는 것이 훨씬 좋습니다. 여기에도 동일하게 적용됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/uzVAL/btsnHS6yVXl/WpnINts04WpkPfXzMWpvkk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/uzVAL/btsnHS6yVXl/WpnINts04WpkPfXzMWpvkk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/uzVAL/btsnHS6yVXl/WpnINts04WpkPfXzMWpvkk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FuzVAL%2FbtsnHS6yVXl%2FWpnINts04WpkPfXzMWpvkk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다음으로 제약 프롬프팅(Constrained Promptin)에 대해 간단히 이야기하고 싶었습니다. 나는 또한 이것이 매우 흥미롭다고 생각합니다. 이것은 기본적으로 LLM의 출력에서 특정 템플릿을 시행하는 기술입니다. 지침은 실제로 Microsoft의 한 예입니다. 이제 LLM의 출력이 JSON이 되도록 강제합니다. 그리고 이것은 실제로 출력이 이 형식을 취한다는 것을 보장할 것입니다. 왜냐하면 그것들이 들어가서 트랜스포머에서 나오는 모든 다른 토큰의 확률을 엉망으로 만들고 그 토큰을 고정하기 때문입니다. 그런 다음 트랜스포머는 여기의 공백만 채우고 있습니다. 그런 다음 해당 공백에 들어갈 수 있는 항목에 대해 추가 제한을 적용할 수 있습니다.&lt;br /&gt;&lt;br /&gt;이것은 정말 도움이 될 수 있으며 이러한 종류의 제약 조건 샘플링도 매우 흥미롭다고 생각합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/7ZW6k/btsnYYqSbPu/7KrbPXMWN1SdSApBlCBVNk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/7ZW6k/btsnYYqSbPu/7KrbPXMWN1SdSApBlCBVNk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/7ZW6k/btsnYYqSbPu/7KrbPXMWN1SdSApBlCBVNk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F7ZW6k%2FbtsnYYqSbPu%2F7KrbPXMWN1SdSApBlCBVNk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;또한 fine-tuning에 대해 몇 마디 말하고 싶었습니다. 프롬프트 엔지니어링으로 정말 멀리 갈 수 있는 경우이지만 모델을 fine-tuning하는 것에 대해 생각할 수도 있습니다.&lt;br /&gt;&lt;br /&gt;이제 모델을 fine-tuning에한다는 것은 실제로 모델의 가중치를 변경한다는 의미입니다. 실제로 이를 수행하는 것이 훨씬 더 쉽게 접근할 수 있게 되었으며, 이는 최근에 개발되어 라이브러리가 있는 여러 기술 때문입니다.&lt;br /&gt;&lt;br /&gt;예를 들어 LoRA와 같은 매개변수 효율적인 fine-tuning 기술을 사용하면 모델의 작고 희소한 부분만 훈련하도록 할 수 있습니다. 대부분의 모델은 기본 모델에 고정되어 있으며 일부는 변경할 수 있습니다. 그리고 그것은 경험적으로 꽤 잘 작동하며 모델의 작은 부분만 조정하는 것이 훨씬 저렴합니다. 또한 대부분의 모델이 고정되어 있기 때문에 경사 하강법으로 업데이트되지 않기 때문에 해당 부분을 계산하는 데 매우 낮은 정밀도의 추론을 사용할 수 있습니다. 따라서 모든 것이 훨씬 더 효율적입니다.&lt;br /&gt;&lt;br /&gt;또한&amp;nbsp;제가&amp;nbsp;언급한&amp;nbsp;바와&amp;nbsp;같이&amp;nbsp;현재&amp;nbsp;다양한&amp;nbsp;오픈&amp;nbsp;소스&amp;nbsp;고품질&amp;nbsp;기반&amp;nbsp;모델을&amp;nbsp;보유하고&amp;nbsp;있습니다.&amp;nbsp;그리고&amp;nbsp;저는&amp;nbsp;LAMA가&amp;nbsp;꽤&amp;nbsp;좋다고&amp;nbsp;생각합니다.&amp;nbsp;비록&amp;nbsp;상업적으로&amp;nbsp;허가되지는&amp;nbsp;않았지만&amp;nbsp;지금&amp;nbsp;당장은&amp;nbsp;믿습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;명심해야 할 점은 기본적으로 fine-tuning은 기술적으로 훨씬 더 복잡하다는 것입니다. 제대로 하려면 훨씬 더 많은 기술적 전문성이 필요하다고 생각합니다. 꽤 복잡할 수 있는 데이터 세트 및/또는 합성 데이터 파이프라인(synthetic data pipelines)에 대한 인간 데이터 계약자가 필요합니다. 이렇게 하면 반복 주기가 확실히 느려집니다.&lt;br /&gt;&lt;br /&gt;그리고&amp;nbsp;높은&amp;nbsp;수준에서&amp;nbsp;SFT는&amp;nbsp;언어&amp;nbsp;모델링&amp;nbsp;작업을&amp;nbsp;계속하고&amp;nbsp;있기&amp;nbsp;때문에&amp;nbsp;달성할&amp;nbsp;수&amp;nbsp;있다고&amp;nbsp;말하고&amp;nbsp;싶습니다.&amp;nbsp;비교적&amp;nbsp;간단합니다.&amp;nbsp;그러나&amp;nbsp;RLHF는&amp;nbsp;매우&amp;nbsp;연구&amp;nbsp;영역이며&amp;nbsp;작업하기가&amp;nbsp;훨씬&amp;nbsp;더&amp;nbsp;어렵습니다.&amp;nbsp;따라서&amp;nbsp;누군가가&amp;nbsp;자신의&amp;nbsp;RLHF&amp;nbsp;구현을&amp;nbsp;시도한다고&amp;nbsp;조언하지&amp;nbsp;않을&amp;nbsp;것입니다.&amp;nbsp;이것들은&amp;nbsp;꽤&amp;nbsp;불안정하고&amp;nbsp;훈련하기가&amp;nbsp;매우&amp;nbsp;어렵습니다.&amp;nbsp;제&amp;nbsp;생각에&amp;nbsp;지금&amp;nbsp;당장은&amp;nbsp;매우&amp;nbsp;초보자에게&amp;nbsp;친숙한&amp;nbsp;것이&amp;nbsp;아닙니다.&amp;nbsp;그리고&amp;nbsp;잠재적으로&amp;nbsp;여전히&amp;nbsp;매우&amp;nbsp;빠르게&amp;nbsp;변할&amp;nbsp;가능성이&amp;nbsp;있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/yX8v0/btsnIKnkjMQ/1Qosb3yvZcKPgr7AaxNo8k/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/yX8v0/btsnIKnkjMQ/1Qosb3yvZcKPgr7AaxNo8k/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/yX8v0/btsnIKnkjMQ/1Qosb3yvZcKPgr7AaxNo8k/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FyX8v0%2FbtsnIKnkjMQ%2F1Qosb3yvZcKPgr7AaxNo8k%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;나는&amp;nbsp;이것이&amp;nbsp;바로&amp;nbsp;지금&amp;nbsp;내&amp;nbsp;일종의&amp;nbsp;기본&amp;nbsp;권장&amp;nbsp;사항이라고&amp;nbsp;생각합니다.&amp;nbsp;귀하의&amp;nbsp;작업을&amp;nbsp;두&amp;nbsp;가지&amp;nbsp;주요&amp;nbsp;부분으로&amp;nbsp;나눌&amp;nbsp;것입니다.&amp;nbsp;첫&amp;nbsp;번째는&amp;nbsp;최고의&amp;nbsp;성능을&amp;nbsp;달성하는&amp;nbsp;것이고,&amp;nbsp;두&amp;nbsp;번째는&amp;nbsp;이&amp;nbsp;순서대로&amp;nbsp;성능을&amp;nbsp;최적화하는&amp;nbsp;것입니다.&lt;br /&gt;&lt;br /&gt;첫째,&amp;nbsp;현재&amp;nbsp;최고의&amp;nbsp;성능은&amp;nbsp;GPT-4&amp;nbsp;모델에서&amp;nbsp;나옵니다.&amp;nbsp;지금까지&amp;nbsp;가장&amp;nbsp;유능합니다.&amp;nbsp;매우&amp;nbsp;상세한&amp;nbsp;프롬프트를&amp;nbsp;사용하십시오.&amp;nbsp;그들은&amp;nbsp;많은&amp;nbsp;작업&amp;nbsp;컨텍스트,&amp;nbsp;관련&amp;nbsp;정보&amp;nbsp;및&amp;nbsp;지침을&amp;nbsp;가지고&amp;nbsp;있습니다.&amp;nbsp;이메일로&amp;nbsp;답장을&amp;nbsp;보낼&amp;nbsp;수&amp;nbsp;없는&amp;nbsp;경우&amp;nbsp;작업&amp;nbsp;계약자에게&amp;nbsp;무엇을&amp;nbsp;말할&amp;nbsp;것인지&amp;nbsp;생각해&amp;nbsp;보십시오.&amp;nbsp;그러나&amp;nbsp;작업&amp;nbsp;계약자는&amp;nbsp;인간이며&amp;nbsp;내면의&amp;nbsp;독백이&amp;nbsp;있고&amp;nbsp;매우&amp;nbsp;영리하다는&amp;nbsp;점을&amp;nbsp;명심하십시오.&amp;nbsp;LLM은&amp;nbsp;이러한&amp;nbsp;자질을&amp;nbsp;가지고&amp;nbsp;있지&amp;nbsp;않으므로&amp;nbsp;LLM의&amp;nbsp;심리학을&amp;nbsp;거의&amp;nbsp;생각하고&amp;nbsp;이에&amp;nbsp;대한&amp;nbsp;프롬프트를&amp;nbsp;제공해야&amp;nbsp;합니다.&lt;br /&gt;&lt;br /&gt;관련 컨텍스트 및 정보를 이러한 프롬프트에 검색 및 추가하고 기본적으로 많은 프롬프트 엔지니어링 기술을 참조하십시오. 그 중 일부는 위의 슬라이드에 강조 표시되어 있지만 이 역시 공간이 매우 넓기 때문에 온라인에서 프롬프트 엔지니어링 기술을 찾아보라고 권하고 싶습니다. 거기에는 다루어야 할 것이 많습니다.&lt;br /&gt;&lt;br /&gt;몇&amp;nbsp;가지&amp;nbsp;간단한&amp;nbsp;예를&amp;nbsp;들어&amp;nbsp;실험해&amp;nbsp;보십시오.&amp;nbsp;이것이&amp;nbsp;말하는&amp;nbsp;것은&amp;nbsp;단지&amp;nbsp;말하고&amp;nbsp;싶은&amp;nbsp;것이&amp;nbsp;아니라&amp;nbsp;가능할&amp;nbsp;때마다&amp;nbsp;보여주고&amp;nbsp;싶다는&amp;nbsp;것입니다.&amp;nbsp;가능한&amp;nbsp;경우&amp;nbsp;사용자가&amp;nbsp;의미하는&amp;nbsp;바를&amp;nbsp;실제로&amp;nbsp;이해하는&amp;nbsp;데&amp;nbsp;도움이&amp;nbsp;되는&amp;nbsp;모든&amp;nbsp;예를&amp;nbsp;제공하십시오.&lt;br /&gt;&lt;br /&gt;도구와&amp;nbsp;플러그인을&amp;nbsp;실험하여&amp;nbsp;기본적으로&amp;nbsp;LLM에게&amp;nbsp;어려운&amp;nbsp;작업을&amp;nbsp;오프로드한&amp;nbsp;다음&amp;nbsp;단일&amp;nbsp;프롬프트&amp;nbsp;및&amp;nbsp;답변이&amp;nbsp;아닌&amp;nbsp;것에&amp;nbsp;대해&amp;nbsp;생각하십시오.&amp;nbsp;잠재적인&amp;nbsp;변화와&amp;nbsp;반영,&amp;nbsp;그것들을&amp;nbsp;함께&amp;nbsp;붙이는&amp;nbsp;방법,&amp;nbsp;잠재적으로&amp;nbsp;여러&amp;nbsp;샘플을&amp;nbsp;만들&amp;nbsp;수&amp;nbsp;있는&amp;nbsp;방법&amp;nbsp;등에&amp;nbsp;대해&amp;nbsp;생각해&amp;nbsp;보십시오.&lt;br /&gt;&lt;br /&gt;마지막으로, 잠시 동안 계속해야 할 프롬프트 엔지니어링을 짜냈다고 생각한다면 응용 프로그램에 맞게 모델을 잠재적으로 fine-tuning할 수 있는 몇 가지를 살펴보십시오. 그리고 여기에 전문가의 취약한 연구 영역이 있습니다. 저는 그것이 작동하도록 할 수 있다면 현재 SFT보다 약간 더 잘 작동하는 RLHF라고 말하고 싶습니다. 그러나 다시 말하지만 이것은 꽤 관련이 있습니다. 그리고 비용을 최적화하려면 더 낮은 용량 모델이나 더 짧은 프롬프트 등을 탐색하십시오.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/QcknR/btsnLa0cnOh/IEYWA5cvU6zZnEGgIkRih0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/QcknR/btsnLa0cnOh/IEYWA5cvU6zZnEGgIkRih0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/QcknR/btsnLa0cnOh/IEYWA5cvU6zZnEGgIkRih0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FQcknR%2FbtsnLa0cnOh%2FIEYWA5cvU6zZnEGgIkRih0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;또한 LLM이 현재 적합하다고 생각되는 사용 사례에 대해 몇 마디 말하고 싶었습니다. 특히 오늘날 LLM에는 많은 제한 사항이 있습니다. 그래서 저는 귀하의 모든 응용 프로그램에 대해 확실히 염두에 둘 것입니다. 그건 그렇고, 이것은 전체 연설이 될 수 있으므로 자세히 다룰 시간이 없습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;모델이 편향될 수 있습니다. 그들은 정보를 조작하고 환각(hallucinate) 시킬 수 있습니다. 추론 오류(resoning errors)가 있을 수 있습니다. 그들은 전체 종류의 응용 프로그램에 어려움을 겪을 수 있습니다. 그들은 지식 컷오프가 있기 때문에 예를 들어 2021년 9월에 대한 정보를 모를 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;프롬프트 주입(prompt injection), 탈옥 공격(jailbreak attacks), 데이터 중독 공격(data poisioning attacks)을 포함하여 매일 Twitter에 나오는 것과 같은 광범위한 공격에 취약합니다.&lt;br /&gt;&lt;br /&gt;지금&amp;nbsp;제가&amp;nbsp;추천하는&amp;nbsp;것은&amp;nbsp;저부담&amp;nbsp;애플리케이션에서&amp;nbsp;LLM을&amp;nbsp;사용하고,&amp;nbsp;항상&amp;nbsp;사람의&amp;nbsp;감독과&amp;nbsp;결합하고,&amp;nbsp;영감과&amp;nbsp;제안의&amp;nbsp;원천으로&amp;nbsp;사용하고,&amp;nbsp;어딘가에서&amp;nbsp;작업을&amp;nbsp;수행하는&amp;nbsp;완전히&amp;nbsp;자율적인&amp;nbsp;에이전트&amp;nbsp;대신&amp;nbsp;부조종사를&amp;nbsp;생각하는&amp;nbsp;것입니다.&amp;nbsp;모델이&amp;nbsp;지금&amp;nbsp;거기에&amp;nbsp;있는지는&amp;nbsp;확실하지&amp;nbsp;않습니다.&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dOnMzf/btsnLaMGfXR/klZpe10TUS81kKdG1p4KF0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dOnMzf/btsnLaMGfXR/klZpe10TUS81kKdG1p4KF0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dOnMzf/btsnLaMGfXR/klZpe10TUS81kKdG1p4KF0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdOnMzf%2FbtsnLaMGfXR%2FklZpe10TUS81kKdG1p4KF0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;GPT-4는 놀라운 인공물이라는 말로 마무리하고 싶었습니다. 그것이 존재한다는 것에 매우 감사하고 아름답습니다. 수학, 코딩 등을 할 수 있는 많은 영역에 걸쳐 엄청난 지식을 가지고 있습니다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bpneyd/btsnOenIOq7/kk4J4zS1U651VJEhsqi9GK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bpneyd/btsnOenIOq7/kk4J4zS1U651VJEhsqi9GK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bpneyd/btsnOenIOq7/kk4J4zS1U651VJEhsqi9GK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbpneyd%2FbtsnOenIOq7%2Fkk4J4zS1U651VJEhsqi9GK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;또한&amp;nbsp;생태계에&amp;nbsp;구축되고&amp;nbsp;통합되는&amp;nbsp;다른&amp;nbsp;모든&amp;nbsp;것의&amp;nbsp;번창하는&amp;nbsp;생태계가&amp;nbsp;있습니다.&amp;nbsp;제가&amp;nbsp;말한&amp;nbsp;것&amp;nbsp;중&amp;nbsp;일부입니다.&amp;nbsp;그리고&amp;nbsp;이&amp;nbsp;모든&amp;nbsp;기능을&amp;nbsp;손끝에서&amp;nbsp;사용할&amp;nbsp;수&amp;nbsp;있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b9Iwul/btsnYYdnXKp/lPUiW8ZUoNpV5nGYrghP6k/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b9Iwul/btsnYYdnXKp/lPUiW8ZUoNpV5nGYrghP6k/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b9Iwul/btsnYYdnXKp/lPUiW8ZUoNpV5nGYrghP6k/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb9Iwul%2FbtsnYYdnXKp%2FlPUiW8ZUoNpV5nGYrghP6k%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1143&quot; height=&quot;635&quot; data-origin-width=&quot;1143&quot; data-origin-height=&quot;635&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다음은&amp;nbsp;GPT-4에&amp;nbsp;질문을&amp;nbsp;하고&amp;nbsp;메시지를&amp;nbsp;표시하고&amp;nbsp;응답을&amp;nbsp;받기&amp;nbsp;위한&amp;nbsp;코드&amp;nbsp;측면에서&amp;nbsp;필요한&amp;nbsp;모든&amp;nbsp;것입니다.&amp;nbsp;이&amp;nbsp;경우&amp;nbsp;&quot;Microsoft&amp;nbsp;Build&amp;nbsp;2023의&amp;nbsp;청중에게&amp;nbsp;영감을&amp;nbsp;줄&amp;nbsp;수&amp;nbsp;있는&amp;nbsp;말을&amp;nbsp;할&amp;nbsp;수&amp;nbsp;있습니까?&quot;라고&amp;nbsp;물었습니다.&amp;nbsp;저는&amp;nbsp;이것을&amp;nbsp;Python에&amp;nbsp;입력했고&amp;nbsp;그대로&amp;nbsp;GPT-4는&amp;nbsp;다음과&amp;nbsp;같이&amp;nbsp;말했습니다.&lt;br /&gt;&lt;br /&gt;그리고 그나저나 기조연설에서 이 트릭을 사용했는지 몰랐기 때문에 제가 영리하다고 생각했습니다.&amp;nbsp; 하지만 이건 정말 잘해요.&lt;br /&gt;&lt;br /&gt;&amp;ldquo;신사숙녀&amp;nbsp;여러분,&amp;nbsp;Microsoft&amp;nbsp;Build&amp;nbsp;2023의&amp;nbsp;혁신가&amp;nbsp;및&amp;nbsp;선구자&amp;nbsp;여러분,&amp;nbsp;그&amp;nbsp;어느&amp;nbsp;때보다&amp;nbsp;뛰어난&amp;nbsp;인재들의&amp;nbsp;모임에&amp;nbsp;오신&amp;nbsp;것을&amp;nbsp;환영합니다.&amp;nbsp;여러분은&amp;nbsp;미래의&amp;nbsp;건축가이자&amp;nbsp;인류가&amp;nbsp;번성하는&amp;nbsp;디지털&amp;nbsp;영역을&amp;nbsp;형성하는&amp;nbsp;공상가입니다.&amp;nbsp;기술의&amp;nbsp;무한한&amp;nbsp;가능성을&amp;nbsp;받아들이고&amp;nbsp;아이디어가&amp;nbsp;상상만큼&amp;nbsp;높이&amp;nbsp;솟아오를&amp;nbsp;수&amp;nbsp;있도록&amp;nbsp;하십시오.&amp;nbsp;다음&amp;nbsp;세대를&amp;nbsp;위해&amp;nbsp;더욱&amp;nbsp;연결되고&amp;nbsp;놀랍고&amp;nbsp;포용적인&amp;nbsp;세상을&amp;nbsp;함께&amp;nbsp;만들어&amp;nbsp;갑시다.&amp;nbsp;창의력을&amp;nbsp;발휘하고&amp;nbsp;미지의&amp;nbsp;세계를&amp;nbsp;탐험하며&amp;nbsp;꿈을&amp;nbsp;현실로&amp;nbsp;만들&amp;nbsp;준비를&amp;nbsp;하세요.&amp;nbsp;당신의&amp;nbsp;여정은&amp;nbsp;오늘부터&amp;nbsp;시작됩니다.&amp;rdquo;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Generative AI</category>
      <category>GPT</category>
      <category>gpt4</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>prompt</category>
      <category>Prompt engineering</category>
      <category>RLHF</category>
      <category>언어모델</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/426</guid>
      <comments>https://yumdata.tistory.com/426#entry426comment</comments>
      <pubDate>Mon, 17 Jul 2023 16:07:07 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] 최신 LLM 교육을 위한 전력 요구 사항</title>
      <link>https://yumdata.tistory.com/425</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;최신 LLM 교육을 위한 전력 요구 사항&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM(Large Language Model)은 언어 이해 및 생성을 포함하여 인간의 언어 처리 기능을 모방하도록 설계된 컴퓨터 프로그램입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM은 텍스트 분류, 질문 응답 및 언어 번역과 같은 자연어 처리(NLP) 작업에 널리 사용됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그러나 이러한 모델의 교육에는 엄청난 양의 컴퓨팅 성능과 에너지 소비가 필요합니다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Large Language Model 및 전원 요구 사항&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM(&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Large Language Model)&lt;/span&gt;은 인간과 유사한 언어를 처리하고 생성할 수 있는 인공 지능 모델입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이러한 모델은 종종 테라바이트 또는 페타바이트 범위의 방대한 양의 데이터에 대해 훈련되며 수십억 개의 매개변수를 가질 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM은 일반적으로 supervised learning이라는 기술을 사용하여 훈련되며, 여기서 모델은 많은 양의 입력-출력 쌍을 입력하고 주어진 입력에 따라 출력을 예측하는 방법을 학습합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM의 훈련 프로세스는 계산 집약적이며 상당한 양의 컴퓨팅 성능이 필요합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;훈련 LLM에 필요한 전력 요구 사항은 모델 크기, 훈련 데이터 크기, 훈련 반복 횟수, 훈련에 사용되는 하드웨어와 같은 다양한 요인에 따라 달라집니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;일반적으로 모델 크기와 학습 데이터가 클수록 더 많은 컴퓨팅 성능이 필요합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;다양한 Large Language Model의 전력 소비&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;OpenAI에 따르면 15억 개의 매개변수가 있는 GPT-2는 355년의 단일 프로세서 컴퓨팅 시간이 필요하고 훈련하는 데 28,000kWh의 에너지를 소비했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이에 비해 1,750억 개의 매개변수가 있는 GPT-3는 355년의 단일 프로세서 컴퓨팅 시간이 필요했고 훈련하는 데 284,000kWh의 에너지를 소비했는데, 이는 GPT-2보다 10배 더 많은 에너지입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;3억 4천만 개의 매개변수가 있는 BERT는 64개의 TPU에서 4일 동안 훈련이 필요했고 1,536kWh의 에너지를 소비했습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;다른 크기의 언어 모델의 전력 소비&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM의 전력 소비는 모델 크기에 따라 크게 다릅니다. &lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;모델이 클수록 교육에 더 많은 컴퓨팅 성능과 에너지가 필요합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어, OpenAI는 284,000kWh의 에너지를 소비하는 1,750억 개의 매개변수로 GPT-3를 훈련했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;반면 파라미터가 15억개에 불과한 GPT-2는 2만8000kWh의 에너지만 소비했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;마찬가지로 1억 개 또는 100억 개의 매개변수가 있는 모델을 훈련하는 것보다 1억 개의 매개변수가 있는 모델을 교육하는 데 훨씬 적은 전력이 필요합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM와 다른 AI 애플리케이션의 전력 소비&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM은 상당한 양의 컴퓨팅 성능과 에너지를 필요로 하는 유일한 AI 애플리케이션이 아닙니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;컴퓨터 비전 모델 및 음성 인식 모델과 같은 다른 AI 애플리케이션에도 상당한 컴퓨팅 리소스가 필요합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그러나 LLM의 전력 요구 사항은 크기와 복잡성으로 인해 일반적으로 다른 AI 애플리케이션보다 높습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 1,750억 개의 매개변수가 있는 OpenAI의 GPT-3는 훈련하는 데 284,000kWh의 에너지를 소비합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이에 비해 2,500만 개의 매개변수가 있는 최첨단 컴퓨터 비전 모델인 ResNet-50은 훈련하는 데 1,500kWh의 에너지만 필요합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이는 LLM의 전력 요구 사항이 다른 AI 애플리케이션보다 훨씬 높다는 것을 나타냅니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM과 비 AI 애플리케이션의 전력 소비&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM의 전력 소비도 비 AI 애플리케이션보다 훨씬 높습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어, 데이터 센터나 제조 공장을 운영하려면 상당한 양의 에너지가 필요하지만 LLM을 훈련하는 것보다 여전히 적은 전력을 소비합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;매사추세츠 대학교 연구원의 연구에 따르면 17억 5천만 개의 매개변수로 대규모 언어 모델을 교육하면 최대 626,155파운드의 이산화탄소를 배출할 수 있으며 이는 자동차 5대가 평생 동안 배출하는 양과 맞먹습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;반면 5,000대의 서버가 있는 데이터 센터를 1년 동안 운영하는 데 필요한 에너지는 약 4,500톤의 이산화탄소를 배출하는 것으로 추정됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;미래: 에너지 효율성을 향하여&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM의 전력 요구 사항은 크기와 복잡성에 따라 증가합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그러나 이러한 모델은 훈련 중에 상당한 리소스를 소비함에도 불구하고 일단 훈련되면 놀라울 정도로 효율적일 수 있다는 점에 유의해야 합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 GPT-3을 사용하더라도 훈련된 모델에서 100페이지의 콘텐츠를 생성하는 데 드는 비용은 0.4kW-hr 정도이거나 에너지 비용은 몇 센트에 불과합니다(Brown 2020).&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;또한 이러한 모델이 훈련되면  zero-shot, one-shot 및 few-shot 설정에서 여러 작업에 걸쳐 유망한 결과를 보여줄 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 GPT-3는 다양한 설정에서 CoQA 및 TriviaQA에 대한 인상적인 정확도 점수를 달성했습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;결론&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;결론적으로 대규모 언어 모델(LLM)을 훈련하려면 상당한 양의 컴퓨팅 성능과 에너지가 필요합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM의 전력 요구 사항은 크기와 복잡성에 따라 증가합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM의 전력 소비는 일반적으로 다른 AI 애플리케이션 및 비 AI 애플리케이션보다 높습니다. 그러나 LLM의 에너지 소비는 비트코인 ​​채굴에 비해 상대적으로 적습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이러한 모델의 사용이 널리 보급됨에 따라 환경 영향을 최소화하기 위해 에너지 효율적인 알고리즘과 하드웨어를 개발하는 것이 중요합니다(Brown 2020). 이것은 빠르게 발전하는 분야이며 이 분야의 최근 발전을 주시하는 것이 좋습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;References&lt;/span&gt;&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://www.nnlabs.org/power-requirements-of-large-language-models/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.nnlabs.org/power-requirements-of-large-language-models/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/425</guid>
      <comments>https://yumdata.tistory.com/425#entry425comment</comments>
      <pubDate>Thu, 13 Jul 2023 15:32:37 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] PaLM (Pathways Language Model)</title>
      <link>https://yumdata.tistory.com/424</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;PaLM (Pathways Language Model) (2022.04)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Google, 540 billion parameters,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;&lt;a style=&quot;background-color: #f9f5ff; color: #1779ba; text-align: start;&quot; href=&quot;https://developers.googleblog.com/2023/03/announcing-palm-api-and-makersuite.html&quot;&gt;&lt;b&gt;available via API&lt;/b&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-filename=&quot;image8.gif&quot; data-origin-width=&quot;1600&quot; data-origin-height=&quot;583&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/RtZDr/btsnvEthDYh/9FDLueki3uU5ZXVhZXelPk/img.gif&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/RtZDr/btsnvEthDYh/9FDLueki3uU5ZXVhZXelPk/img.gif&quot; data-alt=&quot;As the scale of the model increases, the performance improves across tasks while also unlocking new capabilities.&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/RtZDr/btsnvEthDYh/9FDLueki3uU5ZXVhZXelPk/img.gif&quot; srcset=&quot;https://blog.kakaocdn.net/dn/RtZDr/btsnvEthDYh/9FDLueki3uU5ZXVhZXelPk/img.gif&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1600&quot; height=&quot;583&quot; data-filename=&quot;image8.gif&quot; data-origin-width=&quot;1600&quot; data-origin-height=&quot;583&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;As the scale of the model increases, the performance improves across tasks while also unlocking new capabilities.&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;다양한 작업을 처리하고 새로운 작업을 빠르게 학습할 수 있는 모델을 구축하는 것을 목표로 하는 Google의 &lt;a style=&quot;background-color: #f9f5ff; color: #1779ba; text-align: start;&quot; href=&quot;https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/&quot;&gt;&lt;span&gt;Pathways AI architecture&lt;/span&gt;&lt;/a&gt;를 기반으로 합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;PaLM은 경로 시스템으로 훈련된 5,400억 개의 매개변수 모델로, 수백 가지 언어 관련 작업을 수행할 수 있으며 (출시 당시) 많은 작업에서 최첨단 성능을 달성했습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;PaLM의 놀라운 기능 중 하나는 농담 설명과 같은 여러 복잡한 논리적 단계가 필요한 시나리오에 대한 설명을 생성하는 것이었습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;720&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/GlKSC/btsnwqurEVI/64pBzgHRRsur51DRZHUKsk/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/GlKSC/btsnwqurEVI/64pBzgHRRsur51DRZHUKsk/img.jpg&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/GlKSC/btsnwqurEVI/64pBzgHRRsur51DRZHUKsk/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FGlKSC%2FbtsnwqurEVI%2F64pBzgHRRsur51DRZHUKsk%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1280&quot; height=&quot;720&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;720&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://dataconomy.com/2022/04/28/google-ai-pathways-language-model/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://dataconomy.com/2022/04/28/google-ai-pathways-language-model/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Foundation Model</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>Palm</category>
      <category>Pathways Language Model</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/424</guid>
      <comments>https://yumdata.tistory.com/424#entry424comment</comments>
      <pubDate>Thu, 13 Jul 2023 14:56:17 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] Llama 2 (Large Langauge Model Meta AI)</title>
      <link>https://yumdata.tistory.com/423</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #1c2b33; text-align: center;&quot;&gt;Llama 2&lt;/span&gt;&amp;nbsp;(2023.02)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Large Language Model Meta AI&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Meta AI, Multiple Sizes, downloadable by application&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://ai.meta.com/llama/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://ai.meta.com/llama/&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1692353822226&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Llama 2 - Meta AI&quot; data-og-description=&quot;We have a broad range of supporters around the world who believe in our open approach to today&amp;rsquo;s AI &amp;mdash; companies that have given early feedback and are excited to build with Llama 2, cloud providers that will include the model as part of their offering &quot; data-og-host=&quot;ai.meta.com&quot; data-og-source-url=&quot;https://ai.meta.com/llama/&quot; data-og-url=&quot;https://ai.meta.com/llama/&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/e9CHx/hyTFlbixXs/oBzyhXj5FJrjM2Efgc5wE0/img.jpg?width=1920&amp;amp;height=1080&amp;amp;face=0_0_1920_1080,https://scrap.kakaocdn.net/dn/Nvp3o/hyTFgnwbWx/YkDS5QrjnUgWrssJ2Xdook/img.jpg?width=1920&amp;amp;height=1080&amp;amp;face=0_0_1920_1080,https://scrap.kakaocdn.net/dn/hYMIW/hyTFoy5Ku9/i3Ida0GdHh7lMQwvbwvt10/img.jpg?width=3249&amp;amp;height=1944&amp;amp;face=0_0_3249_1944&quot;&gt;&lt;a href=&quot;https://ai.meta.com/llama/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://ai.meta.com/llama/&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/e9CHx/hyTFlbixXs/oBzyhXj5FJrjM2Efgc5wE0/img.jpg?width=1920&amp;amp;height=1080&amp;amp;face=0_0_1920_1080,https://scrap.kakaocdn.net/dn/Nvp3o/hyTFgnwbWx/YkDS5QrjnUgWrssJ2Xdook/img.jpg?width=1920&amp;amp;height=1080&amp;amp;face=0_0_1920_1080,https://scrap.kakaocdn.net/dn/hYMIW/hyTFoy5Ku9/i3Ida0GdHh7lMQwvbwvt10/img.jpg?width=3249&amp;amp;height=1944&amp;amp;face=0_0_3249_1944');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Llama 2 - Meta AI&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;We have a broad range of supporters around the world who believe in our open approach to today&amp;rsquo;s AI &amp;mdash; companies that have given early feedback and are excited to build with Llama 2, cloud providers that will include the model as part of their offering&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;ai.meta.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Llama는 &amp;lsquo;Large Language Model Meta AI&amp;rsquo;의 약자로, Meta AI에서 공개한 대규모 AI 언어 모델입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Llama&lt;/span&gt;&amp;nbsp;2 모델은 70억에서 650억 매개변수에 이르는 다양한 매개변수 크기로 제공됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Meta는 &lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Llama&lt;/span&gt;가 대형 모델을 교육하는 데 필요한 컴퓨팅 성능으로 인해 방해를 받아온 현장에 대한 액세스를 민주화하는 데 도움이 될 수 있다고 주장합니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;다른 LLM과 마찬가지로 이 모델은 일련의 단어를 입력으로 사용하여 작동하고 텍스트를 재귀적으로 생성하기 위해 다음 단어를 예측합니다. &lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;모델에 대한 액세스는 연구원, 정부 산하기관, 학계 종사자 및 Meta에 지원서를 제출한 후에만 사용할 수 있습니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;메타가 이 모델을 한정적인 학술 연구원을 대상으로 공개한 것이 알파카(Alpaca), 비큐냐(Vicuna) 등의 수많은 파생형 모델들의 탄생에 기여했다고 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;img style=&quot;text-align: center; caret-color: transparent; color: #333333; font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot; src=&quot;https://blog.kakaocdn.net/dn/cTYkqg/btsrB3bhPKk/OpGRgj6kfd4oKn4eHCZQi0/img.png&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;754&quot; data-is-animation=&quot;false&quot; /&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;이미지 출처:&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot;&gt;(논문)&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a style=&quot;color: #0070d1;&quot; href=&quot;https://arxiv.org/abs/2303.18223?fbclid=IwAR1o9DcsIuJ-_ZBHl8z7PWpxUDfTbGDHr_Drb2w3JtC5cfuE07na7q1Zhsw&amp;amp;mibextid=S66gvF%20&quot;&gt;A Survey of Large Language Models&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Llama 강점 - 왜 집중받고 있는가.&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;상업적으로도 이용 가능한 오픈 소스&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;메타는 &lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Llama&lt;/span&gt;의 다음 버전인 &lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Llama 2&lt;/span&gt;를 소개하면서 다음과 같이 말을 했습니다.&lt;/span&gt;&lt;/p&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;소프트웨어가 개방돼 있으면 더 많은 사람이 빠르게 문제를 찾아내고 식별하고 해결할 수 있어 안전과 보안을 향상시킬 수 있다.&lt;br /&gt;- 마크 저커버그(메타 CEO)&lt;/blockquote&gt;
&lt;p style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이처럼 메타는 &lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Llama 2&lt;/span&gt;를 상업적으로도 이용 가능한 오픈 소스로 공개했습니다&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;경량화&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Llama 2&lt;/span&gt;는 매개변수 규모에 따라 세 가지 모델(70억 개, 130억 개, 700억 개)로 제공됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 거대 컴퓨팅 자원을 갖출 수 없는 신생 기업이나 개발자도 적절한 모델을 선택해 연구 및 상업적 활용을 가능하도록 했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 윤리와 책임성(Responsible AI)에 대해 사회적 관심이 높은 만큼, 안전성과 유용성에 대한 보상 모델을 제작한 것 또한 의미가 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 style=&quot;background-color: #ffffff; color: #232323; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Llama 2 특징&lt;/span&gt;&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;3249&quot; data-origin-height=&quot;1944&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bhzWev/btsrBpMVYPJ/1ANJGrUUmCEMXXO1K19OCk/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bhzWev/btsrBpMVYPJ/1ANJGrUUmCEMXXO1K19OCk/img.jpg&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bhzWev/btsrBpMVYPJ/1ANJGrUUmCEMXXO1K19OCk/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbhzWev%2FbtsrBpMVYPJ%2F1ANJGrUUmCEMXXO1K19OCk%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;606&quot; height=&quot;363&quot; data-origin-width=&quot;3249&quot; data-origin-height=&quot;1944&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Llama&lt;/span&gt;&amp;nbsp;2는 기존 버전보다 40% 더 많은 2조 개의 토큰으로 학습되었습니다.(1.4T&amp;rarr;2T 토큰).&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;컨텍스트 길이도 2배 증가한 4095으로 설정됐습니다.(2K&amp;rarr;4K).&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;매개변수 규모에 따라 세 가지 모델이 제공됩니다.(Llama-2-7B, 13B, 70B).&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;fine-tuning된 모델은 100만 개 이상의 인간 주석에 대해 훈련되었습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;안전성(Safety)과 유용성(Helpfulness)을 위한 두 보상 모델(Rewards Model, RM)을 만들었습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;추론, 코딩, 지식 태스크를 포함하는 벤치마크 테스트에서 &amp;lsquo;MPT&amp;rsquo;, &amp;lsquo;Falcon&amp;rsquo; 등의 타 LLM들보다 성능이 뛰어납니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;무료로 상업적 이용이 가능합니다. &lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;단, 월간 활성 사용자(MAU)가 7억 명의 회사가 활용할 경우 메타와 별도의 라이센스 계약이 필요합니다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Llama 2는 추론, 코딩, 숙련도 및 지식 테스트를 포함한 많은 외부 벤치마크에서 다른 오픈 소스 언어 모델보다 성능이 뛰어나다고 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;2158&quot; data-origin-height=&quot;2266&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cOOSAM/btsrBNG2EL8/Kew2P9bVcNVZPO1p8hABh0/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cOOSAM/btsrBNG2EL8/Kew2P9bVcNVZPO1p8hABh0/img.jpg&quot; data-alt=&quot;https://ai.meta.com/llama/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cOOSAM/btsrBNG2EL8/Kew2P9bVcNVZPO1p8hABh0/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcOOSAM%2FbtsrBNG2EL8%2FKew2P9bVcNVZPO1p8hABh0%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;2158&quot; height=&quot;2266&quot; data-origin-width=&quot;2158&quot; data-origin-height=&quot;2266&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://ai.meta.com/llama/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;References&lt;/span&gt;&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://modulabs.co.kr/blog/llama-2-intro/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://modulabs.co.kr/blog/llama-2-intro/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Foundation Model</category>
      <category>Large Language Model</category>
      <category>llama</category>
      <category>LLM</category>
      <category>meta ai</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/423</guid>
      <comments>https://yumdata.tistory.com/423#entry423comment</comments>
      <pubDate>Thu, 13 Jul 2023 14:45:18 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] MT-NLG</title>
      <link>https://yumdata.tistory.com/422</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;MT-NLG (Megatron-Turing Nature Language Generation) (2021.10)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Nvidia / Microsoft, 530 billion parameters,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;&lt;a style=&quot;background-color: #f9f5ff; color: #1779ba; text-align: start;&quot; href=&quot;https://developer.nvidia.com/megatron-turing-natural-language-generation&quot;&gt;&lt;b&gt;API Access&lt;/b&gt;&lt;/a&gt;&lt;b&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;by application&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Transformer-based &lt;a style=&quot;background-color: #f9f5ff; color: #1779ba; text-align: start;&quot; href=&quot;https://github.com/NVIDIA/Megatron-LM&quot;&gt;&lt;span&gt;Megatron&lt;/span&gt;&lt;/a&gt;의 아키텍처를 사용하였습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;완료 예측, 독해, 상식 추론, 자연 언어 추론, 단어 의미 명확화가 가능합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Foundation Model</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>MT-NLG</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/422</guid>
      <comments>https://yumdata.tistory.com/422#entry422comment</comments>
      <pubDate>Thu, 13 Jul 2023 14:42:21 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] LaMDA</title>
      <link>https://yumdata.tistory.com/421</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;LaMDA &lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;(Language Model for Dialogue Applications) (2021.05)&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Google, 173 billion parameters, Not Open Source, No API or Downloads&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;약 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;1370&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;억개의&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 파라미터&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;약 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;30&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;억개의&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 문서&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;, 11&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;억개의&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 대화를 사전학습 데이터로 사용&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: left;&quot;&gt;사용자와 보다 자연스럽고 매력적인 대화를 할 수 있도록 설계된 모델입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: left;&quot;&gt;LaMDA가 다른 언어 모델과 차별화되는 점은 LaMDA가 대화에 대해 훈련되었고 모델이 다른 유형의 언어와 구분되는 개방형 토론(&lt;/span&gt;&lt;span style=&quot;color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;open-ended discussions)&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;을 설정하는 다양한 미묘함을 식별할 수 있다는 사실입니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LaMDA의 잠재적 사용 사례는 고객 서비스 및 챗봇에서 개인 비서 등에 이르기까지 다양합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LaMDA 자체는 &lt;a href=&quot;https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Meena라는 이전 Google Chatbot&lt;/a&gt;을 기반으로 합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LaMDA가 제공하는 대화형 서비스는 &lt;a href=&quot;https://blog.google/technology/ai/bard-google-ai-search-updates/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;BARD&lt;/a&gt;라고 하며 '곧' API를 통해 제공될 예정입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Foundation Model</category>
      <category>Lamda</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/421</guid>
      <comments>https://yumdata.tistory.com/421#entry421comment</comments>
      <pubDate>Thu, 13 Jul 2023 14:38:38 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] ChatGPT</title>
      <link>https://yumdata.tistory.com/420</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;ChatGPT (2022.11.30)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;OpenAI, 20 billion parameters, Not Open Source, API Access Only&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;대규모 언어모델(LLM, Large Language Model)에 기반한 대화형 인공지능 서비스&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;ChatGPT는 텍스트 전용 모델이며 2022년 11월 Open AI에서 출시했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;일반적으로 GPT-4가 더 나은 성능을 나타내지만 GPT-4가 할 수 있는 많은 텍스트 기반 기능을 수행할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;ChatGPT는 InstructGPT의 형제 모델입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;InstructGPT 자체는 프롬프트를 수신하고 특정 지침을 따르는 자세한 응답을 제공하도록 특별히 훈련되었으며 ChatGPT는 자연어 대화에 참여하도록 설계되었습니다. &lt;br /&gt;OpenAI는 더 많은 LLM 사용 사례를 잠금 해제하는 최근 발표된 ChatGPT 플러그인과 같은 업데이트 및 새로운 기능을 자주 푸시합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;ChatGPT에 대한 기본(non-peak) 액세스에는 구독이 필요하지 않으므로 개인 프로젝트나 실험에 적합합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;피크 시간에도 일반 액세스가 필요한 경우 ChatGPT 플러스 구독이 필요합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1260&quot; data-origin-height=&quot;874&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/nAMko/btsnqvwZqG2/KKiT9L2iMfNSgL6NBc8Vx0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/nAMko/btsnqvwZqG2/KKiT9L2iMfNSgL6NBc8Vx0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/nAMko/btsnqvwZqG2/KKiT9L2iMfNSgL6NBc8Vx0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FnAMko%2FbtsnqvwZqG2%2FKKiT9L2iMfNSgL6NBc8Vx0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1260&quot; height=&quot;874&quot; data-origin-width=&quot;1260&quot; data-origin-height=&quot;874&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;u&gt;GPT3.5&lt;/u&gt;&lt;u&gt;, 1750&lt;/u&gt;&lt;u&gt;억 개의&amp;nbsp;파라미터&lt;/u&gt;&lt;u&gt;(&lt;/u&gt;&lt;u&gt;매개변수&lt;/u&gt;&lt;u&gt;)&lt;/u&gt;&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;GPT-3&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;는 &lt;/span&gt;&lt;span style=&quot;color: #ff0000;&quot;&gt;&amp;lsquo;규모를 키우면 무엇이든 할 수 &lt;/span&gt;&lt;span style=&quot;color: #ff0000;&quot;&gt;있다&amp;rsquo;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;는&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 가능성을 보여줬습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;In-Context Learning&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;을 활용하여 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Few-Shot Learning&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;으로&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 다양한 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Task&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;에서 높은 성능을 보입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #ff0000;&quot;&gt;그러나&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;,&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;막대한 학습 비용이 듭니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;인터넷으로 학습한 모델들은 인터넷의 크기만큼 방대한 편향을 가지고 있습니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;온라인 상에 존재하는 수많은 가짜 정보와 편견을 그대로 학습했습니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;학습에 사용된 예제를 외우고 패턴을 분석&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;학습하는 것이지 실제로 추론해내는 것이 아닙니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;진짜 일상 대화는 전혀 못합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;간단한 논리에도 약하고 상식도 없습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실시간은 고사하고 최근 정보도 모릅니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;완전히 틀린 오답을 진짜처럼 얘기합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;ChatGPT 학습 과정&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #121717;&quot;&gt;먼저 지시문에 따라 결과를 완성하는 초기 모델을 완성한 후&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;,&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #121717;&quot;&gt;사람의 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;feedback&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #121717;&quot;&gt;을 모사하는 보상 모델&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;reward model)&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #121717;&quot;&gt;을 확보하여&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #121717;&quot;&gt;이를 통해 초기 모델이&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #ee2323;&quot;&gt;사람이 더 선호하는 결과를 추론하도록 강화학습&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #121717;&quot;&gt;을 진행하였습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Supervised Learning의 경우&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;인간 트레이너가 사용자와 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;ChatGPT&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;양쪽 모두를 연기하는 대화가 모델에 입력되었습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Reinforcement Learning 단계에서는 인간 트레이너들이 먼저 모델이 이전 대화에서 만든 응답들에 순위를 매겼습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;한 번에 영어 기준 &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;3,000&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;개 정도 단어를 처리하고,&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;약 &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;8,000&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;개 단어&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;책 &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;4~5&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;페이지&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;,&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt; 토큰 &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;4,096)&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;를&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt; 기억해 대화를 나눕니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1156&quot; data-origin-height=&quot;692&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cuangd/btsnvXsgBJE/kiQ6aPe8QTalldz9wkgjb1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cuangd/btsnvXsgBJE/kiQ6aPe8QTalldz9wkgjb1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cuangd/btsnvXsgBJE/kiQ6aPe8QTalldz9wkgjb1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fcuangd%2FbtsnvXsgBJE%2FkiQ6aPe8QTalldz9wkgjb1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1156&quot; height=&quot;692&quot; data-origin-width=&quot;1156&quot; data-origin-height=&quot;692&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;Step 1.&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;예제 데이터 수집 후 &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;supervised policy&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;를&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt; 학습 (3,000억 개 이상의 단어 입력)&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;=&amp;gt; &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;SFT(Supervised fine-tuning) &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;모델 확보&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;인간&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt; AI &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;트레이너가 사용자와 &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;AI &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;어시스턴트&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;생성자 및 &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;판별자&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;)&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;로서 양쪽 모두에 입력을 제공했습니다&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;Step 2. &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;결과물에 대한 사람의 선호도 데이터를 학습 &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;=&amp;gt; &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;Reward Model &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;확보&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;사람이 무작위로 선택된 모델 작성 메시지를 검토하고 모델의 다양한 완성도에 순위를 매긴 다음 이를 다시 &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;GAN&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;에 입력하여 보상 모델을 추가로 학습시켰습니다&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #6d7777;&quot;&gt;&lt;br /&gt;&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;Step 3. &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;강화학습을 사용해 &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;Reward Model&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;에 대해 &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;policy&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;를&lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt; 최적화 &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;=&amp;gt; &lt;/span&gt;&lt;span style=&quot;font-family: NanumGothic; color: #000000;&quot;&gt;InstructGPT&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://littlefoxdiary.tistory.com/101&quot;&gt;https://littlefoxdiary.tistory.com/101&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>ChatGPT</category>
      <category>Foundation Model</category>
      <category>Generative AI</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>챗GPT</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/420</guid>
      <comments>https://yumdata.tistory.com/420#entry420comment</comments>
      <pubDate>Thu, 13 Jul 2023 14:12:14 +0900</pubDate>
    </item>
    <item>
      <title>[Prompt Engineering] RAG(Retrieval Augmented Generation)</title>
      <link>https://yumdata.tistory.com/419</link>
      <description>&lt;h2 style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks&lt;/h2&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;논문:&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a style=&quot;color: #0070d1;&quot; href=&quot;https://arxiv.org/abs/2005.11401&quot;&gt;Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1691408616121&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks&quot; data-og-description=&quot;Large pre-trained language models have been shown to store factual knowledge in their parameters, and achieve state-of-the-art results when fine-tuned on downstream NLP tasks. However, their ability to access and precisely manipulate knowledge is still lim&quot; data-og-host=&quot;arxiv.org&quot; data-og-source-url=&quot;https://arxiv.org/abs/2005.11401&quot; data-og-url=&quot;https://arxiv.org/abs/2005.11401v4&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/cgf8jM/hyTzaO3iLs/zo0Y9TE7z7lwGCJ86BHRW0/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/bl9HfQ/hyTzdrusZ0/gtHQT03Ky5Alow5RVMlOkK/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2005.11401&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://arxiv.org/abs/2005.11401&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/cgf8jM/hyTzaO3iLs/zo0Y9TE7z7lwGCJ86BHRW0/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/bl9HfQ/hyTzdrusZ0/gtHQT03Ky5Alow5RVMlOkK/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Large pre-trained language models have been shown to store factual knowledge in their parameters, and achieve state-of-the-art results when fine-tuned on downstream NLP tasks. However, their ability to access and precisely manipulate knowledge is still lim&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;arxiv.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start; color: #000000;&quot;&gt;2020 NIPS에 발표&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start; color: #000000;&quot;&gt;pre-training으로 미처 parameterize하지 못한 외부의 지식들을 활용할 수 있는 general한 seq2seq 구조를 제안한 논문&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: justify;&quot;&gt;a versatile pattern that can unlock a number of use cases requiring factual recall of information, such as querying a knowledge base in natural language.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;자연어로 기술 자료를 쿼리하는 것과 같이 사실에 입각한 정보 회수가 필요한 다양한 사용 사례를 잠금 해제할 수 있는 다목적 패턴&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;ChatGPT의 경우 2021년 9월까지의 데이터를 기준으로 학습하였습니다. 그러나, 21년 9월 이후의 정보에 대해서도 응답을 생성해서 질문에 답을 합니다. 이는 Hallucination(환각)이라고 부르는데, 이것은 ChatGPT에서 사용한 GPT 모델이 &quot;auto-regression LLM&quot;이기 때문입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: left;&quot;&gt;Auto-Regression LLM은 이전 단어를 보고 가장 높은 확률의 단어를 다음 단어로 예측하므로 단어의 순서에 따라 얼마든지 다른 답변을 출력할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;즉, 학습한 정보에 해답이 없더라도, 학습한 방식을 기준으로 확률적으로 그럴 듯한 응답을 생성합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;그러나, 최신의 지식 정보를 기준으로 정확한 답변을 전달해야 하는 요구사항이 있는 경우, LLM을 재학습하지 않고 RAG를 사용해서 언어 모델이 정확한 응답을 하게 할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;RAG를 사용하면,&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;사용자 질문에 해당되는 응답 정보의 문서 정보를 미리 저장한 Vector Score에서 검색하고, 그 검색 결과에 해당되는 본문을 LLM에 전달하여, LLM이 생성한 본문의 요약된 결과를 사용자에게 응답하는 방식입니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;가장 간단한 형태의 RAG 3단계&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc; background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Index knowledge base passages (once): 지식&amp;nbsp;기반&amp;nbsp;구절&amp;nbsp;색인화(1회)&lt;/li&gt;
&lt;li&gt;Retrieve relevant passage(s) from knowledge base (for every user query): 기술&amp;nbsp;자료에서&amp;nbsp;관련&amp;nbsp;구절&amp;nbsp;검색(모든&amp;nbsp;사용자&amp;nbsp;쿼리에&amp;nbsp;대해)&lt;/li&gt;
&lt;li&gt;Generate a response by feeding retrieved passage into a large language model (for every user query): 검색된&amp;nbsp;구절을&amp;nbsp;대규모&amp;nbsp;언어&amp;nbsp;모델에&amp;nbsp;공급하여&amp;nbsp;응답&amp;nbsp;생성(모든&amp;nbsp;사용자&amp;nbsp;쿼리에&amp;nbsp;대해)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Conversational Search&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Phase #1. Ingest your own data (자체 데이터 수집)&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;원본 파일에서 문서 데이터 추출&lt;/li&gt;
&lt;li&gt;문서를 청크 단위로 구분&lt;/li&gt;
&lt;li&gt;청크를 임베딩화&lt;/li&gt;
&lt;li&gt;임베딩을 벡터 저장소에 저장&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Phase #2. Query your documents (문서 쿼리)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp; &amp;nbsp;(a) 임베딩에 대한 쿼리&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp; &amp;nbsp;(b) 가장 일치하는 청크를 얻기&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp; &amp;nbsp;(c) 프롬프트를 작성해서 LLM에 전달&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp; &amp;nbsp;(d) LLM의 응답을 사용자에게 전달&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;355&quot; data-origin-height=&quot;192&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/4kbBm/btsnWEnstVQ/bGBgkDA56CFNMLfo49gcTk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/4kbBm/btsnWEnstVQ/bGBgkDA56CFNMLfo49gcTk/img.png&quot; data-alt=&quot;Query your documents&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/4kbBm/btsnWEnstVQ/bGBgkDA56CFNMLfo49gcTk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F4kbBm%2FbtsnWEnstVQ%2FbGBgkDA56CFNMLfo49gcTk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;320&quot; height=&quot;192&quot; data-origin-width=&quot;355&quot; data-origin-height=&quot;192&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Query your documents&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;개요&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;Pre-trained 언어 모델은 factual knowledge를 매개변수에 저장하고 downstream NLP task에 대해 fine-tuning을 수행할 때 좋은 결과를 얻는것으로 나타났습니다. &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;그러나 knowledge에 접근하고 정확하게 조작하는 것은 여전히 제한되어 있으므로 &lt;/span&gt;&lt;b&gt;knowledge-intensive&lt;/b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;&amp;nbsp;&lt;b&gt;task&lt;/b&gt;에 대해서는 task-specific architecture보다 성능이 떨어집니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;언어 생성을 위해 Pre-trained model(parametic memory)과 non-parametric memory(=retrieval-based)를 결합한 &lt;b&gt;Retrieval-Augmented Generation(RAG)&lt;/b&gt;를 제안하고 범용적인 fine-tuning 방법에 대해 제안합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;이는, 광범위하고 지식집약적인 NLP task에서 모델을 평가하고 3개의 Open-domain QA Task에서 seq2seq model 및 task-specific retrieve&amp;amp;extract architecture보다 더 우수한 성능을 보여줍니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;Language Generation task의 경우 RAG model이 SotA seq2seq baseline보다 더 구체적이고 다양하며 사실적인 언어를 생성하는것을 보여줍니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Pre-trained 언어 모델은 암시적인 지식기반으로서 외부 메모리에 접근하지 않고도 Pre-train 과정을 통해 많은 지식을 배우는 것으로 나타났지만, 메모리를 쉽게 확장하거나 수정할 수 없으며 예측에 대한 통찰력을 직접적으로 제공할 수 없는 단점이 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Parametric memory와 non-Parametric memory를 결합한 model은 지식을 수정하고 확장할 수 있으며 해석할 수 있기 때문에 이러한 문제 중 일부를 해결했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;최근에 제안된 REALM 및 ORQA는 좋은 결과를 보여주었지만 Open-domain extractive QA에 대해서는 성능평가를 하였습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;본 논문에서는 RAG(Retrieval-Augmented Generation)를 제안하며 이는 general-purpose fine-tuning approach를 통해 non-parametric memory를 사용한 pre-trained parametric memory generation model입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;여기서 parametric memory는 Pre-trained seq2seq transformer이고 non-parametric memory는 pre-trained neural retriever를 사용하는 wikipedia의 dense vector index입니다. &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이러한 요소들은 end-to-end probabilistic model로 결합합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Document retriever는 입력(Query)을 통해 latent document를 제공하고 seq2seq model은 latent document와 입력(Query)을 통해 출력을 생성합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Answer basis 또는 answer token basis를 기준으로 top-k 근사치를 통해 latent variable을 marginalization 합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;T5 및 BART와 마찬가지로 RAG는 seq2seq task에서 fine-tuning되기 때문에 sequence genetor와 retriever가 함께 학습됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;본 논문에서는 광범위하고 지식 집약적인 task에 대해 RAG를 실험합니다. 모든 실험에서 Wikipedia 덤프(18년 12월)를 사용하고 100-word chnunk로 분할하여 총 21,015,324개의 document를 만듭니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;DPR document encoder를 사용하여 각 document에 대한 document embedding을 계산하고 (inference:)효율적인 검색을 위해 Hierarchical Navigable Small World approximation를 사용하는 FAISS를 통해 단일 index를 만듭니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;Parameterizing&lt;/b&gt; : 모델의 가중치에 지식을 주입하는 과정입니다. 우리가 다양한 목적함수를 바탕으로 Large Language Model을 Pre-training하는 이유가 결국 knowledge를 parameterizing하기 위함이라고 볼 수 있습니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Knowledge Intensive Tasks&lt;/b&gt; : 사람조차도 외부지식 (ex. 위키피디아 검색) 없이 해결하기 어려운 문제를 일컫습니다. 즉 모델의 관점에서 보면, parameterized되지 못한 외부 지식이 필요한 문제입니다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;MIPS&lt;/b&gt; : Maximum Inner Product Search의 약어로, 우리에게 vector space에 mapping된 query&amp;nbsp;&lt;span aria-hidden=&quot;true&quot;&gt;x&lt;/span&gt;&amp;nbsp;가 있고 여러 외부 정보들&amp;nbsp;&lt;span aria-hidden=&quot;true&quot;&gt;di​&lt;/span&gt;가 있다고 가정할 때 query&amp;nbsp;&lt;span aria-hidden=&quot;true&quot;&gt;x&lt;/span&gt;와 내적(or 코사인 유사도)가 높은 외부 정보들&amp;nbsp;&lt;span aria-hidden=&quot;true&quot;&gt;di​&lt;/span&gt;를 찾는 과정을 의미합니다. 최근의 Facebook의 FAISS가 이를 빠르게 구현해놓은 좋은 라이브러리로 각광받고 있습니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Method&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;저자들이 제시한 framework를 QA System으로 한정지어 예시를 들어보면, 우선 question을 BERT에 태운 후 [CLS] Token을 빼와서 query vectory를 만든 후, wikipedia 각 document 역시 BERT(question encoding한 BERT와 다른 객체)를 태워 [CLS] Token을 빼와서 DB를 구축합니다. 다음, query vectory와 가장 유사한 (=내적 값이 큰) k개의 document vector에 해당하는 문서를 retrieve 합니다. 마지막으로 retrieved된 document와 question을 concat해 seq2seq의 encoder 입력에 넣은 후 answer을 decoder에서 generate하도록 훈련합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;Facebook에서 제공한 RAG의 전체적인 학습 방법&lt;/span&gt;&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;340&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cJb5PT/btsnhtk9Oy4/AfL5COWDkPbvuO2ySAvHqK/img.gif&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cJb5PT/btsnhtk9Oy4/AfL5COWDkPbvuO2ySAvHqK/img.gif&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cJb5PT/btsnhtk9Oy4/AfL5COWDkPbvuO2ySAvHqK/img.gif&quot; srcset=&quot;https://blog.kakaocdn.net/dn/cJb5PT/btsnhtk9Oy4/AfL5COWDkPbvuO2ySAvHqK/img.gif&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;600&quot; height=&quot;340&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;340&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;590&quot; data-origin-height=&quot;275&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bKOEoi/btsni6QzKWp/1qjD6FbZq695eMi2JQZlC1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bKOEoi/btsni6QzKWp/1qjD6FbZq695eMi2JQZlC1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bKOEoi/btsni6QzKWp/1qjD6FbZq695eMi2JQZlC1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbKOEoi%2Fbtsni6QzKWp%2F1qjD6FbZq695eMi2JQZlC1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;669&quot; height=&quot;312&quot; data-origin-width=&quot;590&quot; data-origin-height=&quot;275&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;RAG는 크게 2가지 모델로 나누어집니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;text-align: start;&quot;&gt;1. &lt;b&gt;Retriever&lt;/b&gt; : question&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;x&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;를 기반으로 유사한 document&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;z&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;를 retrieve하는 모델 (=&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;p&lt;span style=&quot;text-align: left;&quot;&gt;&amp;eta;​&lt;/span&gt;(z∣x)&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;)&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;text-align: start;&quot;&gt;2. &lt;b&gt;Seq2Seq Generator&lt;/b&gt; : Retriever가 반환한 유사한 document&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;z&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;와 question&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;x&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;를encoder에 넣고 decoder에서 answer&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;y&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;를 generate 하는 모델 (=&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;p&lt;span style=&quot;text-align: left;&quot;&gt;&amp;theta;​&lt;/span&gt;(y&lt;span style=&quot;text-align: left;&quot;&gt;i​&lt;/span&gt;∣x,z,y&lt;span style=&quot;text-align: left;&quot;&gt;1:i&amp;minus;1​&lt;/span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;K개의 유사한 document들을 가져와서 answer를 generate하는데 활용한다고 했는데 이 K개를 어떠한 식으로 concat하는가?&lt;/span&gt;&lt;/b&gt;&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;1. Models&lt;/span&gt;&lt;/h3&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;RAG-Sequence Model&lt;/span&gt;&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;543&quot; data-origin-height=&quot;74&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b9Z8y5/btsnaSAdhRl/8949mrq9w3MTDsoDUDISmK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b9Z8y5/btsnaSAdhRl/8949mrq9w3MTDsoDUDISmK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b9Z8y5/btsnaSAdhRl/8949mrq9w3MTDsoDUDISmK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb9Z8y5%2FbtsnaSAdhRl%2F8949mrq9w3MTDsoDUDISmK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;543&quot; height=&quot;74&quot; data-origin-width=&quot;543&quot; data-origin-height=&quot;74&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;맨 처음에 question vector&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;x&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;와 유사한 document를 뽑고 각 document 1개랑 question vector&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;x&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;를 concat시켜서 총 K개의 forwarding을 진행한 후 이를 marginalize하는 방법입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;수식의 오른편을 보면 하나의 유사한 document&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;z&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;에 대해서 answer y를 generate한 후 그 document와 question의 유사도인&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;p&lt;span style=&quot;text-align: left;&quot;&gt;&amp;eta;​&lt;/span&gt;(z∣x)&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;와 곱한 후 이를 모든 documents에 대해서 marginalize해 가중 평균하는 구조입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;RAG-Token Model&lt;/span&gt;&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;559&quot; data-origin-height=&quot;79&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cQm8Rz/btsnfsHzE23/mWMkzmuBwDyB6KzCFCRICK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cQm8Rz/btsnfsHzE23/mWMkzmuBwDyB6KzCFCRICK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cQm8Rz/btsnfsHzE23/mWMkzmuBwDyB6KzCFCRICK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcQm8Rz%2FbtsnfsHzE23%2FmWMkzmuBwDyB6KzCFCRICK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;559&quot; height=&quot;79&quot; data-origin-width=&quot;559&quot; data-origin-height=&quot;79&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;매 target token마다 다른 document를 retreive하면서 answer를 생성하는 방법입니다. 수식의 오른편을 보시면 매 time-step마다 유사한 K개의 document가 각각 question vector&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;x&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;와 concat해서 output token&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;y&lt;span style=&quot;text-align: left;&quot;&gt;i​&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;에 대한 확률을 계산하고 마찬가지로 document와 question의 유사도인&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;p&lt;span style=&quot;text-align: left;&quot;&gt;&amp;eta;​&lt;/span&gt;(z∣x)&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;와 곱하면서 marginalize해 가중 평균하는 구조입니다.&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;2. Retriever: DPR&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Retrievers는 상당히 직관적입니다. 이전에 설명드린것처럼 question과 document를 서로 다른 BERT를 통과해 [CLS] Token을 계산한 후 내적을 통해 유사도를 구하는 모델입니다. 저자들은 이미 wikipedia document로 pre-trained된 모델을 활용했다고 하며, 각각 document index를 non-parametric memory로 지정하였습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;검색 구성요소&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;p&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&amp;eta;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;z&lt;/span&gt;&lt;span&gt;∣&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;는 DPR&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;을 기준으로 하며 DPR은 bi-encoder architecture를 따릅니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;244&quot; data-origin-height=&quot;39&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/znGGc/btsnheBMQ50/vMsB4e33Nox12rB8KnFC01/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/znGGc/btsnheBMQ50/vMsB4e33Nox12rB8KnFC01/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/znGGc/btsnheBMQ50/vMsB4e33Nox12rB8KnFC01/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FznGGc%2FbtsnheBMQ50%2FvMsB4e33Nox12rB8KnFC01%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;244&quot; height=&quot;39&quot; data-origin-width=&quot;244&quot; data-origin-height=&quot;39&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;여기서&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;d&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;z&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;는&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;B&lt;/span&gt;&lt;span&gt;E&lt;/span&gt;&lt;span&gt;R&lt;/span&gt;&lt;span&gt;T&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;B&lt;/span&gt;&lt;span&gt;A&lt;/span&gt;&lt;span&gt;S&lt;/span&gt;&lt;span&gt;E&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;transformer에 의해 생성된 document의 dense representation이고&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;q&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;는 다른 매개변수를 가진&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;B&lt;/span&gt;&lt;span&gt;E&lt;/span&gt;&lt;span&gt;R&lt;/span&gt;&lt;span&gt;T&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;B&lt;/span&gt;&lt;span&gt;A&lt;/span&gt;&lt;span&gt;S&lt;/span&gt;&lt;span&gt;E&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;transformer에 의해 생성된 query representation입니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;가장 높은 prior probability&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;p&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&amp;eta;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;z&lt;/span&gt;&lt;span&gt;∣&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;를 갖는 k개의 요소&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;z&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;의 리스트&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;t&lt;/span&gt;&lt;span&gt;o&lt;/span&gt;&lt;span&gt;p&lt;/span&gt;&lt;span&gt;&amp;minus;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;k&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;p&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&amp;eta;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;&amp;sdot;&lt;/span&gt;&lt;span&gt;∣&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;를 효율적으로 계산하기 위해 FAISS 라이브러리에서 제공하는 MIPS(Maximum Inner Product Search) index를 사용합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;학습은 TriviaQA, Natural Question를 통해 답변이 포함된 document를 검색하도록 수행합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;3. Generator: BART&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;Generator로는 BART-large를 활용했고, 이전에 언급한 것처럼 [document;question]식으로 concat된 encoder input을 만들어 answer를 generate 하였습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;Generator 구성요소&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;p&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&amp;theta;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;∣&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;,&lt;/span&gt;&lt;span&gt;z&lt;/span&gt;&lt;span&gt;,&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;1&lt;/span&gt;&lt;span&gt;:&lt;/span&gt;&lt;span&gt;i&lt;/span&gt;&lt;span&gt;&amp;minus;&lt;/span&gt;&lt;span&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;는 BART의 encoder, decoder를 사용하여 모델링하며 400M parameter를 가진 BART-large를 사용합니다. BART를 통해 생성할때 input&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;x&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;와 검색된 컨텐츠&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;z&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;를 결합하기위해 간단하게 concatenation합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;4. Training&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;저자들은 매 question마다 유사한 K개의 document에 대한 정답 label 없이 훈련을 진행하였고, DPR의 경우 question을 encoding하는 BERT만 gradient를 흘리고 document를 encoding하는 BERT는 학습하지 않았습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;검색할 document를 감독하지 않고 Retriever와 Generator를 공동으로 학습합니다. 입력/출력 쌍&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;x&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;j&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;,&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;j&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;가 주어지면 Adam을 통해&lt;span&gt; &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&amp;sum;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;j&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&amp;minus;&lt;/span&gt;&lt;span&gt;l&lt;/span&gt;&lt;span&gt;o&lt;/span&gt;&lt;span&gt;g&lt;/span&gt;&lt;span&gt;p&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;j&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;∣&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;x&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;j&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;를 minimize합니다. 학습 중 document encoder를 업데이트하면 docmuent indexing을 정기적으로 업데이트 해야하므로 비용이 많이 소모됩니다. 그래서 query encoder와 generator를 fine-tuning하고 document encoder를 고정상태로 유지합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;5. Decoding&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;T&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;est 및 decoding 단계에서 RAG-sequence와 RAG-token은&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;a&lt;/span&gt;&lt;span&gt;r&lt;/span&gt;&lt;span&gt;g&lt;/span&gt;&lt;span&gt;m&lt;/span&gt;&lt;span&gt;a&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;p&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;y&lt;/span&gt;&lt;span&gt;∣&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;span&gt;.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;를 근사하는 다른 방법을 필요로 합니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;RAG-Token&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;Token 별로 새로운 document를 condition해주는 모델인 RAG-Token Model은 기존의 beam-search를 그대로 활용해주어도 됩니다. 왜냐하면 어차피 각 hypothesis가 이미 이전 time-step까지 도출해낸 text-sequence는 주어져 있고,&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;x&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;와 새롭게 retrieve된 document&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;z&lt;span style=&quot;text-align: left;&quot;&gt;i​&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;와 함께 다음 time-step의 vocab distribution을 계산하는 것은 추가적인 input만 생길 뿐, 기존의 beam-search에서 벗어나는게 없기 때문입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;RAG-Token Model은 transition probability를 가진 auto-regressive seq2seq generator로 볼 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;472&quot; data-origin-height=&quot;65&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bdxgwp/btsngrWdUwh/HazKTWXYFszIGOTvaYQBAk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bdxgwp/btsngrWdUwh/HazKTWXYFszIGOTvaYQBAk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bdxgwp/btsngrWdUwh/HazKTWXYFszIGOTvaYQBAk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbdxgwp%2FbtsngrWdUwh%2FHazKTWXYFszIGOTvaYQBAk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;472&quot; height=&quot;65&quot; data-origin-width=&quot;472&quot; data-origin-height=&quot;65&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;Decoding 단계에서&lt;span&gt; &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;p&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&amp;theta;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&amp;prime;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;∣&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;,&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;1&lt;/span&gt;&lt;span&gt;:&lt;/span&gt;&lt;span&gt;i&lt;/span&gt;&lt;span&gt;&amp;minus;&lt;/span&gt;&lt;span&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;를 standard beam decoder를 사용하여 구할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;RAG-Sequence&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;문제는 RAG-Sequence Model입니다. 애초에 answer을 generate할 때 하나의 document&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;z&lt;span style=&quot;text-align: left;&quot;&gt;i​&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;은 서로 다른 answer을 generate할 것이기 때문에 기존의 beam-search에서 이를 marginalize하기는 불가능합니다. 따라서 저자들은 우선은 각각의 document&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;z&lt;span style=&quot;text-align: left;&quot;&gt;i​&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;에 대해서 beam-search를 진행하고, 모든 document&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;z&lt;span style=&quot;text-align: left;&quot;&gt;i​&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;가 공통된 beam을 갖도록 각 document&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;z&lt;span style=&quot;text-align: left;&quot;&gt;i​&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;에 등장한 beam에 대해서 추가적인 forward pass를 진행해주고, 이를&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;p&lt;span style=&quot;text-align: left;&quot;&gt;&amp;eta;​&lt;/span&gt;(z∣x)&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;와 곱하면서 marginalize해준다고 하였습니다. 하지만 이렇게 계산해줄 경우, 각 document별로 수많은 beam을 generate하는 forward pass를 진행해주어야 함으로, 저자들은 애초에 question&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;x&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;와 document&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&lt;span aria-hidden=&quot;true&quot;&gt;z&lt;span style=&quot;text-align: left;&quot;&gt;i​&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;에서 등장하지 않는 beam은 전부 등장확률을 0으로 지정했다고 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;각 candidate codument&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;z&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;에 대해 beam search를 사용하여&lt;span&gt; &lt;/span&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;p&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&amp;theta;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;∣&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;,&lt;/span&gt;&lt;span&gt;z&lt;/span&gt;&lt;span&gt;,&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;1&lt;/span&gt;&lt;span&gt;:&lt;/span&gt;&lt;span&gt;i&lt;/span&gt;&lt;span&gt;&amp;minus;&lt;/span&gt;&lt;span&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;에 대해 각 hypothesis를 scoring합니다.&lt;br /&gt;모든 beam에 대한 hypothesis&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;의 확률을 추정하기 위해&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;beam에 나타나지 않는 각 document&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;z&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;에 대해 추가 forward pass를 수행하고generator score에 &lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;p&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&amp;eta;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;z&lt;/span&gt;&lt;span&gt;∣&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;를 곱하여 margninal에 대한 beam 사이의 확률을 합합니다. (&amp;ldquo;Thorough Decoding&amp;rdquo;)&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;더 긴 sequence의 경우 효율적인 디코딩을 위해&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;,&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;z&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;로 부터 beam search동안&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;y&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;가 생성되지 않은&lt;span&gt; &lt;/span&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;p&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&amp;theta;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;(&lt;/span&gt;&lt;span&gt;y&lt;/span&gt;&lt;span&gt;∣&lt;/span&gt;&lt;span&gt;x&lt;/span&gt;&lt;span&gt;,&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;z&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;&lt;span&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&amp;asymp;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span&gt;0&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;에 대한 근사값을 더 만들 수 있다. 이것은 candidate set&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span&gt;&lt;span aria-hidden=&quot;true&quot;&gt;&lt;span&gt;&lt;span&gt;Y&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;가 생성된 후 추가적인 forward pass를 수행하지 않아도 됩니다.(&amp;ldquo;Fast Decoding&amp;rdquo;)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Vector Search + LLM(RAG)&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;벡터 검색은 이제 모든 검색에서 일반적입니다(Google, Bing, 선호하는 검색 엔진 선택). 전체 검색 데이터베이스에 이 4개의 문서만 있는 경우를 생각해 보십시오. &lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;&amp;ldquo;Tell me something about a big tree.&amp;rdquo;&lt;/span&gt;라고 질문할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;출력은 다음과 같습니다.&lt;/span&gt;&lt;/p&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;During yesterday&amp;rsquo;s storm, a large tree fell on the road.&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터베이스에서 가장 관련성이 높은 문서입니다. 그러나 LLM에 동일한 질문을 하고 마지막에 4개의 '문서'를 추가하면 다음과 같은 결과를 얻을 수 있습니다(이 예에서는 ChatGPT).&lt;/span&gt;&lt;/p&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;A big tree is typically a large, towering plant with a sturdy trunk, branches, and an extensive network of roots. These trees can reach impressive heights, often extending well above the surrounding vegetation. They serve as essential components of many ecosystems, providing shade, shelter, and food for various organisms.&lt;br /&gt;&lt;br /&gt;The incident you mentioned about a large tree falling on the road during a storm indicates the power and impact of severe weather conditions. Storms with strong winds can uproot or break trees, leading to road blockages and potential hazards for vehicles and pedestrians.&lt;br /&gt;&lt;br /&gt;In another scenario you mentioned, while driving on the road in Bandipur, you encountered a large elephant crossing the road. Bandipur is a national park and wildlife sanctuary located in India, known for its rich biodiversity and diverse animal population. Elephants are one of the prominent species found in Bandipur and are known to traverse the area, sometimes crossing roads. Encounters like these highlight the importance of wildlife conservation and the need for humans to coexist with animals in their natural habitats.&lt;br /&gt;&lt;br /&gt;Switching topics to Bonsai, they are miniature trees that are grown in small pots and meticulously shaped and pruned to maintain their small size. Bonsai cultivation is an ancient art form that originated in East Asia and has gained popularity worldwide. Due to their limited root space, Bonsai trees require regular watering to prevent them from drying out. The small pots can cause the soil to dry quickly, so it&amp;rsquo;s crucial to monitor the moisture levels and water them accordingly.&lt;br /&gt;&lt;br /&gt;Finally, you mentioned observing a bird swooping in on a baby chipmunk through your window. This observation reflects a moment of nature in action, where a bird might have been hunting for food. Birds of prey and certain bird species, such as hawks or owls, are known to swoop down on small mammals like chipmunks as part of their natural hunting behavior. It&amp;rsquo;s fascinating to witness such interactions, as they provide insights into the dynamics of the animal kingdom.&lt;br /&gt;&lt;br /&gt;Overall, these snippets of nature &amp;mdash; whether they involve big trees, elephants, Bonsai trees, or bird predation &amp;mdash; highlight the diversity and wonder of the natural world that surrounds us.&lt;/blockquote&gt;
&lt;p style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-selectable-paragraph=&quot;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p id=&quot;fbc5&quot; style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-selectable-paragraph=&quot;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그 대답은 훨씬 더 둥글게 보였습니다. ChatGPT는 주어진 컨텍스트와 함께 수조 개의 문서에 대한 훈련을 통해 얻은 내부 지식을 사용하고 있었습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그러나 ChatGPT 프롬프트에 맞지 않는 문서가 4개 이상(아마도 수천 또는 수백만 개) 있다고 가정해 보겠습니다. 이 경우 벡터 검색을 사용하여 답변을 포함할 가능성이 가장 높은 컨텍스트를 좁혀서 프롬프트에 추가하고 다음과 같이 동일한 질문을 할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;517&quot; data-origin-height=&quot;305&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cJMTn1/btsng9NXCkd/BHjKvCB1kBZerVBgNAU3Mk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cJMTn1/btsng9NXCkd/BHjKvCB1kBZerVBgNAU3Mk/img.png&quot; data-alt=&quot;ChatGPT answer&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cJMTn1/btsng9NXCkd/BHjKvCB1kBZerVBgNAU3Mk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcJMTn1%2Fbtsng9NXCkd%2FBHjKvCB1kBZerVBgNAU3Mk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;517&quot; height=&quot;305&quot; data-origin-width=&quot;517&quot; data-origin-height=&quot;305&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;ChatGPT answer&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-selectable-paragraph=&quot;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-selectable-paragraph=&quot;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그런 다음 문서와 임베딩을 저장하는 데이터베이스를 가질 수 있습니다. 쿼리를 저장하고 쿼리를 기반으로 가장 관련성이 높은 문서를 찾는 다른 DB를 가질 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1400&quot; data-origin-height=&quot;559&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/pxqFQ/btsniuRCc0V/d5K3E7gCSsd3iFThzrRjv0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/pxqFQ/btsniuRCc0V/d5K3E7gCSsd3iFThzrRjv0/img.png&quot; data-alt=&quot;Document DB (Left) and Quey DB (Right)&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/pxqFQ/btsniuRCc0V/d5K3E7gCSsd3iFThzrRjv0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FpxqFQ%2FbtsniuRCc0V%2Fd5K3E7gCSsd3iFThzrRjv0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1400&quot; height=&quot;559&quot; data-origin-width=&quot;1400&quot; data-origin-height=&quot;559&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Document DB (Left) and Quey DB (Right)&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-selectable-paragraph=&quot;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-selectable-paragraph=&quot;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;쿼리별로 가장 유사한 문서가 있으면 ChatGPT와 같은 LLM에 피드할 수 있습니다. 이 간단한 트릭으로 문서 검색을 사용하여 LLM을 확장했습니다. 이를 RAG(Retrieval Augmented Generation)라고도 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 id=&quot;13f8&quot; style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;Building Industry-Specific Q&amp;amp;A Models Using RAG&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1861&quot; data-origin-height=&quot;868&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/coxgKy/btsnaLnlCqN/K8wQt9hxjgeFyfaQ1uk20k/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/coxgKy/btsnaLnlCqN/K8wQt9hxjgeFyfaQ1uk20k/img.png&quot; data-alt=&quot;RAG Prototype&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/coxgKy/btsnaLnlCqN/K8wQt9hxjgeFyfaQ1uk20k/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcoxgKy%2FbtsnaLnlCqN%2FK8wQt9hxjgeFyfaQ1uk20k%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1861&quot; height=&quot;868&quot; data-origin-width=&quot;1861&quot; data-origin-height=&quot;868&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;RAG Prototype&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;위의 다이어그램은 질문 답변을 위해 사용자 정의 문서에 대해 LLM을 활용하는 기본 RAG를 구축하는 방법을 간략하게 보여줍니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;첫 번째 부분은 여러 문서를 관리 가능한 청크로 분할하는 것입니다. 관련 매개변수는 최대 청크 길이입니다. 이러한 청크는 일반적인 질문에 대한 답변을 포함하는 텍스트의 일반적인(최소) 크기여야 합니다. 질문에 대한 답변이 문서 내의 여러 위치에 있을 수 있기 때문입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 '2015년부터 2020년까지 X 회사의 실적은 어땠습니까?'라는 질문을 할 수 있습니다. 또한 문서의 다른 부분에 수년간 회사 실적에 대한 특정 정보가 포함된 큰 문서(또는 여러 문서)가 있을 수 있습니다. 이상적으로는 이 정보가 포함된 문서의 모든 이질적인 부분을 캡처하고 함께 연결하고 이러한 필터링되고 연결된 문서 청크를 기반으로 응답하기 위해 LLM에 전달하기를 원할 것입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;b&gt;최대 컨텍스트 길이(maximum context length)&lt;/b&gt;는 기본적으로 다양한 청크를 함께 연결하기 위한 최대 길이입니다. 질문 자체와 출력 답변을 위한 공간을 남겨둡니다(ChatGPT와 같은 LLM에는 질문, 컨텍스트 및 답변과 같은 모든 콘텐츠를 포함하는 엄격한 길이 제한이 있음을 기억하십시오.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;b&gt;유사성 임계값(similarity threshold)&lt;/b&gt;은 질문을 문서 청크와 비교하여 답변을 포함할 가능성이 가장 높은 상위 청크를 찾는 방법입니다. 코사인 유사도는 일반적으로 사용되는 메트릭이지만 다른 메트릭에 가중치를 부여할 수 있습니다. 예를 들어 특정 키워드가 있는 문맥에 가중치를 더 주기 위해 키워드 측정항목을 포함합니다. 예를 들어 문서를 요약하기 위해 LLM에 질문을 할 때 '추상(abstract)' 또는 '요약(summary)'이라는 단어가 포함된 컨텍스트에 가중치를 부여할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;결론&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;RAG는 ​​사용자 지정 문서에서 구동되는 LLM을 사용하는 좋은 방법을 제공합니다. Microsoft, Google 및 Amazon과 같은 회사는 조직에서 플러그 앤 플레이 방식으로 사용할 수 있는 앱을 구축하기 위해 경쟁하고 있습니다. 그러나 이 분야는 아직 초기 단계이며 맞춤형 문서에 대해 벡터 검색 기반 LLM을 사용하는 산업별 앱이 선두주자가 되어 경쟁에서 우위를 점할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;어떤 LLM을 사용할지, 사용자 지정 문서에 대해 모델을  fine-tune하거나 완전히 훈련시킬지 여부를 묻는 사람들이 있었지만 LLM과 벡터 검색 간의 동기화를 엔지니어링하는 역할은 과소평가되었습니다. 다음은 응답의 품질을 크게 향상시키거나 저하시킬 수 있는 몇 가지 고려 사항입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Length of document chunks (&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;문서 청크의 길이)&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;올바른 답변이 텍스트의 다양한 부분에 포함되어 함께 연결해야 하는 경우 문서를 더 작은 청크로 분리하여 여러 컨텍스트를 쿼리에 추가할 수 있어야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Similarity and retrieval metrics (&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;유사성 및 검색 메트릭)&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;때로는 일반 코사인 유사성만으로는 충분하지 않습니다. 예를 들어 많은 문서에 동일한 주제에 대한 상충되는 정보가 포함되어 있는 경우 해당 문서 내의 메타데이터를 기반으로 특정 문서로 검색을 제한할 수 있습니다. 이를 위해 유사성 외에도 다른 필터링 메트릭을 사용할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Model Architecture (&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;모델 아키텍처)&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;효율성과 확장성을 위해 벡터 임베딩 모델, 문서 데이터베이스, 프롬프트, LLM 모델 선택 등 다양한 측면을 고려해야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Avoiding Hallucinations (&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;환각 피하기)&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;증강된(augmented) ChatGPT는 네팔의 GDP에 맞는 금액을 얻었지만 연도는 틀렸습니다. 이러한 경우 프롬프트 선택, ChatGPT 친화적인 형식으로 데이터 추출, 환각이 있는 경우의 비율 및 어떤 솔루션이 잘 작동하는지 평가하는 것 사이에 많은 피드백이 필요합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://velog.io/@tobigs-nlp/Retrieval-Augmented-Generation-for-Knowledge-Intensive-NLP-Tasks&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://velog.io/@tobigs-nlp/Retrieval-Augmented-Generation-for-Knowledge-Intensive-NLP-Tasks&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://jeonsworld.github.io/NLP/rag/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://jeonsworld.github.io/NLP/rag/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://cobslab.com/retrieval%EC%9D%98-%ED%9A%A8%EA%B3%BC-retrieval-augmented-generation-for-knowledge-intensive-nlp-tasks/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://cobslab.com/retrieval-효과-retrieval-augmented-generation-for-knowledge-intensive-nlp-tasks/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://towardsdatascience.com/build-industry-specific-llms-using-retrieval-augmented-generation-af9e98bb6f68&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://towardsdatascience.com/build-industry-specific-llms-using-retrieval-augmented-generation&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Prompt Engineering &amp;amp; Tuning</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>rag</category>
      <category>Retrieval Augmented Generation</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/419</guid>
      <comments>https://yumdata.tistory.com/419#entry419comment</comments>
      <pubDate>Tue, 11 Jul 2023 18:57:33 +0900</pubDate>
    </item>
    <item>
      <title>Large Language Model (LLM)</title>
      <link>https://yumdata.tistory.com/418</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Large Language Models (LLMs), 대규모 언어 모델&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;대규모 언어 모델(LLM, Large Language Models)은 방대한 양의 텍스트를 처리하고 정확한 결과를 생성하는 기능으로 인해 자연어 처리(NLP) 세계에서 관심을 끌고 있습니다. 이러한 모델은 수억에서 수십억 단어가 포함된 대규모 데이터 세트에서 학습됩니다. 알려진 바와 같이 LLM은 대규모 데이터 세트를 통해 이동하고 단어 수준에서 패턴을 인식하는 Transformer 아키텍처를 포함한 복잡한 알고리즘에 의존합니다. 이 데이터는 모델이 자연어와 컨텍스트에서 사용되는 방식을 더 잘 이해하고 텍스트 생성, 텍스트 분류 등과 관련된 예측을 수행하는 데 도움이 됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Large Language Model 이란&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;a class of deep learning models designed to process and understand vast amounts of natural language data&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;방대한 양의 자연어 데이터를 처리하고 이해하도록 설계된 딥 러닝 모델 클래스&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;대규모 언어 모델(LLM)은 언어와 함께 작동하는 AI 시스템 유형입니다. LLM은 언어 모델링, 즉 단순하지만 유용한 디지털 표현을 만드는 것을 목표로 합니다. 용어의 '큰' 부분은 더 많은 매개변수를 사용하여 언어 모델을 학습하는 추세를 설명합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM의 일반적인 예로는 OpenAI의 GPT-4, Google의 PaLM 및 Meta의 LLaMA가 있습니다. 특정 제품(예: OpenAI의 ChatGPT 또는 Google의 Bard)을 LLM 자체로 참조할지 아니면 기본 LLM에서 제공한다고 말할지 모호합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;용어로 LLM은 종종 AI 실무자가 언어와 함께 작동하는 시스템을 지칭하는 데 사용됩니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;GPT(Generative Pre-trained Transformer)는 이러한 대규모 언어 모델 중 하나입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1450&quot; data-origin-height=&quot;599&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b3fZ1u/btsofRs1IQc/NNAvvrCSvycLCYHJRXEtHk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b3fZ1u/btsofRs1IQc/NNAvvrCSvycLCYHJRXEtHk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b3fZ1u/btsofRs1IQc/NNAvvrCSvycLCYHJRXEtHk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb3fZ1u%2FbtsofRs1IQc%2FNNAvvrCSvycLCYHJRXEtHk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1450&quot; height=&quot;599&quot; data-origin-width=&quot;1450&quot; data-origin-height=&quot;599&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Pretrained&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 모델은 초기에 많은 양의 텍스트 데이터에 대해 학습됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Fine-tuning&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 모델은 특정 생성 작업에 맞게 fine-tuning됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Transformer&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;자연어 데이터를 처리하고 분석하는 데 사용되는 머신 러닝 아키텍처 유형입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Encoders and decoders&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;인코더와 디코더는 텍스트와 같은 데이터 시퀀스를 처리하고 생성하는 데 사용되는 트랜스포머 아키텍처의 구성 요소입니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;인코더는 문장과 같은 일련의 입력 데이터를 가져와서 일련의 인코딩된 표현으로 변환합니다. 각 표현은 원본 입력 데이터에 대한 정보를 캡처하지만 추상화 수준은 다릅니다. 최종 인코딩된 표현은 일반적으로 입력 시퀀스를 요약하는 벡터입니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;반면에 디코더는 인코딩된 표현을 가져와 원래 문장을 다른 언어로 번역하는 것과 같은 새로운 데이터 시퀀스를 생성하는 데 사용합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;디코더는 인코딩된 표현과 지금까지 생성된 토큰을 기반으로 시퀀스의 다음 토큰을 예측하여 이를 수행합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;다음은 인코더와 디코더가 함께 작동하여 문장을 영어에서 프랑스어로 번역하는 방법의 예입니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;문장 입력: &lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;&quot;The cat sat on the mat.&quot;&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;인코딩된 표현: [0.2, 0.5, -0.1, 0.4, ...]&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;대상 언어: 프랑스어&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;디코더 출력: 'Le chat s'est assis sur le tapis.'&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 예에서 인코더는 영어 문장을 입력으로 사용하고 저차원 공간에서 문장의 의미를 캡처하는 인코딩된 표현을 생성합니다. 그런 다음 디코더는 이 인코딩된 표현을 사용하여 대상 언어인 프랑스어로 새로운 토큰 시퀀스를 생성합니다. 최종 출력은 원래 문장과 동일한 의미를 캡처하지만 다른 언어로 번역된 문장입니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;대규모 언어 모델은 (주로) 텍스트 생성 작업을 해결하여 보다 효과적인 human-machine 소통을 가능하게 하는 머신 러닝 모델로 정의할 수 있습니다. 이것이 바로 LLM이 방대한 양의 텍스트 데이터를 처리 및 이해하고 문장에서 단어 간의 패턴과 관계를 학습해야 하는 이유입니다. &lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;GPT-4 및 ChatGPT는 다양한 작업을 위한 텍스트 생성에서 뛰어난 성능을 보여주는 고급 LLM입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM은 신경망 아키텍처, 특히 transformer 아키텍처를 기반으로 구축되어 대규모 텍스트 데이터 세트에서 복잡한 언어 패턴과 단어 또는 구문 간의 관계를 캡처할 수 있습니다. 사실 LLM은 transformer의 변형으로도 이해할 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Transformer&lt;/span&gt; 아키텍처는 cross-attention 및 self-attention와 같은 메커니즘에 의존하며, 이를 통해 모델은 주어진 맥락에서 서로 다른 단어나 구의 중요성을 평가하여 텍스트의 단어 간의 관계를 이해할 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;cross-attention 메커니즘을 통해 모델은 생성된 텍스트에서 다음 단어를 정확하게 예측하는 데 필요한 입력 텍스트의 중요한 부분을 식별할 수 있습니다. 반대로 self-attention 메커니즘은 처리 중에 입력의 다양한 섹션에 선택적으로 주의를 기울이는 모델의 기능을 말합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;transformer 아키텍처는 Vaswani 등의 논문 '&lt;b&gt;&lt;a style=&quot;color: #62a6e4;&quot; href=&quot;https://arxiv.org/abs/1706.03762&quot;&gt;Attention Is All You Need&lt;/a&gt;&lt;/b&gt;'에서 소개된 &lt;a style=&quot;background-color: #ffffff; color: #62a6e4; text-align: start;&quot; href=&quot;https://vitalflux.com/encoder-decoder-architecture-neural-network/&quot;&gt;encoder-decoder architecture&lt;/a&gt;를 기반으로 하는 자연어 처리 작업을 위한 신경망 모델을 나타냅니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;트랜스포머 아키텍처의 핵심 구성 요소는 모델이 각 위치에 대한 표현을 계산하기 위해 입력 시퀀스의 다른 부분에 주의를 기울일 수 있게 해주는 셀프 어텐션 메커니즘입니다. 트랜스포머는 인코더 네트워크와 디코더 네트워크의 두 가지 주요 구성 요소로 구성됩니다. 인코더 네트워크는 입력 시퀀스를 사용하여 숨겨진 상태 시퀀스를 생성하는 반면, 디코더 네트워크는 대상 시퀀스를 사용하고 인코더의 출력을 사용하여 예측 시퀀스를 생성합니다. 인코더와 디코더는 모두 여러 계층의 self-attention 및 feedforward 신경망으로 구성됩니다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/335&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[NLP] Transformer Model&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689065196100&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;article&quot; data-og-title=&quot;[NLP] Transformer Model&quot; data-og-description=&quot;Transformer Model Attention is All You Need라는 논문을 통해 처음 발표(Vaswani et al.. 2017) Input text를 입력받아, 기본적으로 Attention 매커니즘을 통해 인코딩, 디코딩하는 방식의 모델 병렬화가 가능하고 학습&quot; data-og-host=&quot;yumdata.tistory.com&quot; data-og-source-url=&quot;https://yumdata.tistory.com/335&quot; data-og-url=&quot;https://yumdata.tistory.com/335&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/y9asm/hyTgQ4xqOp/RZB6KL2RfKQAm93iaKoP00/img.png?width=800&amp;amp;height=592&amp;amp;face=0_0_800_592,https://scrap.kakaocdn.net/dn/Uul5G/hyTiAseLvY/vBtCd6wzko841hURSdVv11/img.png?width=800&amp;amp;height=592&amp;amp;face=0_0_800_592,https://scrap.kakaocdn.net/dn/eyCov/hyTgM17jl4/JOWJu7PjeKXGZlADf3TW60/img.png?width=1415&amp;amp;height=804&amp;amp;face=0_0_1415_804&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/335&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://yumdata.tistory.com/335&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/y9asm/hyTgQ4xqOp/RZB6KL2RfKQAm93iaKoP00/img.png?width=800&amp;amp;height=592&amp;amp;face=0_0_800_592,https://scrap.kakaocdn.net/dn/Uul5G/hyTiAseLvY/vBtCd6wzko841hURSdVv11/img.png?width=800&amp;amp;height=592&amp;amp;face=0_0_800_592,https://scrap.kakaocdn.net/dn/eyCov/hyTgM17jl4/JOWJu7PjeKXGZlADf3TW60/img.png?width=1415&amp;amp;height=804&amp;amp;face=0_0_1415_804');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;[NLP] Transformer Model&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Transformer Model Attention is All You Need라는 논문을 통해 처음 발표(Vaswani et al.. 2017) Input text를 입력받아, 기본적으로 Attention 매커니즘을 통해 인코딩, 디코딩하는 방식의 모델 병렬화가 가능하고 학습&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;yumdata.tistory.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;415&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dPOg9L/btsngwQiCYm/q4t5KBWT27onmhqj1Bzn9k/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dPOg9L/btsngwQiCYm/q4t5KBWT27onmhqj1Bzn9k/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dPOg9L/btsngwQiCYm/q4t5KBWT27onmhqj1Bzn9k/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdPOg9L%2FbtsngwQiCYm%2Fq4t5KBWT27onmhqj1Bzn9k%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;640&quot; height=&quot;415&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;415&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Different types of LLMs&lt;/h3&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Autoregressive Language Models&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/81&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;GPT&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689065132309&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;article&quot; data-og-title=&quot;[NLP] GPT&quot; data-og-description=&quot;GPT(Generative Pre-trained Transformer) OpenAI에서 Transformer의 Decoder를 활용해 발표한 Pretrained 언어 모델 GPT-1 : 2018년 발표 GPT-2 : 2019년 2월 발표, 제한된 데모버전만 공개 GPT-3 : 2020년 발표, 유료 Pretrained Langu&quot; data-og-host=&quot;yumdata.tistory.com&quot; data-og-source-url=&quot;https://yumdata.tistory.com/81&quot; data-og-url=&quot;https://yumdata.tistory.com/81&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/iX0cJ/hyTg1LNcuz/ldq6bCkXBuNcKZKI2xxHXK/img.png?width=774&amp;amp;height=543&amp;amp;face=0_0_774_543,https://scrap.kakaocdn.net/dn/eQdP9O/hyTiyBbC6Z/z5cPHsbPUyjZMGKKrmVYT0/img.png?width=774&amp;amp;height=543&amp;amp;face=0_0_774_543,https://scrap.kakaocdn.net/dn/fzm4G/hyTgVdIIBb/6VvwQsnIQHC9MPQAGix2A1/img.png?width=1440&amp;amp;height=682&amp;amp;face=0_0_1440_682&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/81&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://yumdata.tistory.com/81&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/iX0cJ/hyTg1LNcuz/ldq6bCkXBuNcKZKI2xxHXK/img.png?width=774&amp;amp;height=543&amp;amp;face=0_0_774_543,https://scrap.kakaocdn.net/dn/eQdP9O/hyTiyBbC6Z/z5cPHsbPUyjZMGKKrmVYT0/img.png?width=774&amp;amp;height=543&amp;amp;face=0_0_774_543,https://scrap.kakaocdn.net/dn/fzm4G/hyTgVdIIBb/6VvwQsnIQHC9MPQAGix2A1/img.png?width=1440&amp;amp;height=682&amp;amp;face=0_0_1440_682');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;[NLP] GPT&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;GPT(Generative Pre-trained Transformer) OpenAI에서 Transformer의 Decoder를 활용해 발표한 Pretrained 언어 모델 GPT-1 : 2018년 발표 GPT-2 : 2019년 2월 발표, 제한된 데모버전만 공개 GPT-3 : 2020년 발표, 유료 Pretrained Langu&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;yumdata.tistory.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;자동회귀&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;(Autoregressive)&lt;/span&gt; 모델은 이전 단어가 주어진 시퀀스에서 다음 단어를 예측하여 텍스트를 생성합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;주어진 맥락에서 훈련 데이터 세트의 각 단어의 가능성을 최대화하도록 훈련됩니다. 자동 회귀 언어 모델의 가장 잘 알려진 예는 OpenAI의 GPT(Generative Pre-trained Transformer) 시리즈이며 GPT-4는 가장 최신의 가장 강력한 모델입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Autoencoding Language Models&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/80&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;BERT&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689065163204&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;article&quot; data-og-title=&quot;[NLP] BERT&quot; data-og-description=&quot;BERT(Bidirectional Encoder Representations for Transformers) Pre-training of Deep Bidirectional Transformers for Language Understanding 2018년 10월 논문이 공개된 구글의 새로운 Language Representation Model 모든 자연어 처리 분야에서&quot; data-og-host=&quot;yumdata.tistory.com&quot; data-og-source-url=&quot;https://yumdata.tistory.com/80&quot; data-og-url=&quot;https://yumdata.tistory.com/80&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/bVqlRt/hyTixvvII2/MrecLb7SOwDfiNckOPKpW1/img.png?width=800&amp;amp;height=324&amp;amp;face=0_0_800_324,https://scrap.kakaocdn.net/dn/cFTFiX/hyTitmlD1w/AXLPIkjS69kTaW5xMUw5H0/img.png?width=800&amp;amp;height=324&amp;amp;face=0_0_800_324,https://scrap.kakaocdn.net/dn/dqj4HF/hyTgVkszcB/SnmqfTpKnrIZvyxkSZQSsk/img.png?width=600&amp;amp;height=583&amp;amp;face=0_0_600_583&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/80&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://yumdata.tistory.com/80&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/bVqlRt/hyTixvvII2/MrecLb7SOwDfiNckOPKpW1/img.png?width=800&amp;amp;height=324&amp;amp;face=0_0_800_324,https://scrap.kakaocdn.net/dn/cFTFiX/hyTitmlD1w/AXLPIkjS69kTaW5xMUw5H0/img.png?width=800&amp;amp;height=324&amp;amp;face=0_0_800_324,https://scrap.kakaocdn.net/dn/dqj4HF/hyTgVkszcB/SnmqfTpKnrIZvyxkSZQSsk/img.png?width=600&amp;amp;height=583&amp;amp;face=0_0_600_583');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;[NLP] BERT&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;BERT(Bidirectional Encoder Representations for Transformers) Pre-training of Deep Bidirectional Transformers for Language Understanding 2018년 10월 논문이 공개된 구글의 새로운 Language Representation Model 모든 자연어 처리 분야에서&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;yumdata.tistory.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;div id=&quot;wrap&quot;&gt;
&lt;div id=&quot;content-sidebar-wrap&quot;&gt;
&lt;div id=&quot;content&quot;&gt;
&lt;div id=&quot;post-14596&quot;&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt; 자동 인코딩 모델은 마스크되거나 손상된 버전에서 원래 입력을 재구성하여 입력 텍스트의 고정 크기 벡터 표현(임베딩이라고도 함)을 생성하는 방법을 학습합니다. 주변 컨텍스트를 활용하여 입력 텍스트에서 누락되거나 가려진 단어를 예측하도록 훈련됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Google에서 개발한 BERT(Bidirectional Encoder Representations from Transformers)는 가장 유명한 자동 인코딩 언어 모델 중 하나입니다. 감정 분석, 명명된 엔터티 인식 및 질문 답변과 같은 다양한 NLP 작업에 맞게 fine-tuning 할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Combination of autoencoding and autoregressive&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/149&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;T5(Text-to-Text Transfer Transformer)&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689065235017&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;article&quot; data-og-title=&quot;[NLP][Language Model] T5(Text-to-Text Transfer Transformer)&quot; data-og-description=&quot;Transformer 모델의 성능 향상을 위한 시도 1. 어떻게 더 많이, 더 잘 훈련시켜서 성능을 향상시킬 수 있을까? pre-training objective 변형, 모델 변경 등 연구 난이도가 훨씬 높고 computing resource도 많이 필&quot; data-og-host=&quot;yumdata.tistory.com&quot; data-og-source-url=&quot;https://yumdata.tistory.com/149&quot; data-og-url=&quot;https://yumdata.tistory.com/149&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/blSnjV/hyTg0szrgN/nk2MHk1muYb8um0nKaNZd1/img.png?width=629&amp;amp;height=517&amp;amp;face=0_0_629_517,https://scrap.kakaocdn.net/dn/dO7hoL/hyTg0686WE/vX3KSLqLXOc53My78U29dk/img.png?width=629&amp;amp;height=517&amp;amp;face=0_0_629_517,https://scrap.kakaocdn.net/dn/wq2Fp/hyTim8ANgV/GZzmRhDouMmcllSxfXAX3k/img.png?width=629&amp;amp;height=517&amp;amp;face=0_0_629_517&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/149&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://yumdata.tistory.com/149&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/blSnjV/hyTg0szrgN/nk2MHk1muYb8um0nKaNZd1/img.png?width=629&amp;amp;height=517&amp;amp;face=0_0_629_517,https://scrap.kakaocdn.net/dn/dO7hoL/hyTg0686WE/vX3KSLqLXOc53My78U29dk/img.png?width=629&amp;amp;height=517&amp;amp;face=0_0_629_517,https://scrap.kakaocdn.net/dn/wq2Fp/hyTim8ANgV/GZzmRhDouMmcllSxfXAX3k/img.png?width=629&amp;amp;height=517&amp;amp;face=0_0_629_517');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;[NLP][Language Model] T5(Text-to-Text Transfer Transformer)&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Transformer 모델의 성능 향상을 위한 시도 1. 어떻게 더 많이, 더 잘 훈련시켜서 성능을 향상시킬 수 있을까? pre-training objective 변형, 모델 변경 등 연구 난이도가 훨씬 높고 computing resource도 많이 필&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;yumdata.tistory.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;LLMs Use Case Scenarios&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;전통적인 NLP 알고리즘은 일반적으로 단어의 즉각적인 맥락만 보는 반면 LLM은 맥락을 더 잘 이해하기 위해 많은 양의 텍스트를 고려합니다. 다음은 텍스트 생성 및 텍스트 완성을 위한 자동 회귀 및 자동 인코딩 대규모 언어 모델의 사용을 보여주는 두 가지 예제 시나리오입니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;자기회귀 모델이 어떻게 작동하는지 예를 들어 보겠습니다. 앞에서 배운 것처럼 GPT와 같은 자동 회귀 모델은 주어진 입력 프롬프트를 기반으로 일관되고 문맥적으로 관련 있는 문장을 생성합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;자동 회귀 모델에 대한 입력이 다음과 같다고 가정해 보겠습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&amp;ldquo;Introducing new smartphone, the UltraPhone 3000, which is designed to&amp;rdquo;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;생성된 텍스트는 다음과 같습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;&amp;ldquo;redefine your mobile experience with its cutting-edge technology and unparalleled performance.&amp;rdquo;&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;자동 인코딩 모델이 작동하는 방식에 대한 또 다른 예를 들어 보겠습니다. 앞에서 배운 것처럼 BERT와 같은 자동 인코딩 모델은 문장에서 누락되거나 가려진 단어를 채우는 데 사용되어 의미론적으로 의미 있고 완전한 문장을 생성합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;자동 인코딩 모델에 대한 입력이 다음과 같다고 가정해 보겠습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;The latest superhero movie had an _______ storyline, but the visual effects were _______.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;완성된 텍스트는 다음과 같습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;The latest superhero movie had an&amp;nbsp;&lt;b&gt;decent&lt;/b&gt;&amp;nbsp;storyline, but the visual effects were&amp;nbsp;&lt;b&gt;mind-blowing.&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Key Building Blocks&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM(Large Language Models)은 자연어 데이터를 효율적으로 처리하고 이해할 수 있게 해주는 몇 가지 주요 빌딩 블록으로 구성됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;415&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cCCMm7/btsnhSSBMsR/XZePIRp8jZKEd3QBU7svJ0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cCCMm7/btsnhSSBMsR/XZePIRp8jZKEd3QBU7svJ0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cCCMm7/btsnhSSBMsR/XZePIRp8jZKEd3QBU7svJ0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcCCMm7%2FbtsnhSSBMsR%2FXZePIRp8jZKEd3QBU7svJ0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;515&quot; height=&quot;334&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;415&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Tokenization&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;토큰화는 일련의 텍스트를 모델이 이해할 수 있는 개별 단어, 하위 단어 또는 토큰으로 변환하는 프로세스입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM에서 토큰화는 일반적으로 BPE(Byte Pair Encoding) 또는 WordPiece와 같은 하위 단어 알고리즘을 사용하여 수행되며, 이는 텍스트를 빈도가 높은 단어와 희귀한 단어를 모두 캡처하는 더 작은 단위로 분할합니다. 이 접근 방식은 모든 텍스트 시퀀스를 나타내는 기능을 유지하면서 모델의 어휘 크기를 제한하는 데 도움이 됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Embedding&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;임베딩은 고차원 공간에서 의미론적 의미를 캡처하는 단어 또는 토큰의 연속적인 벡터 표현입니다. 이를 통해 모델은 개별 토큰을 신경망에서 처리할 수 있는 형식으로 변환할 수 있습니다. LLM에서 임베딩은 훈련 프로세스 중에 학습되며 결과 벡터 표현은 동의어 또는 유추와 같은 단어 간의 복잡한 관계를 캡처할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Attention&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM의 어텐션 메커니즘, 특히 트랜스포머에 사용되는 셀프 어텐션 메커니즘을 통해 모델은 주어진 컨텍스트에서 다른 단어나 구문의 중요성을 평가할 수 있습니다. 입력 시퀀스의 토큰에 서로 다른 가중치를 할당함으로써 모델은 덜 중요한 세부 정보를 무시하면서 가장 관련성이 높은 정보에 집중할 수 있습니다. 입력의 특정 부분에 선택적으로 초점을 맞추는 이 기능은 장기적인 종속성을 캡처하고 자연어의 뉘앙스를 이해하는 데 중요합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Pre-training&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Pre-training은 특정 작업을 위해 fine-tuning하기 전에 일반적으로 unsupervised 또는 self-supervised되는 대규모 데이터 세트에서 LLM을 훈련하는 프로세스입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;사전 학습 중에 모델은 일반적인 언어 패턴, 단어 간의 관계 및 기타 기본 지식을 학습합니다. 이 프로세스는 더 작은 작업별 데이터 세트를 사용하여 fine-tuning할 수 있는 사전 훈련된 모델을 생성하여 다양한 NLP 작업에서 높은 성능을 달성하는 데 필요한 레이블이 지정된 데이터의 양과 훈련 시간을 크게 줄입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Transfer Learning&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;특정 태스크를 학습한 모델을 다른 태스크 수행에 재 사용하는 기법&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Transfer Learning은 pre-training 중에 얻은 지식을 활용하여 새로운 관련 작업에 적용하는 기술입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;LLM의 맥락에서 transfer learning에는 해당 작업에서 높은 성능을 달성하기 위해 더 작은 작업별 데이터 세트에서 사전 훈련된 모델을 fine-tuning하는 작업이 포함됩니다. &lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;transfer learning&lt;/span&gt;의 이점은 모델이 사전 훈련 중에 학습된 방대한 양의 일반 언어 지식으로부터 이점을 얻을 수 있도록 하여 레이블이 지정된 대규모 데이터 세트와 각각의 새로운 작업에 대한 광범위한 훈련의 필요성을 줄인다는 것입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;716&quot; data-origin-height=&quot;388&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/TZYrM/btsngIDesFh/trqdBfEZjwb2ZXCvC3DNbK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/TZYrM/btsngIDesFh/trqdBfEZjwb2ZXCvC3DNbK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/TZYrM/btsngIDesFh/trqdBfEZjwb2ZXCvC3DNbK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FTZYrM%2FbtsngIDesFh%2FtrqdBfEZjwb2ZXCvC3DNbK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;472&quot; height=&quot;256&quot; data-origin-width=&quot;716&quot; data-origin-height=&quot;388&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Examples of Large Language Models&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/90&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[NLP] Language Model 종류&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/411&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[Large Language Model] FLAN-T5&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/416&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[Large Language Model] GPT-NeoX-20B&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/415&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[Large Language Model] mT5-xxl&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/414&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[Large Language Model] Flan-UL2&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/413&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[Large Language Model] BLOOMZ &amp;amp; mT0&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/412&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[Large Language Model] BLOOM&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;결론&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;대규모 언어 모델은 인간의 개입을 최소화하면서 자연어 데이터를 빠르고 정확하게 처리하기 위한 강력한 도구입니다. 이러한 모델은 텍스트 생성, 감정 분석, 질문 응답 시스템, 자동 요약, 기계 번역, 문서 분류 등과 같은 다양한 작업에 사용할 수 있습니다. 방대한 양의 텍스트 데이터를 빠르고 정확하게 처리할 수 있는 LLM의 능력 덕분에 LLM은 다양한 산업 분야의 다양한 응용 프로그램을 위한 귀중한 도구가 되었습니다. NLP 연구자와 전문가는 빠르게 진화하는 이 분야에서 앞서 나가려면 대규모 언어 모델에 확실히 익숙해져야 합니다. 대체로 대규모 언어 모델은 기계가 자연어를 더 잘 이해하고 텍스트를 처리할 때 더 정확한 결과를 생성할 수 있도록 하기 때문에 NLP에서 중요한 역할을 합니다. 이러한 모델은 딥 러닝 신경망과 같은 AI 기술을 활용하여 방대한 양의 데이터를 빠르게 분석하고 다양한 산업 분야의 다양한 응용 프로그램에 사용할 수 있는 매우 정확한 결과를 제공할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;White Papers for Learning Large Language Models&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc; background-color: #ffffff; color: #575757; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;Neural Machine Translation by Jointly Learning to Align and Translate&lt;/b&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;(2014) by Bahdanau, Cho, and Bengio,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a href=&quot;https://arxiv.org/abs/1409.0473&quot;&gt;https://arxiv.org/abs/1409.0473&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Attention Is All You Need&lt;/b&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;(2017) by Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, and Polosukhin,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a href=&quot;https://arxiv.org/abs/1706.03762&quot;&gt;https://arxiv.org/abs/1706.03762&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;b&gt;BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding&lt;/b&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;(2018) by Devlin, Chang, Lee, and Toutanova,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a href=&quot;https://arxiv.org/abs/1810.04805&quot;&gt;https://arxiv.org/abs/1810.04805&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Improving Language Understanding by Generative Pre-Training&lt;/b&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;(2018) by Radford and Narasimhan,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a href=&quot;https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035&quot;&gt;https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;b&gt;BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;(2019), by Lewis, Liu, Goyal, Ghazvininejad, Mohamed, Levy, Stoyanov, and Zettlemoyer,&lt;a style=&quot;color: #62a6e4;&quot; href=&quot;https://arxiv.org/abs/1910.13461&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/a&gt;&lt;a href=&quot;https://arxiv.org/abs/1910.13461&quot;&gt;https://arxiv.org/abs/1910.13461&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;b&gt;Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;(2023) by Yang, Jin, Tang, Han, Feng, Jiang, Yin, and Hu,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a href=&quot;https://arxiv.org/abs/2304.13712&quot;&gt;https://arxiv.org/abs/2304.13712&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://vitalflux.com/large-language-models-concepts-examples/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://vitalflux.com/large-language-models-concepts-examples/&lt;/a&gt;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>언어모델</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/418</guid>
      <comments>https://yumdata.tistory.com/418#entry418comment</comments>
      <pubDate>Tue, 11 Jul 2023 18:20:10 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] MPT-7B, MPT-7B-Instruct</title>
      <link>https://yumdata.tistory.com/417</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;MPT-7B&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://huggingface.co/mosaicml/mpt-7b&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://huggingface.co/mosaicml/mpt-7b&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689055477425&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;mosaicml/mpt-7b &amp;middot; Hugging Face&quot; data-og-description=&quot;MPT-7B MPT-7B is a decoder-style transformer pretrained from scratch on 1T tokens of English text and code. This model was trained by MosaicML. MPT-7B is part of the family of MosaicPretrainedTransformer (MPT) models, which use a modified transformer archi&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/mosaicml/mpt-7b&quot; data-og-url=&quot;https://huggingface.co/mosaicml/mpt-7b&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/chgT0n/hyTgN0WWY3/7xCuTVdVhAMZwSko4rcAK0/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/bmhyzl/hyTimOckb1/Gvfg7FXEgwWd9C0wIQ312k/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200&quot;&gt;&lt;a href=&quot;https://huggingface.co/mosaicml/mpt-7b&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/mosaicml/mpt-7b&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/chgT0n/hyTgN0WWY3/7xCuTVdVhAMZwSko4rcAK0/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/bmhyzl/hyTimOckb1/Gvfg7FXEgwWd9C0wIQ312k/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;mosaicml/mpt-7b &amp;middot; Hugging Face&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;MPT-7B MPT-7B is a decoder-style transformer pretrained from scratch on 1T tokens of English text and code. This model was trained by MosaicML. MPT-7B is part of the family of MosaicPretrainedTransformer (MPT) models, which use a modified transformer archi&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;a decoder-style transformer pretrained from scratch on 1T tokens of English text and code&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;trained by &lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; href=&quot;https://www.mosaicml.com/&quot;&gt;MosaicML&lt;/a&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;MPT-7B는 MosaicPretrainedTransformer(MPT) 모델 제품군의 일부로 효율적인 훈련 및 추론에 최적화된 수정된 transformer 아키텍처를 사용합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이러한 아키텍처 변경에는 위치 임베딩을 &lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; href=&quot;https://arxiv.org/abs/2108.12409&quot;&gt;ALiBi&lt;/a&gt;(Attention with Linear Biases)로 대체하여 성능 최적화된 레이어 구현 및 컨텍스트 길이 제한 제거가 포함됩니다. 이러한 수정 덕분에 MPT 모델은 높은 처리량 효율성과 안정적인 수렴으로 훈련될 수 있습니다. MPT 모델은 또한 표준 HuggingFace 파이프라인과 NVIDIA의 &lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; href=&quot;https://github.com/NVIDIA/FasterTransformer&quot;&gt;FasterTransformer&lt;/a&gt; 모두에서 효율적으로 제공될 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 모델은 &lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; href=&quot;https://github.com/mosaicml/llm-foundry&quot;&gt;llm-foundry repository&lt;/a&gt;에서 찾을 수 있는 MosaicML LLM 코드베이스를 사용합니다. LLM pretraining, finetuning 및 추론(inference)을 위해 &lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; href=&quot;https://www.mosaicml.com/training&quot;&gt;MosaicML platform&lt;/a&gt;에서 MosaicML의 NLP 팀에 의해 훈련되었습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Training Data&lt;/span&gt;&lt;/h3&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Streaming Datasets&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터는 MosaicML &lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; href=&quot;https://github.com/mosaicml/streaming&quot;&gt;StreamingDataset&lt;/a&gt; 라이브러리를 사용하여 형식화되어 데이터를 객체 스토리지에 호스팅하고 훈련 중에 컴퓨팅 클러스터로 효율적으로 스트리밍합니다. &lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;StreamingDataset은 훈련을 시작하기 전에 전체 데이터 세트를 다운로드할 필요가 없으며 데이터 세트의 모든 지점에서 훈련을 즉시 재개할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Data Mix&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 모델은 1T 토큰(배치 크기 1760 및 시퀀스 길이 2048)에 대해 훈련되었습니다. 다음 데이터 조합에 대해 교육을 받았습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;731&quot; data-origin-height=&quot;511&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/L8xqd/btsng6QKdYF/KhLTo5bNzxfxa9lKXyKzU1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/L8xqd/btsng6QKdYF/KhLTo5bNzxfxa9lKXyKzU1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/L8xqd/btsng6QKdYF/KhLTo5bNzxfxa9lKXyKzU1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FL8xqd%2Fbtsng6QKdYF%2FKhLTo5bNzxfxa9lKXyKzU1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;731&quot; height=&quot;511&quot; data-origin-width=&quot;731&quot; data-origin-height=&quot;511&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;MPT-7B-Instruct&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://huggingface.co/mosaicml/mpt-7b-instruct&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://huggingface.co/mosaicml/mpt-7b-instruct&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689055470901&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;mosaicml/mpt-7b-instruct &amp;middot; Hugging Face&quot; data-og-description=&quot;MPT-7B-Instruct MPT-7B-Instruct is a model for short-form instruction following. It is built by finetuning MPT-7B on a dataset derived from the Databricks Dolly-15k and the Anthropic Helpful and Harmless (HH-RLHF) datasets. This model was trained by Mosaic&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/mosaicml/mpt-7b-instruct&quot; data-og-url=&quot;https://huggingface.co/mosaicml/mpt-7b-instruct&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/cX8riK/hyTirhFe8Q/6jWaDxvrgy8ea5gDLMw0Yk/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200&quot;&gt;&lt;a href=&quot;https://huggingface.co/mosaicml/mpt-7b-instruct&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/mosaicml/mpt-7b-instruct&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/cX8riK/hyTirhFe8Q/6jWaDxvrgy8ea5gDLMw0Yk/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;mosaicml/mpt-7b-instruct &amp;middot; Hugging Face&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;MPT-7B-Instruct MPT-7B-Instruct is a model for short-form instruction following. It is built by finetuning MPT-7B on a dataset derived from the Databricks Dolly-15k and the Anthropic Helpful and Harmless (HH-RLHF) datasets. This model was trained by Mosaic&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;짧은 형태의 지시를 따르기 위한 모델. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot; href=&quot;https://huggingface.co/datasets/databricks/databricks-dolly-15k&quot;&gt;Databricks Dolly-15k&lt;/a&gt;&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: left;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;및 &lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot; href=&quot;https://huggingface.co/datasets/Anthropic/hh-rlhf&quot;&gt;Anthropic Helpful and Harmless (HH-RLHF)&lt;/a&gt;&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: left;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;데이터 세트에서 파생된 데이터 세트에서 MPT-7B를 finetuning하여 구축&lt;/span&gt;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>MPT-7B</category>
      <category>MPT-7B-Instruct</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/417</guid>
      <comments>https://yumdata.tistory.com/417#entry417comment</comments>
      <pubDate>Tue, 11 Jul 2023 15:16:34 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] GPT-NeoX-20B</title>
      <link>https://yumdata.tistory.com/416</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;GPT-NeoX-20B&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://huggingface.co/EleutherAI/gpt-neox-20b&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://huggingface.co/EleutherAI/gpt-neox-20b&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689054782996&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;EleutherAI/gpt-neox-20b &amp;middot; Hugging Face&quot; data-og-description=&quot;GPT-NeoX-20B is a 20 billion parameter autoregressive language model trained on the Pile using the GPT-NeoX library. Its architecture intentionally resembles that of GPT-3, and is almost identical to that of GPT-J- 6B. Its training dataset contains a multi&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/EleutherAI/gpt-neox-20b&quot; data-og-url=&quot;https://huggingface.co/EleutherAI/gpt-neox-20b&quot; data-og-image=&quot;&quot;&gt;&lt;a href=&quot;https://huggingface.co/EleutherAI/gpt-neox-20b&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/EleutherAI/gpt-neox-20b&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url();&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;EleutherAI/gpt-neox-20b &amp;middot; Hugging Face&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;GPT-NeoX-20B is a 20 billion parameter autoregressive language model trained on the Pile using the GPT-NeoX library. Its architecture intentionally resembles that of GPT-3, and is almost identical to that of GPT-J- 6B. Its training dataset contains a multi&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Transformer(Decoder)-based Language Model&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; href=&quot;https://github.com/EleutherAI/gpt-neox&quot;&gt;GPT-NeoX library&lt;/a&gt;를 사용하여 Pile에서 훈련된 자동 회귀 언어 모델(&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;autoregressive language model)&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;아키텍처는 의도적으로&lt;b&gt; GPT-3과 유사&lt;/b&gt;하며 &lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; href=&quot;https://huggingface.co/EleutherAI/gpt-j-6B&quot;&gt;GPT-J- 6B&lt;/a&gt;와 거의 동일합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;training 데이터 세트에는 이 모델의 범용 특성을 반영하는 다양한 &lt;b&gt;영어&lt;/b&gt; 텍스트가 포함되어 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Limitations and biases&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;GPT-NeoX-20B의 핵심 기능은 텍스트 문자열을 가져와 다음 토큰을 예측하는 것입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;통계적으로 가장 가능성이 높은 다음 토큰이 가장 '정확한' 텍스트를 생성할 필요는 없음을 기억하십시오. 사실적으로 정확한 출력을 생성하기 위해 GPT-NeoX-20B에 의존하지 마십시오.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 모델은 외설적이거나 불쾌감을 주는 욕설 및 텍스트를 포함하는 것으로 알려진 데이터 세트인 Pile에서 훈련되었습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;GPT-NeoX-20B는 프롬프트 자체에 명시적으로 공격적인 내용이 포함되어 있지 않더라도 사회적으로 용인되지 않거나 바람직하지 않은 텍스트를 생성할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;인간 독자에게 제시하기 전에 이 모델의 출력을 큐레이팅하는 것이 좋습니다. 인위적으로 생성된 텍스트를 사용하고 있음을 청중에게 알리십시오.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Training dataset&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;The Pile은 영어로 된 825GiB 범용 데이터 세트입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;대규모 언어 모델 교육을 위해 특별히 EleutherAI에서 만들었습니다. 여기에는 22개의 다양한 출처에서 가져온 텍스트가 포함되어 있으며 대략 다섯 가지 범주로 나뉩니다: &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;학술 작문(예: arXiv), 인터넷(예: CommonCrawl), 산문(예: Project Gutenberg), 대화(예: YouTube 자막) 및 기타(예: GitHub, Enron 이메일) ). &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;모든 데이터 소스, 방법론 및 윤리적 함의에 대한 논의는 파일 문서(&lt;a href=&quot;https://arxiv.org/abs/2101.00027&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://arxiv.org/abs/2101.00027&lt;/a&gt;)를 참조하십시오.&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Pile은 GPT-NeoX-20B 훈련에 사용되기 전에 중복 제거되지 않았습니다.&lt;/span&gt;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>GPT-NeoX</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/416</guid>
      <comments>https://yumdata.tistory.com/416#entry416comment</comments>
      <pubDate>Tue, 11 Jul 2023 15:00:39 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] mT5-xxl</title>
      <link>https://yumdata.tistory.com/415</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;mT5-xxl&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/mt5-xxl&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://huggingface.co/google/mt5-xxl&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689054036672&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;google/mt5-xxl &amp;middot; Hugging Face&quot; data-og-description=&quot;Google's mT5 mT5 is pretrained on the mC4 corpus, covering 101 languages: Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Burmese, Catalan, Cebuano, Chichewa, Chinese, Corsican, Czech, Danish, Dutch, Eng&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/google/mt5-xxl&quot; data-og-url=&quot;https://huggingface.co/google/mt5-xxl&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/YV8i4/hyTiuenl3K/DMDb2FXf0oVGU5o0yDlrn0/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/ZOrRM/hyTiAyS8Ua/siOpEKdqNHPYUU5G3VzfQK/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/mt5-xxl&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/google/mt5-xxl&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/YV8i4/hyTiuenl3K/DMDb2FXf0oVGU5o0yDlrn0/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/ZOrRM/hyTiAyS8Ua/siOpEKdqNHPYUU5G3VzfQK/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;google/mt5-xxl &amp;middot; Hugging Face&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Google's mT5 mT5 is pretrained on the mC4 corpus, covering 101 languages: Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Burmese, Catalan, Cebuano, Chichewa, Chinese, Corsican, Czech, Danish, Dutch, Eng&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;An&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;encoder-decoder model&lt;/span&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;based on the&amp;nbsp;&lt;/span&gt;T5&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;pretrained on the&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; href=&quot;https://www.tensorflow.org/datasets/catalog/c4#c4multilingual&quot;&gt;mC4&lt;/a&gt;&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;corpus, covering 101 languages (including Korean)&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;mT5는 supervised training을 제외하고 mC4에서만 pre-trained을 받았습니다. 따라서 이 모델은 downstream task에서 사용할 수 있기 전에 fine-tuned되어야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;최근의 '텍스트-텍스트 전송 변환기'(T5)는 통합된 텍스트-텍스트 형식 및 확장을 활용하여 다양한 영어 NLP 작업에서 최신 결과를 얻었습니다. 이 백서에서는 101개 언어를 다루는 새로운 Common Crawl 기반 데이터 세트에서 사전 훈련된 T5의 다국어 변형인 mT5를 소개합니다. 우리는 mT5의 설계 및 수정된 교육을 설명하고 많은 다국어 벤치마크에서 최신 성능을 시연합니다. 이 작업에 사용된 모든 코드 및 모델 체크포인트는 공개적으로 사용할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>mt5</category>
      <category>T5</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/415</guid>
      <comments>https://yumdata.tistory.com/415#entry415comment</comments>
      <pubDate>Tue, 11 Jul 2023 14:44:10 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] Flan-UL2</title>
      <link>https://yumdata.tistory.com/414</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Flan-UL2&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/flan-ul2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://huggingface.co/google/flan-ul2&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689051343225&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;google/flan-ul2 &amp;middot; Hugging Face&quot; data-og-description=&quot;Flan-UL2 is an encoder decoder model based on the T5 architecture. It uses the same configuration as the UL2 model released earlier last year. It was fine tuned using the &amp;quot;Flan&amp;quot; prompt tuning and dataset collection. You can use the convert_t5x_checkpoint_t&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/google/flan-ul2&quot; data-og-url=&quot;https://huggingface.co/google/flan-ul2&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/bFzY86/hyTiokUgwG/vQkKZktQY36oK3y9ODcmDk/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/wmGDi/hyTg1SrWmA/iW4oatG1IU01udzldXE5O0/img.png?width=1144&amp;amp;height=758&amp;amp;face=0_0_1144_758,https://scrap.kakaocdn.net/dn/C52wb/hyTirIHxyl/lTOXLX59GMld0Q4KCpHBo1/img.png?width=1144&amp;amp;height=758&amp;amp;face=0_0_1144_758&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/flan-ul2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/google/flan-ul2&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/bFzY86/hyTiokUgwG/vQkKZktQY36oK3y9ODcmDk/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/wmGDi/hyTg1SrWmA/iW4oatG1IU01udzldXE5O0/img.png?width=1144&amp;amp;height=758&amp;amp;face=0_0_1144_758,https://scrap.kakaocdn.net/dn/C52wb/hyTirIHxyl/lTOXLX59GMld0Q4KCpHBo1/img.png?width=1144&amp;amp;height=758&amp;amp;face=0_0_1144_758');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;google/flan-ul2 &amp;middot; Hugging Face&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Flan-UL2 is an encoder decoder model based on the T5 architecture. It uses the same configuration as the UL2 model released earlier last year. It was fine tuned using the &quot;Flan&quot; prompt tuning and dataset collection. You can use the convert_t5x_checkpoint_t&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Google, 20 billion parameters,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;&lt;a style=&quot;background-color: #f9f5ff; color: #1779ba; text-align: start;&quot; href=&quot;https://huggingface.co/google/flan-ul2&quot;&gt;&lt;b&gt;downloadable from HuggingFace&lt;/b&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;An &lt;span style=&quot;color: #ee2323;&quot;&gt;encoder-decoder model&lt;/span&gt; based on the&amp;nbsp;&lt;/span&gt;T5&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;&amp;nbsp;architecture and instruction-tuned using the Fine-tuned Language Net.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Flan-UL2는 인코더 디코더 모델이며 그 핵심은 &lt;a style=&quot;background-color: #f9f5ff; color: #1779ba; text-align: start;&quot; href=&quot;https://ai.googleblog.com/2021/10/introducing-flan-more-generalizable.html&quot;&gt;&lt;span&gt;Flan&lt;/span&gt;&lt;/a&gt;을 사용하여 훈련된 &lt;a style=&quot;background-color: #f9f5ff; color: #1779ba; text-align: start;&quot; href=&quot;https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html&quot;&gt;&lt;span&gt;T5 model&lt;/span&gt;&lt;/a&gt;&lt;span style=&quot;background-color: #f9f5ff; color: #000000; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;의 강화된 버전입니다. Flan-T5의 '이전' 버전을 능가하는 성능을 보여준다. Flan-UL2는 Apache-2.0 라이선스를 보유하고 있으며 사용법 및 교육에 대한 세부 정보가 공개되었으므로 자체 호스팅 또는 fine-tuning 가능한 모델에 대한 선택입니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Flan-UL2의 200억 매개변수가 너무 많은 경우 5가지 크기로 제공되고 요구 사항에 더 적합할 수 있는&lt;span style=&quot;background-color: #f9f5ff; color: #000000; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;a style=&quot;background-color: #f9f5ff; color: #1779ba; text-align: start;&quot; href=&quot;https://huggingface.co/docs/transformers/model_doc/flan-t5&quot;&gt;&lt;span&gt;Flan-T5&lt;/span&gt;&lt;/a&gt;의 이전 반복을 고려하십시오.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;2022년 초 출시된 UL2 모델과 동일한 구성을 사용합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;'Flan' 프롬프트 튜닝 및 데이터 세트 수집을 사용하여 fine-tuned되었습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;원래 UL2 모델은 512의 수용 필드로만 훈련되었으므로 N이 큰 N-shot 프롬프트에 적합하지 않았습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Flan-UL2 체크포인트는 2048의 수용 필드를 사용하여 상황에 맞는 몇 번의 학습(few-shot in-context learning)에 더 유용합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;원래 UL2 모델에는 좋은 성능을 얻기 위해 다소 필수적인 모드 스위치 토큰도 있었습니다. 그러나 추론 또는 finetuning 중에 종종 약간의 변경이 필요하기 때문에 약간 번거롭습니다. 이 업데이트/변경에서는 Flan 명령 튜닝을 적용하기 전에 '모드 토큰'을 잊어버리기 위해 추가 100k 단계(작은 배치 포함)에 대해 UL2 20B를 계속 교육합니다. 이 Flan-UL2 체크포인트는 더 이상 모드 토큰이 필요하지 않습니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;background-color: #ffffff; color: #374151; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span&gt;Introduction to UL2&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span&gt;&lt;a href=&quot;https://huggingface.co/google/ul2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://huggingface.co/google/ul2&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689051776926&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;google/ul2 &amp;middot; Hugging Face&quot; data-og-description=&quot;UL2 is a unified framework for pretraining models that are universally effective across datasets and setups. UL2 uses Mixture-of-Denoisers (MoD), apre-training objective that combines diverse pre-training paradigms together. UL2 introduces a notion of mode&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/google/ul2&quot; data-og-url=&quot;https://huggingface.co/google/ul2&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/bUwvFb/hyTiqbXFf1/y5ibvpZaGyGwe5iMjJxf3k/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/bkyBNp/hyTgZ1njxG/2XbksIZiI2LwH4fpWc4FW0/img.png?width=1144&amp;amp;height=758&amp;amp;face=0_0_1144_758,https://scrap.kakaocdn.net/dn/RZWg4/hyTiqiIXz4/vKW5srLhcEumYhbkG2GNQK/img.png?width=1762&amp;amp;height=485&amp;amp;face=0_0_1762_485&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/ul2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/google/ul2&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/bUwvFb/hyTiqbXFf1/y5ibvpZaGyGwe5iMjJxf3k/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/bkyBNp/hyTgZ1njxG/2XbksIZiI2LwH4fpWc4FW0/img.png?width=1144&amp;amp;height=758&amp;amp;face=0_0_1144_758,https://scrap.kakaocdn.net/dn/RZWg4/hyTiqiIXz4/vKW5srLhcEumYhbkG2GNQK/img.png?width=1762&amp;amp;height=485&amp;amp;face=0_0_1762_485');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;google/ul2 &amp;middot; Hugging Face&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;UL2 is a unified framework for pretraining models that are universally effective across datasets and setups. UL2 uses Mixture-of-Denoisers (MoD), apre-training objective that combines diverse pre-training paradigms together. UL2 introduces a notion of mode&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1144&quot; data-origin-height=&quot;758&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/2eLEI/btsm9vkaVlU/ZriZXNAERqr3uCBRnRD8Uk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/2eLEI/btsm9vkaVlU/ZriZXNAERqr3uCBRnRD8Uk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/2eLEI/btsm9vkaVlU/ZriZXNAERqr3uCBRnRD8Uk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F2eLEI%2Fbtsm9vkaVlU%2FZriZXNAERqr3uCBRnRD8Uk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;717&quot; height=&quot;475&quot; data-origin-width=&quot;1144&quot; data-origin-height=&quot;758&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;UL2는 데이터세트와 설정 전반에 걸쳐 보편적으로 효과적인 사전 학습 모델을 위한 통합 프레임워크입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;UL2는 다양한 사전 훈련 패러다임을 함께 결합하는 사전 훈련 목표인 MoD(Mixture-of-Denoisers)를 사용합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;UL2는 다운스트림 fine-tuning이 특정 사전 훈련 체계와 관련된 모드 전환 개념을 도입합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;개요&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;Paper:&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;a style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; href=&quot;https://arxiv.org/abs/2205.05131v1&quot;&gt;Unifying Language Learning Paradigms&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689052197320&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Unifying Language Learning Paradigms&quot; data-og-description=&quot;Existing pre-trained models are generally geared towards a particular class of problems. To date, there seems to be still no consensus on what the right architecture and pre-training setup should be. This paper presents a unified framework for pre-training&quot; data-og-host=&quot;arxiv.org&quot; data-og-source-url=&quot;https://arxiv.org/abs/2205.05131v1&quot; data-og-url=&quot;https://arxiv.org/abs/2205.05131v1&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/0mNgA/hyTiCpVQrY/RVOOLrLwImKFEnvxDYmvn1/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/vcSRf/hyTinTQgN3/T7TY9yKurlOfGoFKgLqNF0/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2205.05131v1&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://arxiv.org/abs/2205.05131v1&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/0mNgA/hyTiCpVQrY/RVOOLrLwImKFEnvxDYmvn1/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/vcSRf/hyTinTQgN3/T7TY9yKurlOfGoFKgLqNF0/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Unifying Language Learning Paradigms&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Existing pre-trained models are generally geared towards a particular class of problems. To date, there seems to be still no consensus on what the right architecture and pre-training setup should be. This paper presents a unified framework for pre-training&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;arxiv.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;기존의 사전 훈련(pre-trained)된 모델은 일반적으로 특정 문제 클래스에 맞춰져 있습니다. &lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;현재까지 올바른 아키텍처와 사전 훈련 설정이 무엇인지에 대한 합의가 아직 없는 것 같습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 백서에서는 데이터 세트와 설정 전반에 걸쳐 보편적으로 효과적인 사전 학습 모델을 위한 통합 프레임워크를 제시합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;일반적으로 결합되는 두 가지 개념인 사전 교육 목표를 사용하여 architecture 원형을 분리하는 것으로 시작합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;다음으로, 우리는 NLP에서 자기 감독(self-supervision)을 위한 일반화되고 통합된 관점을 제시하고 서로 다른 사전 훈련 목표가 서로 캐스팅될 수 있는 방법과 서로 다른 목표 사이의 보간이 어떻게 효과적일 수 있는지 보여줍니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그런 다음 다양한 사전 훈련 패러다임을 함께 결합하는 사전 훈련 목표인 MoD(Mixture-of-Denoisers)를 제안합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;또한 다운스트림 fine-tuning이 특정 사전 훈련 체계와 관련된 모드 전환 개념을 도입합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;여러 사전 훈련 목표를 비교하기 위해 광범위한 제거 실험을 수행하고 여러 다양한 설정에서 T5 및/또는 GPT 유사 모델을 능가하여 Pareto-frontier를 추진한다는 것을 발견했습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;마지막으로 모델을 최대 200억 개의 매개변수로 확장하여 언어 생성(자동 및 인간 평가 사용), 언어 이해, 텍스트 분류, 질문 응답, 상식 추론, 긴 텍스트 추론에 이르기까지 50개의 잘 확립된 감독 NLP 작업에서 SOTA 성능을 달성합니다.&lt;br /&gt;구조화된 지식 접지 및 정보 검색. 우리의 모델은 또한 문맥 학습에서 강력한 결과를 달성하여 제로샷 SuperGLUE에서 175B GPT-3을 능가하고 원샷 요약에서 T5-XXL의 성능을 세 배로 늘립니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Training&lt;/span&gt;&lt;/h2&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Flan-UL2&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Flan-UL2 모델은 UL2 체크포인트를 사용하여 초기화한 후 Flan Prompting을 사용하여 추가로 학습했습니다. 이것은 원래 훈련 코퍼스가 C4라는 것을 의미합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;'Scaling Instruction-Finetuned language models(Chung et al.)'(때때로 Flan2 논문이라고도 함)에서 핵심 아이디어는 데이터 세트 모음에서 대규모 언어 모델을 교육하는 것입니다. 이러한 데이터 세트는 다양한 작업에서 일반화를 가능하게 하는 지침으로 표현됩니다. Flan은 주로 학업 과제에 대한 교육을 받았습니다. Flan2에서는 Flan으로 명령 조정된 200M에서 11B 매개변수 범위의 일련의 T5 모델을 출시했습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Flan 데이터 세트는 'The Flan Collection: Designing Data and Methods for Effective Instruction Tuning'(Longpre et al.)에서도 오픈 소스로 제공되었습니다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;UL2 Pretraining&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;모델은 C4 말뭉치에서 사전 훈련됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;사전 훈련을 위해 모델은 배치 크기 1024로 C4(2백만 단계)에서 총 1조 개의 토큰에 대해 훈련됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;시퀀스 길이는 입력 및 대상에 대해 512/512로 설정됩니다. 드롭아웃은 사전 훈련 중에 0으로 설정됩니다. 사전 훈련에는 약 1조 개의 토큰에 대해 한 달이 약간 넘게 걸렸습니다. 이 모델에는 32개의 인코더 레이어와 32개의 디코더 레이어, dmodel은 4096, df는 16384가 있습니다. 각 헤드의 차원은 총 16개의 헤드에 대해 256입니다. 우리 모델은 8의 모델 병렬성을 사용합니다. 어휘 크기 32000의 T5와 동일한 문장 조각 토크나이저가 사용됩니다(T5 토크나이저에 대한 자세한 내용을 보려면 여기를 클릭하십시오).&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;UL-20B는 T5와 매우 유사하지만 다른 목적과 약간 다른 스케일링 노브로 훈련된 모델로 해석할 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;UL-20B는 Jax 및 T5X 인프라를 사용하여 훈련되었습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Mixture of Denoisers&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;강력한 범용 모델은 사전 교육 중에 다양한 문제를 해결하기 위해 노출되어야 한다고 추측합니다. &lt;br /&gt;pre-training이 self-supervision을 사용하여 수행된다는 점을 감안할 때 이러한 다양성이 모델의 목적에 주입되어야 한다고 주장합니다. 그렇지 않으면 모델이 long-coherent 텍스트 생성과 같은 특정 기능이 부족할 수 있습니다.&amp;nbsp;&lt;/blockquote&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1762&quot; data-origin-height=&quot;485&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bDlHLe/btsm83O56Js/GKbAKlplYI4ZjvyLmaFF90/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bDlHLe/btsm83O56Js/GKbAKlplYI4ZjvyLmaFF90/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bDlHLe/btsm83O56Js/GKbAKlplYI4ZjvyLmaFF90/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbDlHLe%2Fbtsm83O56Js%2FGKbAKlplYI4ZjvyLmaFF90%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1762&quot; height=&quot;485&quot; data-origin-width=&quot;1762&quot; data-origin-height=&quot;485&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;R-Denoiser&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;일반 잡음 제거는 T5에 도입된 표준 범위 손상으로, 범위 길이로 2~5개의 토큰 범위를 사용하여 입력 토큰의 약 15%를 마스킹합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 범위는 유창한 텍스트를 생성하는 방법을 배우는 대신 지식을 습득하는 데 짧고 잠재적으로 유용합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;S-Denoiser&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;입력에서 대상으로 작업을 프레이밍할 때 엄격한 순차적 순서를 관찰하는 노이즈 제거의 특정 사례, 즉 접두사 언어 모델링. 이를 위해 입력 시퀀스를 컨텍스트와 대상으로 토큰의 두 하위 시퀀스로 분할하여 대상이 미래 정보에 의존하지 않도록 합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이는 컨텍스트 토큰보다 이전 위치의 대상 토큰이 있을 수 있는 표준 범위 손상과 다릅니다. Prefix-LM 설정과 유사하게 컨텍스트(접두사)는 양방향 수용 필드를 유지합니다. 메모리가 매우 짧거나 메모리가 없는 S-Denoising은 표준 인과 언어 모델링과 유사한 정신에 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;X-Denoiser&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;노이즈 제거의 극단적인 버전으로 모델이 입력의 상당 부분을 복구해야 하며 입력의 작거나 중간 부분이 주어집니다. 이것은 모델이 상대적으로 제한된 정보로 메모리에서 긴 대상을 생성해야 하는 상황을 시뮬레이션합니다. 이를 위해 입력 시퀀스의 약 50%가 마스킹되는 적극적인 노이즈 제거와 함께 예제를 포함하도록 선택합니다. 이는 스팬 길이 및/또는 손상률을 증가시키는 것입니다. 스팬이 길거나(예: &amp;ge; 12 토큰) 부패율이 큰 경우(예: &amp;ge; 30%) 사전 훈련 작업을 극단적인 것으로 간주합니다. X-denoising은 규칙적인 스팬 손상과 목표와 같은 언어 모델 사이의 보간에 의해 동기가 부여됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Fine-tuning&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;모델은 N이 일반적으로 50k에서 100k인 N 사전 훈련 단계 후에 지속적으로 fine-tuning되었습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;즉, 사전 교육의 각 Nk 단계 후에 모델이 각 다운스트림 작업에서 fine-tuning됩니다.&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;모델이 지속적으로 fine-tuning되므로 컴퓨팅을 절약하기 위해 최첨단에 도달하면 작업에 대한 fine-tuning이 중지됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;전체적으로 이 모델은 265만 단계에 대해 훈련되었습니다.&lt;/span&gt;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Flan-UL2</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>UL2</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/414</guid>
      <comments>https://yumdata.tistory.com/414#entry414comment</comments>
      <pubDate>Tue, 11 Jul 2023 14:21:12 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] BLOOMZ &amp;amp; mT0</title>
      <link>https://yumdata.tistory.com/413</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;BLOOMZ &amp;amp; mT0&lt;/span&gt;&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #6d7777;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-xxl&quot;&gt;https://huggingface.co/bigscience/mt0-xxl&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689050695971&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;bigscience/mt0-xxl &amp;middot; Hugging Face&quot; data-og-description=&quot;Accuracy on Winogrande XL (xl) validation set self-reported 63.380 Accuracy on XWinograd (en) test set self-reported 81.290 Accuracy on XWinograd (fr) test set self-reported 78.310 Accuracy on XWinograd (jp) test set self-reported 78.620 Accuracy on XWinog&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/bigscience/mt0-xxl&quot; data-og-url=&quot;https://huggingface.co/bigscience/mt0-xxl&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/eezbKV/hyTgSHWjxF/kA39DQmPuFKd0KkUDIjJvk/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/CupsM/hyTgTz2ug4/ukibf3uDrWl5tmB6DEG5y1/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-xxl&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/bigscience/mt0-xxl&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/eezbKV/hyTgSHWjxF/kA39DQmPuFKd0KkUDIjJvk/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/CupsM/hyTgTz2ug4/ukibf3uDrWl5tmB6DEG5y1/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;bigscience/mt0-xxl &amp;middot; Hugging Face&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Accuracy on Winogrande XL (xl) validation set self-reported 63.380 Accuracy on XWinograd (en) test set self-reported 81.290 Accuracy on XWinograd (fr) test set self-reported 78.310 Accuracy on XWinograd (jp) test set self-reported 78.620 Accuracy on XWinog&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;논문&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;:&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2211.01786&quot;&gt;https://arxiv.org/abs/2211.01786&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689050609016&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Crosslingual Generalization through Multitask Finetuning&quot; data-og-description=&quot;Multitask prompted finetuning (MTF) has been shown to help large language models generalize to new tasks in a zero-shot setting, but so far explorations of MTF have focused on English data and models. We apply MTF to the pretrained multilingual BLOOM and m&quot; data-og-host=&quot;arxiv.org&quot; data-og-source-url=&quot;https://arxiv.org/abs/2211.01786&quot; data-og-url=&quot;https://arxiv.org/abs/2211.01786v2&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/cz4XcO/hyTiuelyL4/2T7xgNxnexbV0SJJKkp0Q1/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/CTbAz/hyTgRPLopb/gwlmKOdawJVmaEqwx6ndz0/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2211.01786&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://arxiv.org/abs/2211.01786&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/cz4XcO/hyTiuelyL4/2T7xgNxnexbV0SJJKkp0Q1/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/CTbAz/hyTgRPLopb/gwlmKOdawJVmaEqwx6ndz0/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Crosslingual Generalization through Multitask Finetuning&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Multitask prompted finetuning (MTF) has been shown to help large language models generalize to new tasks in a zero-shot setting, but so far explorations of MTF have focused on English data and models. We apply MTF to the pretrained multilingual BLOOM and m&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;arxiv.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;a family of models capable of following human instructions in dozens of languages zero-shot&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #111827;&quot;&gt;crosslingual&lt;/span&gt;&lt;span style=&quot;color: #111827;&quot;&gt; task mixture&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;xP3)&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;에서 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;BLOOM &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;및 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;mT5 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;사전 훈련된 다국어 언어 모델을 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;fine-tuning&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하고 보이지 않는 작업 및 언어에 대한 교차 언어 일반화가 가능한 결과 모델&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Datasets&lt;/span&gt;&lt;/h3&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&lt;b&gt;pretraining&lt;/b&gt;: mc4&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/mc4&quot;&gt;https://huggingface.co/datasets/mc4&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;108 languages including &lt;/span&gt;&lt;b&gt;&lt;span style=&quot;color: #ff0000;&quot;&gt;Korean&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&lt;b&gt;finetuning&lt;/b&gt;: xP3&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/bigscience/xP3&quot;&gt;https://huggingface.co/datasets/bigscience/xP3&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #111827;&quot;&gt;Crosslingual&lt;/span&gt;&lt;span style=&quot;color: #111827;&quot;&gt; Public Pool of Prompts&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;46&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개 언어 및 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;16&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;NLP &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;작업에 대한 프롬프트 및 데이터 세트 모음&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;수십 가지 언어로 zero-shot 사람의 지시를 따를 수 있는 다국어 언어 모델인 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;BLOOMZ &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;및 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;mT0&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;의 교육에 사용&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%; height: 594px;&quot; border=&quot;1&quot; width=&quot;842&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr style=&quot;height: 35px;&quot;&gt;
&lt;td style=&quot;height: 35px;&quot; width=&quot;80&quot; height=&quot;35&quot;&gt;Name&lt;/td&gt;
&lt;td style=&quot;height: 35px;&quot; width=&quot;572&quot;&gt;&lt;span style=&quot;color: #ffffff;&quot;&gt;Explanation&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;height: 35px;&quot; width=&quot;189&quot;&gt;&lt;span style=&quot;color: #ffffff;&quot;&gt;Example models&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 315px;&quot;&gt;
&lt;td style=&quot;height: 315px;&quot; width=&quot;80&quot; height=&quot;35&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/bigscience/xP3&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;xP3&lt;/a&gt;&lt;/td&gt;
&lt;td style=&quot;height: 315px;&quot; width=&quot;572&quot;&gt;Mixture of 13 training tasks in 46 languages with English prompts&lt;br /&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;&lt;b&gt;&lt;br /&gt;without Korean&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;Korea&lt;br /&gt;&amp;nbsp;- language code: ko, country code: kr&lt;br /&gt;&lt;br /&gt;&lt;u&gt;programming_language&lt;/u&gt;:&lt;br /&gt;&amp;nbsp; - C&lt;br /&gt;&amp;nbsp; - C++&lt;br /&gt;&amp;nbsp; - C#&lt;br /&gt;&amp;nbsp; - Go&lt;br /&gt;&amp;nbsp; - Java&lt;br /&gt;&amp;nbsp; - JavaScript&lt;br /&gt;&amp;nbsp; - Lua&lt;br /&gt;&amp;nbsp; - PHP&lt;br /&gt;&amp;nbsp; - Python&lt;br /&gt;&amp;nbsp; - Ruby&lt;br /&gt;&amp;nbsp; - Rust&lt;br /&gt;&amp;nbsp; - Scala&lt;br /&gt;&amp;nbsp; - TypeScript&lt;br /&gt;&lt;b&gt;&lt;br /&gt;&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;height: 315px;&quot; width=&quot;189&quot;&gt;&lt;u&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;bloomz&lt;/a&gt;&lt;/u&gt;&amp;nbsp;&amp;amp;&amp;nbsp;&lt;u&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-xxl&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;mt0-xxl&lt;/a&gt;&lt;/u&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 140px;&quot;&gt;
&lt;td style=&quot;height: 140px;&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/Muennighoff/xP3x&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;xP3x&lt;/a&gt;&lt;/td&gt;
&lt;td style=&quot;height: 140px;&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;Mixture of 17 tasks in 277 languages&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;(&lt;b&gt;&lt;span style=&quot;text-align: left; color: #ee2323;&quot;&gt;including Korean&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;)&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt; with English prompts&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;u&gt;Korean&lt;/u&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;br /&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span style=&quot;text-align: -webkit-right;&quot;&gt;&amp;nbsp; - Code: kor_Hang&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;br /&gt;&lt;span style=&quot;text-align: -webkit-right;&quot;&gt;&amp;nbsp; - Kilobytes: 4,642,468&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;text-align: -webkit-right;&quot;&gt;&amp;nbsp; - %: 0.68&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;text-align: -webkit-right;&quot;&gt;&amp;nbsp; - Samples: 3,415,920&lt;/span&gt;&lt;br /&gt;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&lt;span style=&quot;text-align: -webkit-right;&quot;&gt;&amp;nbsp; - %: 0.64&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;&lt;br /&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;height: 140px;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;WIP - Join us at Project Aya @&lt;/span&gt;&lt;a href=&quot;https://cohere.for.ai/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;C4AI&lt;/a&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;to help!&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 17px;&quot;&gt;
&lt;td style=&quot;height: 17px;&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/bigscience/xP3mt&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;xP3mt&lt;/a&gt;&lt;/td&gt;
&lt;td style=&quot;height: 17px;&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;Mixture of 13 training tasks in 46 languages with English prompts&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;height: 17px;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-mt&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;bloomz-mt&lt;/a&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;&amp;amp;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-xxl-mt&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;mt0-xxl-mt&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 35px;&quot;&gt;
&lt;td style=&quot;height: 35px;&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/bigscience/xP3all&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;xP3all&lt;/a&gt;&lt;/td&gt;
&lt;td style=&quot;height: 35px;&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;Mixture of 13 training tasks in 46 languages with prompts in 20 languages (machine-translated from English)&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;height: 35px;&quot;&gt;&amp;nbsp;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 35px;&quot;&gt;
&lt;td style=&quot;height: 35px;&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/bigscience/xP3megds&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;xP3megds&lt;/a&gt;&lt;/td&gt;
&lt;td style=&quot;height: 35px;&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;xP3 + evaluation datasets adding an additional 3 tasks for a total of 16 tasks in 46 languages with English prompts&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;height: 35px;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;bloomz&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 17px;&quot;&gt;
&lt;td style=&quot;height: 17px;&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/Muennighoff/P3&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;P3&lt;/a&gt;&lt;/td&gt;
&lt;td style=&quot;height: 17px;&quot;&gt;&lt;span style=&quot;text-align: left;&quot;&gt;Repreprocessed version of the English-only&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;a href=&quot;https://huggingface.co/datasets/bigscience/P3&quot;&gt;P3&lt;/a&gt;&lt;span style=&quot;text-align: left;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;text-align: left;&quot;&gt;with 8 training tasks&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;height: 17px;&quot;&gt;&lt;span&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-p3&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;bloomz-p3&lt;/a&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;&amp;amp;&lt;/span&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-xxl-p3&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;mt0-xxl-p3&lt;/a&gt;&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Architecture&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Same as mt5-xxl (&lt;a href=&quot;https://yumdata.tistory.com/415&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;mT5-xxl&lt;/a&gt;)&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;mT5 (Multilingual T5)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://github.com/google-research/multilingual-t5&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://github.com/google-research/multilingual-t5&lt;/a&gt;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Language (101 languages)&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Burmese, Catalan, Cebuano, Chichewa, Chinese, Corsican, Czech, Danish, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Haitian Creole, Hausa, Hawaiian, Hebrew, Hindi, Hmong, Hungarian, Icelandic, Igbo, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, &lt;b&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;Korean&lt;/span&gt;&lt;/b&gt;, Kurdish, Kyrgyz, Lao, Latin, Latvian, Lithuanian, Luxembourgish, Macedonian, Malagasy, Malay, Malayalam, Maltese, Maori, Marathi, Mongolian, Nepali, Norwegian, Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Samoan, Scottish Gaelic, Serbian, Shona, Sindhi, Sinhala, Slovak, Slovenian, Somali, Sotho, Spanish, Sundanese, Swahili, Swedish, Tajik, Tamil, Telugu, Thai, Turkish, Ukrainian, Urdu, Uzbek, Vietnamese, Welsh, West Frisian, Xhosa, Yiddish, Yoruba, Zulu&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;mT5-Small&amp;nbsp;(300 million parameters):&amp;nbsp;&lt;a href=&quot;https://console.cloud.google.com/storage/browser/t5-data/pretrained_models/mt5/small/&quot;&gt;gs://t5-data/pretrained_models/mt5/small&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;mT5-Base&amp;nbsp;(580 million parameters):&amp;nbsp;&lt;a href=&quot;https://console.cloud.google.com/storage/browser/t5-data/pretrained_models/mt5/base/&quot;&gt;gs://t5-data/pretrained_models/mt5/base&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;mT5-Large&amp;nbsp;(1.2 billion parameters):&amp;nbsp;&lt;a href=&quot;https://console.cloud.google.com/storage/browser/t5-data/pretrained_models/mt5/large/&quot;&gt;gs://t5-data/pretrained_models/mt5/large&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;mT5-XL&amp;nbsp;(3.7 billion parameters):&amp;nbsp;&lt;a href=&quot;https://console.cloud.google.com/storage/browser/t5-data/pretrained_models/mt5/xl/&quot;&gt;gs://t5-data/pretrained_models/mt5/xl&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;mT5-XXL&amp;nbsp;(13 billion parameters):&amp;nbsp;&lt;a href=&quot;https://console.cloud.google.com/storage/browser/t5-data/pretrained_models/mt5/xxl/&quot;&gt;gs://t5-data/pretrained_models/mt5/xxl&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;BLOOMZ &amp;amp; mT0 Model Family&lt;/span&gt;&lt;/h3&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; width=&quot;1216&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td colspan=&quot;12&quot; width=&quot;1216&quot; height=&quot;26&quot;&gt;&lt;b&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Multitask finetuned on&amp;nbsp;&lt;/span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/bigscience/xP3&quot;&gt;xP3&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;. Recommended for prompting in English.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td width=&quot;101&quot; height=&quot;42&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Parameters&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;300M&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;580M&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1.2B&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;3.7B&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;13B&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;560M&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1.1B&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1.7B&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;3B&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;7.1B&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;176B&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td width=&quot;101&quot; height=&quot;55&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Finetuned Model&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-small&quot;&gt;mt0-small&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-base&quot;&gt;mt0-base&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-large&quot;&gt;mt0-large&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-xl&quot;&gt;mt0-xl&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-xxl&quot;&gt;mt0-xxl&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-560m&quot;&gt;bloomz-560m&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-1b1&quot;&gt;bloomz-1b1&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-1b7&quot;&gt;bloomz-1b7&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-3b&quot;&gt;bloomz-3b&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-7b1&quot;&gt;bloomz-7b1&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz&quot;&gt;bloomz&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td colspan=&quot;12&quot; width=&quot;1216&quot; height=&quot;26&quot;&gt;&lt;b&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Multitask finetuned on&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/bigscience/xP3mt&quot;&gt;xP3mt&lt;/a&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;. Recommended for prompting in non-English.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td width=&quot;101&quot; height=&quot;55&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Finetuned Model&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-xxl-mt&quot;&gt;mt0-xxl-mt&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-7b1-mt&quot;&gt;bloomz-7b1-mt&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-mt&quot;&gt;bloomz-mt&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td colspan=&quot;12&quot; width=&quot;1216&quot; height=&quot;26&quot;&gt;&lt;b&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Multitask finetuned on&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/datasets/Muennighoff/P3&quot;&gt;P3&lt;/a&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;. Released for research purposes only. Strictly inferior to above models&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td width=&quot;101&quot; height=&quot;55&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Finetuned Model&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/mt0-xxl-p3&quot;&gt;mt0-xxl-p3&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-7b1-p3&quot;&gt;bloomz-7b1-p3&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloomz-p3&quot;&gt;bloomz-p3&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td colspan=&quot;12&quot; width=&quot;1216&quot; height=&quot;25&quot;&gt;&lt;b&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Original pretrained checkpoints. Not recommended.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td width=&quot;101&quot; height=&quot;55&quot;&gt;&lt;span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Pretrained Model&lt;/span&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/mt5-small&quot;&gt;mt5-small&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/mt5-base&quot;&gt;mt5-base&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/mt5-large&quot;&gt;mt5-large&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/mt5-xl&quot;&gt;mt5-xl&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/mt5-xxl&quot;&gt;mt5-xxl&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloom-560m&quot;&gt;bloom-560m&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloom-1b1&quot;&gt;bloom-1b1&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloom-1b7&quot;&gt;bloom-1b7&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloom-3b&quot;&gt;bloom-3b&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloom-7b1&quot;&gt;bloom-7b1&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td width=&quot;101&quot;&gt;&lt;span&gt;&lt;u&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://huggingface.co/bigscience/bloom&quot;&gt;bloom&lt;/a&gt;&lt;/span&gt;&lt;/u&gt;&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Limitations&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;u&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;프롬프트 엔지니어링: &lt;/span&gt;&lt;/b&gt;&lt;/u&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;u&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;성능은 프롬프트에 따라 다를 수 있습니다. &lt;/span&gt;&lt;/u&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;BLOOMZ 모델의 경우 모델이 입력을 계속하려고 하지 않도록 입력이 중지되는 시점을 매우 명확하게 표시하는 것이 좋습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 끝에 마침표(.)가 없는 'Translate to English: Je t'aime' 프롬프트는 모델이 프랑스어 문장을 계속하려고 시도하는 결과를 초래할 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;더 나은 프롬프트는 예입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;&quot;&lt;/span&gt;Translate to English: Je t'aime.&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;&quot;, &quot;&lt;/span&gt;Translate to English: Je t'aime. Translation:&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;&quot; &quot;&lt;/span&gt;What is &quot;Je t'aime.&quot; in English?&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;&quot;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;또한 가능한 한 많은 컨텍스트를 모델에 제공하는 것이 좋습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어, &lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;Telugu&lt;/span&gt;로 대답하게 하려면 모델에게 다음과 같이 말하십시오. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;&quot;&lt;/span&gt;Explain in a sentence in Telugu what is backpropagation in neural networks.&lt;span style=&quot;background-color: #ffffff; color: #4b5563; text-align: start;&quot;&gt;&quot;.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>BLOOMZ</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>mT0</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/413</guid>
      <comments>https://yumdata.tistory.com/413#entry413comment</comments>
      <pubDate>Tue, 11 Jul 2023 13:46:13 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] BLOOM</title>
      <link>https://yumdata.tistory.com/412</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;BLOOM (2022.11)&amp;nbsp;&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #6d7777;&quot;&gt;&lt;a href=&quot;https://bigscience.huggingface.co/blog/bloom&quot;&gt;https://bigscience.huggingface.co/blog/bloom&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689050397683&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;BLOOM&quot; data-og-description=&quot;Our 176B parameter language model is here.&quot; data-og-host=&quot;bigscience.huggingface.co&quot; data-og-source-url=&quot;https://bigscience.huggingface.co/blog/bloom&quot; data-og-url=&quot;https://bigscience.huggingface.co/blog/bloom&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/dlJNrF/hyTgVxSsFs/YMrhCaNQvocZ0E47PCGiNK/img.png?width=500&amp;amp;height=194&amp;amp;face=0_0_500_194,https://scrap.kakaocdn.net/dn/cIsTT5/hyTiBLjqpR/udFD1RQFEgWpKkbKFhCf31/img.png?width=500&amp;amp;height=194&amp;amp;face=0_0_500_194,https://scrap.kakaocdn.net/dn/dfHHcU/hyTisU8iy4/eWuHMDobj1JbMOK1OYeswK/img.png?width=3309&amp;amp;height=1285&amp;amp;face=0_0_3309_1285&quot;&gt;&lt;a href=&quot;https://bigscience.huggingface.co/blog/bloom&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://bigscience.huggingface.co/blog/bloom&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/dlJNrF/hyTgVxSsFs/YMrhCaNQvocZ0E47PCGiNK/img.png?width=500&amp;amp;height=194&amp;amp;face=0_0_500_194,https://scrap.kakaocdn.net/dn/cIsTT5/hyTiBLjqpR/udFD1RQFEgWpKkbKFhCf31/img.png?width=500&amp;amp;height=194&amp;amp;face=0_0_500_194,https://scrap.kakaocdn.net/dn/dfHHcU/hyTisU8iy4/eWuHMDobj1JbMOK1OYeswK/img.png?width=3309&amp;amp;height=1285&amp;amp;face=0_0_3309_1285');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;BLOOM&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Our 176B parameter language model is here.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;bigscience.huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;논문&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;:&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2211.05100&quot;&gt;https://arxiv.org/abs/2211.05100&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;BigScience&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;Large Open-science Open-access Multilingual Language Model&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;176 billion parameters, Downloadable Model, Hosted API&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;&lt;a style=&quot;color: #1779ba;&quot; href=&quot;https://huggingface.co/bigscience/bloom&quot;&gt;&lt;b&gt;Available&lt;/b&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;BLOOM&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;은 산업 규모의 컴퓨팅 리소스를 사용하여 방대한 양의 텍스트 데이터에 대한 프롬프트에서 텍스트를 계속하도록 훈련된 자동 회귀 대형 언어 모델&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(autoregressive &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LLM)&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;입니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;BLOOM&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;은 명시적으로 훈련되지 않은 텍스트 작업을 텍스트 생성 작업으로 캐스팅하여 수행하도록 지시할 수도 있습니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;70&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개국 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1000&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;명 이상의 연구원&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, 250&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개 이상 연구기관이 협업해 만들어낸 오픈소스 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 다국어&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;언어 모델이며,&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1.5&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;TB &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;텍스트 데이터셋을 바탕으로 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;384&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개의 엔비디아 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;A100&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;에서 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;3&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개월 넘게 학습했습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;46개의 자연어와 13개의 프로그래밍 언어로 텍스트를 생성하며, 이 프로젝트는 GPT-3와 같은 다른 대규모 언어 모델의 범위를 공유하지만 특히 더 투명하고 해석 가능한 모델을 개발하는 것을 목표로 합니다. BLOOM은 반드시 교육의 일부가 아닌 일반적인 텍스트 작업을 수행하기 위해 지침을 따르는 모델 역할을 할 수 있습니다.&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;GPT-3와 동등한 1760억 개의 매개변수를 가짐&lt;/li&gt;
&lt;li&gt;46개국 언어 (no Korean)&lt;/li&gt;
&lt;li&gt;13가지 프로그래밍 언어&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;806&quot; data-origin-height=&quot;394&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/c3JlH7/btsngNQWUMT/2VBQSGaafFXxnGrskJ9h8K/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/c3JlH7/btsngNQWUMT/2VBQSGaafFXxnGrskJ9h8K/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/c3JlH7/btsngNQWUMT/2VBQSGaafFXxnGrskJ9h8K/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fc3JlH7%2FbtsngNQWUMT%2F2VBQSGaafFXxnGrskJ9h8K%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;561&quot; height=&quot;274&quot; data-origin-width=&quot;806&quot; data-origin-height=&quot;394&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Tokenization&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;A byte-level Byte Pair Encoding (BPE) algorithm&lt;/li&gt;
&lt;li&gt;A simple pre-tokenization rule, no normalization&lt;/li&gt;
&lt;li&gt;Vocabulary size of 250,680&lt;/li&gt;
&lt;/ul&gt;
&lt;div style=&quot;text-align: left;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;/span&gt;&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;&lt;/div&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;BigScience&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; &lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://bigscience.huggingface.co/&quot;&gt;https://bigscience.huggingface.co/&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689050508661&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;BigScience Research Workshop&quot; data-og-description=&quot;A one-year long research workshopon large multilingual models and datasets Update: Introducing The World's Largest Open Multilingual Language Model - BLOOM   You can find the model here and learn more by reading our blog post. The acceleration in Artifi&quot; data-og-host=&quot;bigscience.huggingface.co&quot; data-og-source-url=&quot;https://bigscience.huggingface.co/&quot; data-og-url=&quot;https://bigscience.huggingface.co/&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/lcoaX/hyTgM8NVhJ/ddHx5Bb6hgZldNR7lAT800/img.jpg?width=1200&amp;amp;height=675&amp;amp;face=0_0_1200_675,https://scrap.kakaocdn.net/dn/eiTva6/hyTg1kAERK/jpC6gOmpHa5rXiwD4ZcYEk/img.png?width=1000&amp;amp;height=355&amp;amp;face=0_0_1000_355&quot;&gt;&lt;a href=&quot;https://bigscience.huggingface.co/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://bigscience.huggingface.co/&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/lcoaX/hyTgM8NVhJ/ddHx5Bb6hgZldNR7lAT800/img.jpg?width=1200&amp;amp;height=675&amp;amp;face=0_0_1200_675,https://scrap.kakaocdn.net/dn/eiTva6/hyTg1kAERK/jpC6gOmpHa5rXiwD4ZcYEk/img.png?width=1000&amp;amp;height=355&amp;amp;face=0_0_1000_355');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;BigScience Research Workshop&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;A one-year long research workshopon large multilingual models and datasets Update: Introducing The World's Largest Open Multilingual Language Model - BLOOM   You can find the model here and learn more by reading our blog post. The acceleration in Artifi&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;bigscience.huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;BigScience&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;는 컨소시엄이나 공식 법인이 아닙니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;HuggingFace&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, GENCI &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;및 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;IDRIS&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;에 의해 시작되고 연구 워크숍으로 조직된 공개 협업입니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 연구 워크샵은 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI, NLP, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;사회 과학&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;법률&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;윤리 및 공공 정책에 걸쳐 많은 연구 분야에 걸쳐 연구 관심이 있는 여러 소속의 학계&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;산업계 및 독립 연구원을 모았습니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>bloom</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/412</guid>
      <comments>https://yumdata.tistory.com/412#entry412comment</comments>
      <pubDate>Tue, 11 Jul 2023 13:42:46 +0900</pubDate>
    </item>
    <item>
      <title>[Large Language Model] FLAN-T5</title>
      <link>https://yumdata.tistory.com/411</link>
      <description>&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;FLAN-T5&lt;/span&gt;&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #6d7777;&quot;&gt;&lt;a href=&quot;https://huggingface.co/docs/transformers/model_doc/flan-t5&quot;&gt;https://huggingface.co/docs/transformers/model_doc/flan-t5&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689050275888&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;FLAN-T5&quot; data-og-description=&quot;Reinforcement learning models&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/docs/transformers/model_doc/flan-t5&quot; data-og-url=&quot;https://huggingface.co/docs/transformers/model_doc/flan-t5&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/doRM2P/hyTgVdAdbD/G83PkI7hqlNzLP7AK2idCk/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648&quot;&gt;&lt;a href=&quot;https://huggingface.co/docs/transformers/model_doc/flan-t5&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/docs/transformers/model_doc/flan-t5&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/doRM2P/hyTgVdAdbD/G83PkI7hqlNzLP7AK2idCk/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;FLAN-T5&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Reinforcement learning models&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;논문&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;:&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/2210.11416.pdf&quot;&gt;https://arxiv.org/pdf/2210.11416.pdf&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;An&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;encoder-decoder model&lt;/span&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;based on the&amp;nbsp;&lt;/span&gt;T5&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&amp;nbsp;Scaling&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Instruction&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&amp;ndash;&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Fine-tuned&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Language&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Models&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;여러 타&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;스크를&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 통해 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;fine-tuned&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;된 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;T5&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;의 향상된 버전&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;912&quot; data-origin-height=&quot;480&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/8lWFY/btsngIa3NBA/TyxnCWpHr4K8kFLffhGzF0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/8lWFY/btsngIa3NBA/TyxnCWpHr4K8kFLffhGzF0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/8lWFY/btsngIa3NBA/TyxnCWpHr4K8kFLffhGzF0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F8lWFY%2FbtsngIa3NBA%2FTyxnCWpHr4K8kFLffhGzF0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;912&quot; height=&quot;480&quot; data-origin-width=&quot;912&quot; data-origin-height=&quot;480&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Flan&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프팅을&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 기반으로 하는 사전 교육 방법&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;FLAN-T5-XL&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/flan-t5-xl&quot;&gt;https://huggingface.co/google/flan-t5-x&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689050274681&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;google/flan-t5-xl &amp;middot; Hugging Face&quot; data-og-description=&quot;If you already know T5, FLAN-T5 is just better at everything. For the same number of parameters, these models have been fine-tuned on more than 1000 additional tasks covering also more languages. As mentioned in the first few lines of the abstract : Flan-P&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/google/flan-t5-xl&quot; data-og-url=&quot;https://huggingface.co/google/flan-t5-xl&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/c0ft6C/hyTgRCdImk/cKkY1YvEZYJXKJcT11VLk0/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/dB2l7F/hyTgYOTbeQ/0k3ruJUybEKN3sF3pm3NY1/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/flan-t5-xl&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/google/flan-t5-xl&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/c0ft6C/hyTgRCdImk/cKkY1YvEZYJXKJcT11VLk0/img.png?width=1200&amp;amp;height=648&amp;amp;face=0_0_1200_648,https://scrap.kakaocdn.net/dn/dB2l7F/hyTgYOTbeQ/0k3ruJUybEKN3sF3pm3NY1/img.png?width=200&amp;amp;height=200&amp;amp;face=0_0_200_200');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;google/flan-t5-xl &amp;middot; Hugging Face&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;If you already know T5, FLAN-T5 is just better at everything. For the same number of parameters, these models have been fine-tuned on more than 1000 additional tasks covering also more languages. As mentioned in the first few lines of the abstract : Flan-P&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;60 Languages including&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #ff0000;&quot;&gt;Korean&lt;/span&gt;&lt;span style=&quot;color: #ff0000;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;taskmaster2, djaym7/&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;wiki_dialog&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;deepmind&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;/&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;code_contests&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, lambada, gsm8k, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;aqua_rat&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;esnli&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;quasc&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;및 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;qed&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;를&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 포함하는 데이터 세트의 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Flan &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;컬렉션에서 훈련된 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;T5 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;델&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;FLAN-T5-XXL&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot; href=&quot;https://huggingface.co/google/flan-t5-xxl&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://huggingface.co/google/flan-t5-xxl&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689050989748&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;google/flan-t5-xxl &amp;middot; Hugging Face&quot; data-og-description=&quot;If you already know T5, FLAN-T5 is just better at everything. For the same number of parameters, these models have been fine-tuned on more than 1000 additional tasks covering also more languages. As mentioned in the first few lines of the abstract : Flan-P&quot; data-og-host=&quot;huggingface.co&quot; data-og-source-url=&quot;https://huggingface.co/google/flan-t5-xxl&quot; data-og-url=&quot;https://huggingface.co/google/flan-t5-xxl&quot; data-og-image=&quot;&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/flan-t5-xxl&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://huggingface.co/google/flan-t5-xxl&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url();&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;google/flan-t5-xxl &amp;middot; Hugging Face&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;If you already know T5, FLAN-T5 is just better at everything. For the same number of parameters, these models have been fine-tuned on more than 1000 additional tasks covering also more languages. As mentioned in the first few lines of the abstract : Flan-P&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;huggingface.co&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;an 11 billion parameter model based on the Flan-T5 family&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Language(s) (NLP):&amp;nbsp;English, German, French&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>FLAN-T5</category>
      <category>FLAN-T5 XL</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/411</guid>
      <comments>https://yumdata.tistory.com/411#entry411comment</comments>
      <pubDate>Tue, 11 Jul 2023 13:38:47 +0900</pubDate>
    </item>
    <item>
      <title>[Generative AI] Prompt Engineer (프롬프트 엔지니어)</title>
      <link>https://yumdata.tistory.com/410</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Prompt Engineering&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/406&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[Generative AI] Prompt Engineering (프롬프트 엔지니어링)&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1689038344895&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;article&quot; data-og-title=&quot;[Generative AI] Prompt Engineering (프롬프트 엔지니어링)&quot; data-og-description=&quot;Prompt(프롬프트) 사용자가 원하는 출력을 생성하고자 할 때 대규모 언어 모델(LLM, Large Language Model)을 안내하기 위한 특정 입력 텍스트 및 질문 텍스트 모델에 제공하는 광범위한 지침으로, 모델이&quot; data-og-host=&quot;yumdata.tistory.com&quot; data-og-source-url=&quot;https://yumdata.tistory.com/406&quot; data-og-url=&quot;https://yumdata.tistory.com/406&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/4fI88/hyTgPRP0CR/DJMwP2dBz0X4cz0rsEFrYK/img.png?width=800&amp;amp;height=533&amp;amp;face=0_0_800_533,https://scrap.kakaocdn.net/dn/67coo/hyTgMgu3cy/HvHodOkD56mWoIvUxNNFE0/img.png?width=800&amp;amp;height=533&amp;amp;face=0_0_800_533,https://scrap.kakaocdn.net/dn/d6iWY9/hyTgYVzXLJ/k8WjClBV9RavKWcecEYSIk/img.png?width=900&amp;amp;height=600&amp;amp;face=0_0_900_600&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/406&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://yumdata.tistory.com/406&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/4fI88/hyTgPRP0CR/DJMwP2dBz0X4cz0rsEFrYK/img.png?width=800&amp;amp;height=533&amp;amp;face=0_0_800_533,https://scrap.kakaocdn.net/dn/67coo/hyTgMgu3cy/HvHodOkD56mWoIvUxNNFE0/img.png?width=800&amp;amp;height=533&amp;amp;face=0_0_800_533,https://scrap.kakaocdn.net/dn/d6iWY9/hyTgYVzXLJ/k8WjClBV9RavKWcecEYSIk/img.png?width=900&amp;amp;height=600&amp;amp;face=0_0_900_600');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;[Generative AI] Prompt Engineering (프롬프트 엔지니어링)&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Prompt(프롬프트) 사용자가 원하는 출력을 생성하고자 할 때 대규모 언어 모델(LLM, Large Language Model)을 안내하기 위한 특정 입력 텍스트 및 질문 텍스트 모델에 제공하는 광범위한 지침으로, 모델이&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;yumdata.tistory.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Prompt&amp;nbsp;Engineer&amp;nbsp;(프롬프트&amp;nbsp;엔지니어)&lt;/h2&gt;
&lt;h3 style=&quot;color: #000000; text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;주요 역할&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc; color: #333333; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;프롬프트 설계 및 개발(프롬프트 엔지니어링)&lt;/b&gt;: AI 모델이 이해하고 반응할 수 있는 효과적인 프롬프트를 개발하고 최적화&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;시스템 통합:&lt;/b&gt; 자연어 처리(NLP) 알고리즘과 기존 시스템 및 인터페이스와의 통합을 관리&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;테스트 및 평가&lt;/b&gt;: 프롬프트의 성능을 평가하고 개선하며, 사용자 경험 및 비즈니스 요구 사항을 충족시키는지 확인&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 style=&quot;color: #000000; text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;필요 역량&lt;/span&gt;&lt;/h3&gt;
&lt;h4 style=&quot;color: #555555; text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 교육 및 경험&lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #555555; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 언어 모델 구조에 대한 이해: 인공지능에 대한 기본적인 원리와 개념을 명확히 이해&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI의 다양한 기초와 모델들에 대한 이해&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;데이터의 전처리와 라벨링 및 모델의 하이퍼파라미터의 종류와 사용 방법을 이해&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다양한 AI 모델들을 사용해본 경험&lt;/span&gt;&lt;/p&gt;
&lt;h4 style=&quot;color: #555555; text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Generative AI 기술과 플랫폼에 대한 이해&lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #555555; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;사용하고자 하는 Generative AI 서비스에 대한 기술 이해와 플랫폼에 대한 이해가 선행되어야 함&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;문제 해결 능력과 비판적 사고를 가져야 함&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;창의력과 호기심도 필요&lt;/span&gt;&lt;/p&gt;
&lt;h4 style=&quot;color: #555555; text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;포트폴리오 구축 및 커뮤니티 활용&lt;/span&gt;&lt;/h4&gt;
&lt;h4 style=&quot;color: #555555; text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;창의성(문제해결력)&lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #555555; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;틀에서 벗어나 다양한 방식으로 프롬프트를 작성할 수 있는 관점&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;문제 해결 능력과 비판적 사고를 가져야 함&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;창의력과 호기심도 필요&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 style=&quot;color: #555555; text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Prompt Engineer 모집 공고 공통 요소들&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다양한 초거대AI와 생성형 인공지능 모델(GPT-3, ChatGPT, CLOVA, DALL-E, Stable Diffusion 등)의 아키텍처 작동 개념 숙지&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;생성형 AI의 API, 확장 등 다양한 응용 활용에 능숙&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;범용적으로 쓰일 수 있는 프롬프트 기법 적용 역량(예제 선택 전략 / Chain-of-thought 등)&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;의사소통 능력이 뛰어나고 AI 기술의 개념에 대한 명확한 설명 및 문서 작성 가능&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;문제 해결 능력 및 문제 해결을 위한 사고력, 창의력 보유&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;최소한의 기본적인 프로그램 작성 기술 보유(파이선 등)&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;새로운 기술과 연구 및 업계의 동향에 적극적인 관심과 최신 정보 파악 능력&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;6 Steps to Develop Your Skills in Prompt Engineering&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;출처: &lt;a href=&quot;https://www.premierbpo.com/blog/prompt-engineering/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.premierbpo.com/blog/prompt-engineering/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;816&quot; data-origin-height=&quot;426&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/NjSA0/btsm4BZDon6/KlyVMv0SjxkRl9fKdqgNlK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/NjSA0/btsm4BZDon6/KlyVMv0SjxkRl9fKdqgNlK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/NjSA0/btsm4BZDon6/KlyVMv0SjxkRl9fKdqgNlK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FNjSA0%2Fbtsm4BZDon6%2FKlyVMv0SjxkRl9fKdqgNlK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;728&quot; height=&quot;380&quot; data-origin-width=&quot;816&quot; data-origin-height=&quot;426&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;1. 사용자 경험 디자인 원칙의 강력한 기반 구축&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;효과적인 메시지를 만들기 전에 사용자가 디지털 인터페이스와 상호작용하는 방식과 경험에서 기대하는 바를 이해해야 합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 전자상거래 웹사이트의 결제 흐름을 설계한다고 가정해 보겠습니다. 결제 프로세스의 단계 수, 사용자가 제공해야 하는 정보 유형, 프로세스를 안내하는 데 사용되는 프롬프트의 명확성과 사용 편의성과 같은 요소를 고려해야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;2. 기술력 개발&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;HTML, CSS, 자바스크립트와 같은 프롬프트를 만드는 데 사용되는 도구와 기술을 숙지하세요. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 사용자가 웹페이지의 특정 요소 위로 마우스를 가져갈 때 표시되는 도움말을 디자인한다고 가정해 보겠습니다. CSS를 사용하여 툴팁의 스타일을 지정하는 방법과 자바스크립트를 사용하여 툴팁의 모양과 동작을 트리거하는 방법을 이해해야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;3. 업계 동향을 최신 상태로 유지&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;사용자 경험 디자인 및 디지털 인터페이스 개발에 초점을 맞춘 블로그, 포럼 및 소셜 미디어 채널을 팔로우하세요. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 새로운 디자인 패턴에 대한 도움말을 읽거나 디자이너가 팁과 모범 사례를 공유하는 온라인 커뮤니티에 가입할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;4. 테스트 및 반복&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;테스트는 prompt engineering의 필수적인 부분입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;분석 및 사용자 피드백을 사용하여 메시지의 문제점을 식별하고 그에 따라 디자인을 수정하세요. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 A/B 테스트를 수행하여 다양한 유형의 프롬프트의 효과를 비교하거나 실제 사용자의 피드백을 수집하여 프롬프트가 수신되는 방식에 대한 통찰력을 얻을 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;5. 다른 사람과 협업&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;prompt engineering을 위해서는 다른 설계자, 개발자 및 이해관계자와의 협업이 필요합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;교차 기능 팀과 함께 작업하고 다양한 배경과 분야의 동료와 효과적으로 커뮤니케이션하는 연습을 하세요. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 UX 연구원과 협력하여 사용자 테스트를 수행하거나 프런트 엔드 개발자와 협력하여 디자인을 구현할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;6. 포트폴리오 구축&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;prompt engineering 경험을 쌓으면서 작업을 보여주고 전문성을 보여주는 포트폴리오를 만드세요. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;다양한 유형의 프롬프트 예시를 포함하고 테스트와 반복을 통해 얻은 결과를 강조표시하세요. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 작업의 영향을 보여주는 측정 항목과 함께 다양한 클라이언트 또는 프로젝트를 위해 만든 프롬프트 디자인의 우수사례를 포함할 수 있습니다&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;5 Non-tech prompt engineering skills&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;출처: &lt;span style=&quot;color: #777777; text-align: center;&quot;&gt;&lt;a href=&quot;https://zapier.com/blog/prompt-engineering/&quot;&gt;https://zapier.com/blog/prompt-engineering/&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1400&quot; data-origin-height=&quot;1235&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bPbelY/btsm8IKFPUC/K9tHCAYobOihsL8oNxXzIk/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bPbelY/btsm8IKFPUC/K9tHCAYobOihsL8oNxXzIk/img.jpg&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bPbelY/btsm8IKFPUC/K9tHCAYobOihsL8oNxXzIk/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbPbelY%2Fbtsm8IKFPUC%2FK9tHCAYobOihsL8oNxXzIk%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;461&quot; height=&quot;407&quot; data-origin-width=&quot;1400&quot; data-origin-height=&quot;1235&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;1. Communication&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;프로젝트 관리자, 교사 또는 작업을 성공적으로 완료하는 방법에 대해 다른 사람들에게 정기적으로 브리핑하는 사람과 마찬가지로 prompt engineer는 지시를 잘 내릴 필요가 있습니다. 대부분의 사람들은 지침을 완전히 이해하기 위해 많은 예가 필요하며 AI도 마찬가지입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;2. Subject matter experise&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;많은 프롬프트 엔지니어는 의료 연구와 같은 특정 사용 사례에 대한 챗봇 조정을 담당합니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이것이 산업별 전문성을 요구하는 즉각적인 엔지니어링 채용 공고가 자주 발생하는 이유입니다.&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;의료, 법률, 마케팅 또는 목공 분야에 관계없이 주제 전문 지식은 강력한 프롬프트를 만드는 데 유용합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;3. Language&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;AI가 성공하려면 의도가 있어야 합니다. 그렇기 때문에 동사, 어휘 및 시제를 사용하여 중요한 목표를 표현하는 데 능숙한 사람들이 AI 성능을 향상시킬 수 있는 수단을 가지고 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;프로그래밍 언어를 사용하는 대신 AI 프롬프트는 산문(&lt;span style=&quot;background-color: #fffdf9; color: #403f3e; text-align: start;&quot;&gt;prose)&lt;/span&gt;을 사용합니다. 즉, 사람들이 프롬프트를 개발할 때 내면의 언어학 애호가를 불러일으켜야 합니다&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;4. Critical Thinking&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative AI는 방대한 양의 정보를 합성하는 데 탁월하지만 환각(hallucinations)을 유발할 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;AI 환각은 챗봇이 품질이 좋지 않거나 불충분한 데이터로 훈련되거나 설계되었을 때 발생합니다. 챗봇이 환각을 일으키면 단순히 거짓 정보를 토해냅니다(다소 권위 있고 설득력 있는 방식으로).&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;prompt engineer는 이 약점을 찌르고 봇이 더 나아지도록 훈련시킵니다.&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이것은 주제에 대해 적절한 수준의 친숙도를 갖는 것이 핵심임을 강조합니다. 누군가가 신뢰할 수 있는 사실 확인이 불가능한 것을 생성하는 챗봇을 갖는 것은 좋은 생각이 아닐 것입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;5. Creativity&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;새로운 것을 시도하는 것은 바로 창의성의 정의이며 좋은 프롬프트 엔지니어링의 본질이기도 합니다.&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어, 언어를 정확하게 사용하는 것이 중요하지만 약간의 실험도 필요합니다. 모델이 클수록 복잡성이 커지고 결과적으로 예상치 못한 놀라운 결과가 나올 가능성이 높아집니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;다양한 프롬프트를 시도한 다음 결과에 따라 해당 지침을 수정함으로써 생성 AI 사용자는 진정으로 독특한 것을 생각해낼 가능성을 높일 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Prompt Marketplace&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다양한 prompt marektplace에서 제공되는 무료 혹은 유료 프롬프트를 살펴보고, 프롬프트 작성법 등을 익힐 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그리고, 역량이 확보된다면 prompt marketplace에 프롬프트를 제공해서 프롬프트 작성에 기여할 수도 있습니다.&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%; height: 263px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 25%; height: 19px;&quot;&gt;Prompt Marketplace&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 19px;&quot;&gt;기능&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 19px;&quot;&gt;지원하는 Generative AI&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 19px;&quot;&gt;홈페이지&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 38px;&quot;&gt;
&lt;td style=&quot;width: 25%; height: 38px;&quot;&gt;chatX&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 38px;&quot;&gt;단순화된 형태&lt;br /&gt;무료/유료의 프롬프트 제공&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 38px;&quot;&gt;ChatGPT, DALL-E 2, &lt;br /&gt;Midjourney, StableDiffusion&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 38px;&quot;&gt;&lt;a href=&quot;https://chatx.ai/&quot;&gt;https://chatx.ai/&lt;/a&gt;&amp;nbsp;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 38px;&quot;&gt;
&lt;td style=&quot;width: 25%; height: 38px;&quot;&gt;PromptBase&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 38px;&quot;&gt;필터를 제공해 원하는 프롬프트 찾기 쉬움&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 38px;&quot;&gt;ChatGPT, DALL-E 2,&lt;br /&gt;Midjourney, StableDiffusion&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 38px;&quot;&gt;&lt;a href=&quot;https://promptbase.com/&quot;&gt;https://promptbase.com/&lt;/a&gt;&amp;nbsp;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 57px;&quot;&gt;
&lt;td style=&quot;width: 25%; height: 57px;&quot;&gt;PromptSea&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 57px;&quot;&gt;Web3.0 형식으로 지갑이 연결되어 암호화폐로 구매 가능&lt;br /&gt;프롬프트 외 AI-art도 거래됨&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 57px;&quot;&gt;&lt;span style=&quot;background-color: #f9f9f9; color: #333333; text-align: start;&quot;&gt;Midjourney&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 57px;&quot;&gt;&lt;a href=&quot;https://www.promptseat.io/&quot;&gt;https://www.promptseat.io/&lt;/a&gt;&amp;nbsp;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 35px;&quot;&gt;
&lt;td style=&quot;width: 25%; height: 35px;&quot;&gt;neutronfield&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 35px;&quot;&gt;Text-to-Image용 프롬프트 거래&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 35px;&quot;&gt;DALL-E 2, &lt;span style=&quot;background-color: #f9f9f9; color: #333333; text-align: start;&quot;&gt;Midjourney,&lt;br /&gt;&lt;span style=&quot;background-color: #f9f9f9; color: #333333; text-align: start;&quot;&gt;StableDiffusion, Disco Diffusion, Cryiyon&lt;/span&gt;&lt;br /&gt;&lt;/span&gt;&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 35px;&quot;&gt;&lt;a href=&quot;https://neutronfield.com/&quot;&gt;https://neutronfield.com/&lt;/a&gt;&amp;nbsp;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 25%; height: 19px;&quot;&gt;Prompt Town&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 19px;&quot;&gt;한국에 위치를 둔 마켓플레이스&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 19px;&quot;&gt;ChatGPT, DALL-E 2,&lt;br /&gt;Midjourney, StableDiffusion&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 19px;&quot;&gt;&lt;a href=&quot;https://prompt.town/&quot;&gt;https://prompt.town/&lt;/a&gt;&amp;nbsp;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 57px;&quot;&gt;
&lt;td style=&quot;width: 25%; height: 57px;&quot;&gt;prompthero&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 57px;&quot;&gt;가장 크고 다양한 콘텐츠와 미디어를 보유&lt;br /&gt;디즈코드로 커뮤니티 구성&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 57px;&quot;&gt;ChatGPT, DALL-E 2,&lt;br /&gt;Midjourney, StableDiffusion,&lt;br /&gt;Openjourney&lt;/td&gt;
&lt;td style=&quot;width: 25%; height: 57px;&quot;&gt;&lt;a href=&quot;https://prompthero.com/&quot;&gt;https://prompthero.com/&lt;/a&gt;&amp;nbsp;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://www.yes24.com/Product/Goods/118304109&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[저서]&amp;nbsp;누구든&amp;nbsp;시작하라&amp;nbsp;프롬프트&amp;nbsp;엔지니어&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.premierbpo.com/blog/prompt-engineering/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.premierbpo.com/blog/prompt-engineering/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://zapier.com/blog/prompt-engineering/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://zapier.com/blog/prompt-engineering/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Prompt Engineering &amp;amp; Tuning</category>
      <category>prompt Engineer</category>
      <category>Prompt engineering</category>
      <category>프롬프트</category>
      <category>프롬프트 엔지니어</category>
      <category>프롬프트 엔지니어링</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/410</guid>
      <comments>https://yumdata.tistory.com/410#entry410comment</comments>
      <pubDate>Tue, 11 Jul 2023 10:19:17 +0900</pubDate>
    </item>
    <item>
      <title>[Prompt Tuning] Multi-task Prompt Tuning</title>
      <link>https://yumdata.tistory.com/409</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Multi-task Prompt Tuning&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Multitask&amp;nbsp;Prompt&amp;nbsp;Tuning&amp;nbsp;enables&amp;nbsp;Parameter-efficient&amp;nbsp;Transfer&amp;nbsp;Learning&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://openreview.net/pdf?id=Nk2pDtuhTq&quot;&gt;https://openreview.net/pdf?id=Nk2pDtuhTq&lt;/a&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1900&quot; data-origin-height=&quot;1000&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/71jNX/btsmcLhGKFL/jkk73TKxcqON95vKXbFpo1/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/71jNX/btsmcLhGKFL/jkk73TKxcqON95vKXbFpo1/img.jpg&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/71jNX/btsmcLhGKFL/jkk73TKxcqON95vKXbFpo1/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F71jNX%2FbtsmcLhGKFL%2Fjkk73TKxcqON95vKXbFpo1%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;706&quot; height=&quot;372&quot; data-origin-width=&quot;1900&quot; data-origin-height=&quot;1000&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;MPT를&amp;nbsp;활용하면&amp;nbsp;여러&amp;nbsp;작업에&amp;nbsp;적용되는&amp;nbsp;단일&amp;nbsp;소프트&amp;nbsp;프롬프트를&amp;nbsp;만들&amp;nbsp;수&amp;nbsp;있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;MPT is a variant of prompt tuning that &lt;/span&gt;&lt;span style=&quot;color: #0f62fe;&quot;&gt;leverages a transferable shared prompt that has distilled knowledge from multiple tasks&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;. The shared prompt is then tuned with the user&amp;rsquo;s data.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;This technique was developed in the MIT-IBM Watson AI Lab.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Empirical results demonstrate that MPT &lt;/span&gt;&lt;span style=&quot;color: #0f62fe;&quot;&gt;outperforms&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; prompt tuning across &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;a number of&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; benchmarks.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Another MPT differentiator is the ability to &lt;/span&gt;&lt;span style=&quot;color: #0f62fe;&quot;&gt;tune a single prompt on several tasks&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;MPT는&amp;nbsp;여러&amp;nbsp;작업에서&amp;nbsp;얻은&amp;nbsp;지식을&amp;nbsp;추출한&amp;nbsp;전송&amp;nbsp;가능한&amp;nbsp;공유&amp;nbsp;프롬프트를&amp;nbsp;활용하는&amp;nbsp;프롬프트&amp;nbsp;조정의&amp;nbsp;변형입니다.&amp;nbsp;그러면&amp;nbsp;공유&amp;nbsp;프롬프트가&amp;nbsp;사용자&amp;nbsp;데이터에&amp;nbsp;맞게&amp;nbsp;조정됩니다.&lt;br /&gt;이 기술은 MIT-IBM Watson AI Lab에서 개발되었습니다.&lt;br /&gt;&lt;br /&gt;경험적&amp;nbsp;결과에&amp;nbsp;따르면&amp;nbsp;MPT는&amp;nbsp;여러&amp;nbsp;벤치마크에서&amp;nbsp;즉각적인&amp;nbsp;조정보다&amp;nbsp;성능이&amp;nbsp;뛰어납니다.&lt;br /&gt;MPT의 또 다른 차별화 요소는 여러 작업에 대해 단일 프롬프트를 조정하는 기능입니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://github.com/huggingface/peft&quot;&gt;https://github.com/huggingface/peft&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://heidloff.net/article/introduction-multi-task-prompt-tuning/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://heidloff.net/article/introduction-multi-task-prompt-tuning/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Prompt Engineering &amp;amp; Tuning</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/409</guid>
      <comments>https://yumdata.tistory.com/409#entry409comment</comments>
      <pubDate>Mon, 3 Jul 2023 20:40:35 +0900</pubDate>
    </item>
    <item>
      <title>[논문리뷰] The Power of Scale for Parameter-Efficient Prompt</title>
      <link>https://yumdata.tistory.com/408</link>
      <description>&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;The&amp;nbsp;Power&amp;nbsp;of&amp;nbsp;Scale&amp;nbsp;for&amp;nbsp;Parameter-Efficient&amp;nbsp;Prompt&amp;nbsp;Tuning&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Google Research 2019.09&lt;/b&gt;&lt;br /&gt;&lt;a href=&quot;https://arxiv.org/pdf/2104.08691.pdf&quot; target=&quot;_self&quot;&gt;&lt;span&gt;https://arxiv.org/pdf/2104.08691.pdf&lt;/span&gt;&lt;/a&gt;&lt;br /&gt;&lt;a href=&quot;https://arxiv.org/abs/2104.08691&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;&lt;span&gt;https://arxiv.org/abs/2104.08691&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;
&lt;figure data-ke-type=&quot;opengraph&quot; data-og-title=&quot;The Power of Scale for Parameter-Efficient Prompt Tuning&quot; data-ke-align=&quot;alignCenter&quot; data-og-description=&quot;In this work, we explore &amp;quot;prompt tuning&amp;quot;, a simple yet effective mechanism for learning &amp;quot;soft prompts&amp;quot; to condition frozen language models to perform specific downstream tasks. Unlike the discrete text prompts used by GPT-3, soft prompts are learned throug&quot; data-og-host=&quot;arxiv.org&quot; data-og-source-url=&quot;https://arxiv.org/abs/2104.08691&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/bTjk0s/hyS4uNwDLk/6EC4MKQmAKfKcROpQnctQ1/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/u4RcS/hyS4wR72N4/nyuJDpkE5aDvYIG5CFpOV1/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000&quot; data-og-url=&quot;https://arxiv.org/abs/2104.08691v2&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2104.08691v2&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://arxiv.org/abs/2104.08691&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/bTjk0s/hyS4uNwDLk/6EC4MKQmAKfKcROpQnctQ1/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/u4RcS/hyS4wR72N4/nyuJDpkE5aDvYIG5CFpOV1/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;The Power of Scale for Parameter-Efficient Prompt Tuning&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;In this work, we explore &quot;prompt tuning&quot;, a simple yet effective mechanism for learning &quot;soft prompts&quot; to condition frozen language models to perform specific downstream tasks. Unlike the discrete text prompts used by GPT-3, soft prompts are learned throug&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;arxiv.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;The &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Huggingface&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; PEFT Library&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;a href=&quot;https://github.com/huggingface/peft&quot;&gt;https://github.com/huggingface/peft&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1697375477213&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;object&quot; data-og-title=&quot;GitHub - huggingface/peft:   PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.&quot; data-og-description=&quot;  PEFT: State-of-the-art Parameter-Efficient Fine-Tuning. - GitHub - huggingface/peft:   PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.&quot; data-og-host=&quot;github.com&quot; data-og-source-url=&quot;https://github.com/huggingface/peft&quot; data-og-url=&quot;https://github.com/huggingface/peft&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/ojL1A/hyUd1b7nJv/DpU0RlnjKQeZCcekJxIz7K/img.png?width=1200&amp;amp;height=600&amp;amp;face=0_0_1200_600&quot;&gt;&lt;a href=&quot;https://github.com/huggingface/peft&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://github.com/huggingface/peft&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/ojL1A/hyUd1b7nJv/DpU0RlnjKQeZCcekJxIz7K/img.png?width=1200&amp;amp;height=600&amp;amp;face=0_0_1200_600');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;GitHub - huggingface/peft:   PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;  PEFT: State-of-the-art Parameter-Efficient Fine-Tuning. - GitHub - huggingface/peft:   PEFT: State-of-the-art Parameter-Efficient Fine-Tuning.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;github.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;PEFT 접근 방식을 사용하면 적은 계산 비용으로 전체 fine-tuning에 비해 충분한 성능을 얻을 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이는 레이블이 지정된 데이터 및/또는 컴퓨팅 리소스가 제한될 때 선호되는 접근 방식입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%; height: 146px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style8&quot;&gt;
&lt;tbody&gt;
&lt;tr style=&quot;height: 17px;&quot;&gt;
&lt;td style=&quot;width: 50%; height: 17px;&quot;&gt;&lt;b&gt;Fine-tuning&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 50%; height: 17px;&quot;&gt;&lt;b&gt;Parameter-efficient fine-tuning(PEFT)&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 50%; height: 19px;&quot;&gt;모든&amp;nbsp;모델&amp;nbsp;매개변수&amp;nbsp;조정&lt;/td&gt;
&lt;td style=&quot;width: 50%; height: 19px;&quot;&gt;소수의&amp;nbsp;(추가)&amp;nbsp;모델&amp;nbsp;매개변수&amp;nbsp;조정&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 50%; height: 19px;&quot;&gt;호스팅이&amp;nbsp;필요한&amp;nbsp;기본&amp;nbsp;모델의&amp;nbsp;복사본을&amp;nbsp;생성&lt;/td&gt;
&lt;td style=&quot;width: 50%; height: 19px;&quot;&gt;몇 MB 이하의 작은 체크포인트를 생성&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 50%; height: 19px;&quot;&gt;1,000~100,000개의&amp;nbsp;라벨이&amp;nbsp;지정된&amp;nbsp;데이터&amp;nbsp;포인트가&amp;nbsp;필요&lt;/td&gt;
&lt;td style=&quot;width: 50%; height: 19px;&quot;&gt;100~1,000개의 라벨이 지정된 데이터 포인트가 필요&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 50%; height: 19px;&quot;&gt;기본&amp;nbsp;모델에&amp;nbsp;비해&amp;nbsp;대상&amp;nbsp;작업에서&amp;nbsp;상당한&amp;nbsp;성능&amp;nbsp;향상&lt;/td&gt;
&lt;td style=&quot;width: 50%; height: 19px;&quot;&gt;기본&amp;nbsp;모델&amp;nbsp;크기&amp;nbsp;및&amp;nbsp;사용된&amp;nbsp;데이터에&amp;nbsp;따라&amp;nbsp;전체&amp;nbsp;미세&amp;nbsp;조정과&amp;nbsp;비교&amp;nbsp;가능&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 50%; height: 19px;&quot;&gt;치명적인&amp;nbsp;망각에&amp;nbsp;빠지기&amp;nbsp;쉽다&lt;/td&gt;
&lt;td style=&quot;width: 50%; height: 19px;&quot;&gt;치명적인&amp;nbsp;망각을&amp;nbsp;극복&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt Tuning&lt;/h2&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Soft Prompt&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델 fine tuning의 대안인 Prompt tuning은 모델 가중치를 동결하고 프롬프트의 매개변수를 업데이트 합니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;결과 프롬프트는 'soft prompt'입니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1074&quot; data-origin-height=&quot;556&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/k2xY0/btskKEK1vH0/KJgjseb3i7WTPdus90x2K0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/k2xY0/btskKEK1vH0/KJgjseb3i7WTPdus90x2K0/img.png&quot; data-alt=&quot;Model Tuning vs Prompt Tuning (Lester et al.)&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/k2xY0/btskKEK1vH0/KJgjseb3i7WTPdus90x2K0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fk2xY0%2FbtskKEK1vH0%2FKJgjseb3i7WTPdus90x2K0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;645&quot; height=&quot;334&quot; data-origin-width=&quot;1074&quot; data-origin-height=&quot;556&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Model Tuning vs Prompt Tuning (Lester et al.)&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;위의 이미지는 model tuning과 prompt tuning을 대조합니다. &lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;model tuning에서는 다른 작업에서 동일한 모델을 미세 튜닝합니다. 이렇게 하면 입력을 쉽게 일괄 처리할 수 없는 몇 가지 다른 모델이 제공됩니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;반면 prompt tunig을 사용하면 모든 작업에 동일한 모델을 사용할 수 있습니다. 추론 시간에 적절한 프롬프트를 추가하기만 하면 다양한 작업에서 일괄 처리가 더 쉬워집니다. 이것은 정기적인 프롬프팅이 갖는 이점과 거의 동일합니다. 또한 여러 작업에서 단일 모델에 대해 훈련된 soft prompt는 종종 토큰 길이가 동일합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Soft Prompt 작동 원리&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;soft prompting의 기본 논리를 이해하기 위해 주어진 프롬프트에서 모델 추론이 작동하는 방식에 대해 생각해 봅시다. &lt;br /&gt;What's 2+2?&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;1) What, 's, 2, +, 2, ?로 토큰화될 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;2) 그런 다음 각 토큰은 값의 벡터로 변환됩니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;3) 이 값의 벡터는 모델 매개변수로 간주될 수 있습니다. 이 프롬프트의 가중치만 조정하여 모델을 추가로 훈련할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이러한 가중치를 업데이트하기 시작하자마자 토큰의 벡터는 더 이상 어휘의 실제 임베딩과 일치하지 않습니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;결론&lt;/span&gt;&lt;/b&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝은 더 큰 모델에서 더 잘 수행됩니다. &lt;br /&gt;모델이 클수록 소프트 프롬프트 토큰도 덜 필요합니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;그럼에도 불구하고 20개 이상의 토큰은 상당한 성능 향상을 가져오지 않습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Interpretable Soft Prompts(&lt;span style=&quot;color: #000000;&quot;&gt;해석 가능한 Soft Prompt)&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;소프트 프롬프트는 어휘의 실제 토큰에 해당하지 않는 일련의 벡터입니다. 이로 인해 프롬프트를 해석하기가 어렵습니다. 그러나 우리는 여전히 벡터를 어휘에서 가장 가까운 토큰에 매핑하여 그렇게 하려고 시도할 수 있습니다. 그러나 예상되는 소프트 프롬프트는 종종 제멋대로입니다. 그들은 작업을 잘 해결할 수 있지만 어휘에서 임의의 토큰에 투영됩니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어 GSM8K2와 같은 수학 문제를 학습하는 경우 &lt;/span&gt;&lt;span style=&quot;color: #1c1e21;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;You are a mathematician. Solve this question:&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이라는 프롬프트로 시작할 수 있습니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;prompt tuning을 수행한 다음 이를 다시 토큰 공간에 투영하면 &lt;/span&gt;&lt;span style=&quot;color: #1c1e21;&quot;&gt;&lt;span style=&quot;background-color: #dddddd;&quot;&gt;A bus is a bus. Do thing here:&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;와 같이 무의미한 결과가 남을 수 있습니다. &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 무의미한 프롬프트에 매핑되는 soft prompt가 작업에서 더 나은 성능을 제공할 수 있는 경우가 많습니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;The Waywardness Hypothesis(&lt;span style=&quot;color: #000000;&quot;&gt;고집불통 가설)&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Khashabi et al.은 이 놀라운 가설을 제안합니다. 작업이 주어지면 개별 대상 프롬프트에 대해 작업을 잘 수행하면서 그것에 투사되는 연속적인 프롬프트가 존재한다고 말합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이는 1000개의 서로 다른 작업이 주어지면 동일한 개별 프롬프트에 매핑되는 1000개의 서로 다른 성능 소프트 프롬프트(각 작업에 대해 하나씩)가 있음을 의미합니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Interpretability Risks(해석 위험)&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;소프트 프롬프트를 해석할 때 발생하는 여러 가지 위험을 강조하기 위해 Waywardness Hypothesis를 사용합니다. 특히, 소프트 프롬프트는 오해의 소지가 있는 의도를 제공하는 별개의 프롬프트로 투사될 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;순위 이력서에 대한 소프트 프롬프트를 고려하십시오. 토큰 공간에 투영하면 &lt;span style=&quot;background-color: #dddddd;&quot;&gt;You hiring manager. Rank good resumes:&lt;/span&gt;가 될 수 있습니다. 이것은 괜찮은 것 같고 아마도 문법적으로 약간 부족할 것입니다. 그러나 토큰 &lt;span style=&quot;background-color: #dddddd;&quot;&gt;good&lt;/span&gt;는 &lt;span style=&quot;background-color: #dddddd;&quot;&gt;white&lt;/span&gt;에 대한 토큰과 유사한 프로젝션을 가질 수 있으며 프롬프트에 암시적 편향이 존재할 수 있습니다. 약간 다른 프로젝션 방법을 사용하면 &lt;span style=&quot;background-color: #dddddd;&quot;&gt;You hiring manager. Rank white resumes:&lt;/span&gt;로 끝날 수 있습니다. 이것은 분명히 상당히 다르며 중요한 의미를 가질 수 있습니다.&lt;br /&gt;&lt;br /&gt;규칙적인&amp;nbsp;불연속&amp;nbsp;프롬프트를&amp;nbsp;해석하는&amp;nbsp;것과&amp;nbsp;유사하게&amp;nbsp;프롬프트에&amp;nbsp;존재할&amp;nbsp;수&amp;nbsp;있는&amp;nbsp;편향을&amp;nbsp;극도로&amp;nbsp;의식해야&amp;nbsp;합니다.&amp;nbsp;소프트&amp;nbsp;프롬프트는&amp;nbsp;해석하기&amp;nbsp;더&amp;nbsp;어렵기&amp;nbsp;때문에&amp;nbsp;특히&amp;nbsp;주의해야&amp;nbsp;합니다.&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prefix Tuning&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Prefix tuning&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;은&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; GPT&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 모델에서 자연어 생성&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;NLG)&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;작업을 위해 설계되었으며&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;,&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Prompt tuning&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;과 매우 유사합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;사전에 훈련된&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;pre-trained&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;)&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 모델의 나머지 매개변수를 동결된 상태로 유지하면서 훈련 및 업데이트할 수 있는 일련의 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;타스크&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;별 벡터를 입력 앞에 추가합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;Prefix tuning은 소프트 프롬프트를 사용합니다. 사전 훈련된 LLM을 고정한 상태로 유지하면서 훈련하는 입력 임베딩에 자유 매개변수가 있는 벡터가 연결됩니다.&lt;br /&gt;Prefix tuning에서는 각 변환기 레이어에 벡터가 추가됩니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt Tuning&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;Prompt Tuning은 벡터가 입력 레이어에만 추가되는 Prefix Tuning의 간단한 변형입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/409&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[Prompt Tuning] Multi-task Prompt Tuning&lt;/a&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Prefix&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Tuning&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;vs&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Prompt&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Tuning&lt;/span&gt;&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;prefix &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;파라미터가 모든 모델 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;layer&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;에 삽입되는 반면 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;prompt tuning&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;은 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;prompt&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 파라미터만 모델 입력 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;임베딩에&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 추가됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;prefix&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;파라미터는 또한 불안정성을 유발하고 성능을 저하시키기 때문에 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;soft prompt&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;에서 직접 훈련하는 대신 별도의 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;feed-forward network(FFN)&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;에 의해 최적화 됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;FFN&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;은 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;soft prompt&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;를&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 업데이트한 후 삭제됩니다&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;604&quot; data-origin-height=&quot;460&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dwHlJt/btsmnDay9tl/dyd8qVdSt6iHEUWLtvJFA0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dwHlJt/btsmnDay9tl/dyd8qVdSt6iHEUWLtvJFA0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dwHlJt/btsmnDay9tl/dyd8qVdSt6iHEUWLtvJFA0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdwHlJt%2FbtsmnDay9tl%2Fdyd8qVdSt6iHEUWLtvJFA0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;483&quot; height=&quot;368&quot; data-origin-width=&quot;604&quot; data-origin-height=&quot;460&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;P-Tuning&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;P-Tuning은 prompt tuning의 변형입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;LSTM 모델을 사용하여 연속된 공간에서 더 나은 프롬프트를 자동으로 검색하고 최적화하는 방법입니다.&lt;br /&gt;&lt;br /&gt;다양한&amp;nbsp;모델&amp;nbsp;규모(300M~10B)에서&amp;nbsp;잘&amp;nbsp;작동하는&amp;nbsp;것으로&amp;nbsp;경험적으로&amp;nbsp;입증되었습니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;References&lt;/span&gt;&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://learnprompting.org/docs/trainable/soft_prompting&quot;&gt;https://learnprompting.org/docs/trainable/soft_prompting&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://huggingface.co/docs/peft/conceptual_guides/prompting&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://huggingface.co/docs/peft/conceptual_guides/prompting&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Generative AI/Prompt Engineering &amp;amp; Tuning</category>
      <category>Large Language Model</category>
      <category>model tuning</category>
      <category>peft</category>
      <category>prefix tuning</category>
      <category>prompt tuning</category>
      <category>soft prompt</category>
      <category>모델 튜닝</category>
      <category>소프트 프롬프트</category>
      <category>프롬프트 튜닝</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/408</guid>
      <comments>https://yumdata.tistory.com/408#entry408comment</comments>
      <pubDate>Wed, 21 Jun 2023 17:33:50 +0900</pubDate>
    </item>
    <item>
      <title>[무료 머신 러닝 실습 시스템] Machine Learning for Kids</title>
      <link>https://yumdata.tistory.com/407</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Machine Learning for Kids&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://machinelearningforkids.co.uk/&quot;&gt;https://machinelearningforkids.co.uk/&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1687329425575&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Machine Learning for Kids&quot; data-og-description=&quot;An educational tool for teaching kids about machine learning, by letting them train a computer to recognise text, pictures, numbers, or sounds, and make things with it in Scratch.&quot; data-og-host=&quot;machinelearningforkids.co.uk&quot; data-og-source-url=&quot;https://machinelearningforkids.co.uk/&quot; data-og-url=&quot;https://machinelearningforkids.co.uk&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/ful3C/hyS4rJ2klT/sR0ltg3PXcKGldQ8cqzFF1/img.gif?width=900&amp;amp;height=545&amp;amp;face=0_0_900_545,https://scrap.kakaocdn.net/dn/uHtIK/hyS4sPHU5A/L6sr9zgzOrEUgEUXI64smk/img.gif?width=900&amp;amp;height=545&amp;amp;face=0_0_900_545&quot;&gt;&lt;a href=&quot;https://machinelearningforkids.co.uk/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://machinelearningforkids.co.uk/&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/ful3C/hyS4rJ2klT/sR0ltg3PXcKGldQ8cqzFF1/img.gif?width=900&amp;amp;height=545&amp;amp;face=0_0_900_545,https://scrap.kakaocdn.net/dn/uHtIK/hyS4sPHU5A/L6sr9zgzOrEUgEUXI64smk/img.gif?width=900&amp;amp;height=545&amp;amp;face=0_0_900_545');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Machine Learning for Kids&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;An educational tool for teaching kids about machine learning, by letting them train a computer to recognise text, pictures, numbers, or sounds, and make things with it in Scratch.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;machinelearningforkids.co.uk&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 무료 도구는 머신 러닝 시스템을 교육하고 이를 사용하여 무언가를 구축하기 위한 실습 경험을 제공하여  머신 러닝을 소개합니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;텍스트, 숫자, 이미지 또는 소리를 인식하도록 머신 러닝 모델을 교육하기 위한 사용하기 쉬운 안내 환경을 제공합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이는 교육용 코딩 플랫폼인 &lt;a href=&quot;https://scratch.mit.edu/about&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;스크래치&lt;/a&gt; 및 &lt;a href=&quot;http://appinventor.mit.edu/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;앱 인벤터&lt;/a&gt;에 이러한 모델을 추가하고 아이들이 훈련하는 머신 러닝 모델로 프로젝트를 만들고 게임을 만들 수 있도록 도와줌으로써 아이들에게 코딩을 소개하고 가르치는 기존의 노력을 기반으로 합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 도구는 2017년에 처음 제공되었으며 현재 전 세계 수천 개의 학교, 코드 클럽 및 가족이 사용하고 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 도구는 전적으로 웹 기반이며 사용하기 위해 설치나 복잡한 설정이 필요하지 않습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그것은 학교와 아이들을 위해 자원 봉사자가 운영하는 코딩 그룹이 교실에서 사용하도록 설계되었으며 교사 또는 그룹 리더가 학생들의 액세스를 관리하고 관리할 수 있는 관리 페이지를 제공합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;a href=&quot;https://www.ibm.com/watson&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;IBM Watson&lt;/a&gt;의 API를 사용하여 &lt;a href=&quot;http://dalelane.co.uk/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Dale Lane&lt;/a&gt;이 구축하고 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;구현에 대한 자세한 내용은 GitHub에서 소스 코드를 보거나 기술에 대한 일부 블로그 게시물을 읽을 수 있습니다.&lt;/span&gt;&lt;/p&gt;</description>
      <category>Machine Learning/Machine Learning</category>
      <category>machine learning for kids</category>
      <category>머신 러닝 실습</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/407</guid>
      <comments>https://yumdata.tistory.com/407#entry407comment</comments>
      <pubDate>Wed, 21 Jun 2023 15:43:09 +0900</pubDate>
    </item>
    <item>
      <title>Prompt Engineering vs Prompt Tuning vs Fine Tuning</title>
      <link>https://yumdata.tistory.com/406</link>
      <description>&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt(프롬프트)&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;사용자가 원하는 출력을 생성하고자 할 때 대규모 언어 모델(LLM, Large Language Model)을 안내하기 위한 특정 입력 텍스트 및 질문 텍스트&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;모델에 제공하는 광범위한 지침&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;으로&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;,&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 모델이 원하는 출력을 이해하는 데 도움이 되는 일련의 입력 문구&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;텍스트는 사용자와 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;generative &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;AI &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;모델 간의 주요 통신 수단&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;br /&gt;예) 긴 기사를 요약하고 싶으면&lt;br /&gt;&quot;Summarize the above in one sentence&quot; 같은 프롬프트와 기사 텍스트를 LLM(Large Language Model)에 입력&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 프롬프트는 모델의 사고 과정을 위한 출발점 역할을 하므로 AI 모델과 상호 작용하는 데 필수적입니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;간단하고 간단한 질문부터 AI가 정보를 합성하고 추론을 도출하거나 창의적인 솔루션을 제공해야 하는 보다 복잡하고 미묘한 하위 작업에 이르기까지 다양합니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트의 품질과 명확성은 AI 모델에서 생성되는 출력에 큰 영향을 미칠 수 있으므로 사용자의 의도와 원하는 결과를 효과적으로 전달하는 프롬프트를 만드는 것이 중요합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt 구성 요소&lt;/h2&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;지시사항(Instruction)&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;AI 모델이 수행하기를 원하는 작업&lt;br /&gt;구체적으로 어떤 작업을 해야 하는지에 대해 &lt;b&gt;명확한 지시를 정의&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 개 산책 사업에 대한 아이디어를 나열하도록 하려면 다음과 같이 지시할 수 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;있습니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&quot;List ideas for starting a dog-walking business:&amp;rdquo;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&quot;List ideas for starting a large, wildly successful dog-walking business&quot;&lt;/span&gt;&lt;/p&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;상황(Context)&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;AI 모델이 답변을 하게 되는 주변의 상황 또는 외부의 정보 및 추가 내용&lt;br /&gt;지시사항이 이루어지는 상황에 대해서 AI에게 인지시킴으로써 해당 상황 내에서 지시에 대한 답을 내도록 한정하는 역할&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트에 &lt;/span&gt;&lt;b&gt;배경 또는 컨텍스트 정보를 포함&lt;/b&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하면 모델 출력이 원하는 방향으로 조금씩 움직일 수 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;있습니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;특히 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 텍스트에 나타나는 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;토큰화된&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;) &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;단어는 생성된 출력에 포함될 가능성이 더 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;큽니다&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;br /&gt;Examaples&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;원하는 모델 응답의 형식 또는 모양을 나타내려면 생성된 텍스트가 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;따르기를&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 원하는 패턴을 보여주는 하나 이상의 예제 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;입력&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;쌍과 해당하는 원하는 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;출력&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;을 포함한다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;입력 값&lt;/b&gt;&lt;br /&gt;구하고자 하는 최종 답에 대한 질문&lt;br /&gt;지시와 상황을 기본 내용으로 해 최종으로 구하는 답을 얻게 하는 목표 내용&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;b&gt;출력 형식&lt;/b&gt;&lt;br /&gt;결과물의 형식 또는 형태 요소&lt;br /&gt;입력값에 대한 출력 형태이므로 어떤 출력을 내도록 할 것인지는 매우 중요&lt;br /&gt;출력의 형태가 간명할수록 원하는 결과에 가깝게 됨&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;Cue&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;큐는 원하는 경로에서 생성된 출력을 시작할 가능성이 있는 프롬프트 끝에 있는 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;텍스트&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;i&gt;&lt;b&gt;&lt;span style=&quot;color: #ff0000;&quot;&gt;*&lt;/span&gt;&lt;span style=&quot;color: #ff0000;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트에 응답하는 것처럼 보이지만 실제로는 &lt;/span&gt;&lt;span style=&quot;color: #0f62fe;&quot;&gt;프롬프트에 텍스트를 추가하거나 프롬프트를 계속&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하고 있음을 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;기억하십시오&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;.&lt;/span&gt;&lt;/b&gt;&lt;/i&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Zero-shot Prompting&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;zero-shot prompting에서 &lt;span style=&quot;color: #000000;&quot;&gt;AI 모델은 기존 지식과 언어에 대한 일반적인 이해뿐만 아니라 프롬프트의 큰 언어에 포함된 정보에서 추론하는 능력에만 의존합니다. 이 접근 방식은 응답을 안내하는 데 도움이 되도록 모델에 각각 제한적이거나 광범위한 수의 예제가 제공되는 소수 학습 및 다중 학습과 대조됩니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;b&gt;예시)&lt;/b&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다양한 소스의 텍스트가 포함된 대규모 데이터 세트에서 학습된 GPT-3과 같은 강력한 AI 언어 모델이 있다고 상상해 보십시오. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 언어 모델이 주어진 기사에 대한 요약을 제공하기를 원합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;'다음 기사를 세 문장으로 요약하십시오.'와 같은 간결한 지침이 뒤따르는 기사 텍스트를 AI 모델에 제공하기만 하면 제로샷 프롬프팅을 사용할 수 있습니다. 그런 다음 AI 모델은 기사 요약 작업에 대해 명시적으로 훈련되지 않은 상태에서 입력 텍스트를 처리하고 가장 중요한 사항을 추출하고 요약을 생성합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이것은 GPT-3 및 유사한 AI 모델이 훈련 중에 큰 언어 모델과 광범위한 텍스트를 가지고 있기 때문에 해당 작업에 대한 특정 예나 사전 훈련 없이도 요약과 같은 새로운 작업을 일반화하고 수행할 수 있기 때문에 가능합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;One-shot Prompting&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;one-shot prompting은 AI 모델에 사용되는 기술로, 모델에 작업 설명과 단일 예제를 제공하여 학습하고 주어진 프롬프트에 대한 응답을 생성합니다. AI 모델은 이 작업 설명과 예제를 참조로 사용하여 작업을 이해하고 적절한 출력을 생성합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;one-shot prompting&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;은 예가 없는 소프트 프롬프트를 제공하는 제로샷 프롬팅과 모델의 반응을 안내하기 위해 여러 예를 포함하는 소수 또는 다수 샷 학습 사이의 균형을 이룹니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;one-shot prompting&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;에서 AI 모델은 제공된 예와 결합된 기존 지식과 언어에 대한 일반적인 이해를 활용하여 당면한 작업을 수행합니다. 이 접근 방식은 모델이 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;one-shot prompting&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;만 사용하여 원하는 출력을 추론하는 데 어려움을 겪을 수 있는 경우에 특히 유용할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Few-shot Prompting&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/c7R7yv/btskSngoUIJ/Kl748R8tpree1ddrMfSTE1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/c7R7yv/btskSngoUIJ/Kl748R8tpree1ddrMfSTE1/img.png&quot; data-alt=&quot;https://renaissancerachel.com/prompting/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/c7R7yv/btskSngoUIJ/Kl748R8tpree1ddrMfSTE1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fc7R7yv%2FbtskSngoUIJ%2FKl748R8tpree1ddrMfSTE1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;528&quot; height=&quot;352&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://renaissancerachel.com/prompting/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;few-shot prompting은 주어진 프롬프트에서 학습하고 응답을 생성하기 위해 적은 수의 예(일반적으로 2~10개)만 모델에 제공하는 AI 모델과 함께 사용되는 기술입니다. 이러한 예는 모델이 작업을 더 잘 이해하고 더 정확한 출력을 생성할 수 있도록 하는 참조 역할을 합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;few-shot prompting&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;는 one-shot prompting보다 AI 모델에 더 많은 지침을 제공하는 동시에 광범위한 교육 데이터가 필요하지 않습니다. 제공된 몇 가지 예에서 모델을 일반화하고 그 이해를 새로운 보이지 않는 프롬프트에 적용하는 데 도움이 됩니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt Engineering (프롬프트 엔지니어링)&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;by OpenAI CEO&lt;/b&gt;&lt;br /&gt;&lt;i&gt;Writing a really great prompt for a chatbot persona is an&amp;nbsp; amazingly high-leverage skill and an early example of programming in a little bit of natural language&lt;/i&gt;&lt;br /&gt;챗봇 페르소나를 위해 훌륭한 프롬프트를 작성하는 것은 활용성이 굉장히 높은 기술이며 몇 마디의 자연어로 프로그래밍하는 것의 초기 모습니다.&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;b&gt;AI가 최적의 결과물을 만들어낼 수 있도록, AI 프롬프트를 작성하는 작업&lt;/b&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;Generative AI을 기반으로 한 AI 모델로부터 더 복잡한 태스크들에 대해 정확한 답변을 이끌어내도록 유도하면서 환각(hallucination) 현상과 같은 오류를 줄이는데 기여하고 있습니다.&lt;br /&gt;AI에게 질문을 잘해 AI를 효과적으로 쓰는 방법입니다.&lt;br /&gt;AI로부터 최상의 답변을 끌어내기 위해 최적의 단어, 즉 입력값들의 조합을 찾는 작업입니다.&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;대규모 언어 모델&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;LLM)&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;이 일관성 있고 고품질의 텍스트 출력을 생성할 수 있도록 하는 효과적인 프롬프트를 설계하고 제작하는 작업&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;원하는 출력 결과물을 이해하고 요구 사항을 충족하는 텍스트를 생성하는 모델의 기능을 최대화하는 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;명확하고 간결한 입력을 제공하는 것을 목표로 합니다&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;프롬프트를 구성하는 방식이 결과물의 퀄리티를 좌우&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;!!&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/KspwL/btskNd0IQo9/aQqAMI1Jz1GfbEOqYbFs41/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/KspwL/btskNd0IQo9/aQqAMI1Jz1GfbEOqYbFs41/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/KspwL/btskNd0IQo9/aQqAMI1Jz1GfbEOqYbFs41/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FKspwL%2FbtskNd0IQo9%2FaQqAMI1Jz1GfbEOqYbFs41%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;543&quot; height=&quot;362&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 엔지니어링은 기본적으로 인간이 손으로 디자인한 프롬프트, 특히 자연어 처리에 중점을 둔 프롬프트이기 때문에 AI 모델 작업의 중요한 측면입니다. 여기에는 AI 모델의 성능, 안정성 및 유용성을 개선하기 위한 프롬프트 설계 및 최적화가 포함되어 생성된 출력이 사용자의 의도 및 원하는 결과와 일치하도록 합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;이 프로세스에서는 필요에 따라 컨텍스트와 예제를 제공하면서 명확하고 간결한 프롬프트를 작성해야 합니다. 주어진 작업에 대해 가장 효과적인 프롬프트 구조와 구문을 식별하기 위해 종종 반복적인 개선이 필요합니다. &lt;br /&gt;&lt;br /&gt;프롬프트 엔지니어링을 마스터함으로써 사용자는 AI 모델에서 보다 정확하고 관련성이 높으며 신뢰할 수 있는 결과를 얻을 수 있으므로 보다 효율적이고 생산적인 상호 작용이 가능합니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 엔지니어링의 주요 목표는 사용자의 의도와 원하는 결과를 전달하는 프롬프트를 세심하게 만들어 모델의 성능, 정확성 및 유용성을 극대화하는 것입니다. 이는 명확한 지침, 충분한 컨텍스트 및 필요한 경우 예를 제공하는 것을 포함하여 몇 가지 기술과 고려 사항을 통해 달성됩니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt Engineering이 필요한 이유&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 엔지니어링은 AI 모델, 특히 자연어 처리에 중점을 둔 모델의 잠재력을 최대한 활용하는 데 있어 중요한 측면입니다.&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;엔지니어링의 중요성은 모델 출력의 품질, 정확성 및 관련성에 직접적인 영향을 미친다는 것입니다. &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;잘 만들어진 프롬프트는 사용자 경험을 향상시킬 뿐만 아니라 모델에 적절한 지침과 명확성을 제공하여 작업 복잡성을 해결합니다. 그렇게 함으로써 모호성을 해결하고 전반적인 효율성을 개선하며 원하는 출력을 얻는 데 필요한 반복 횟수를 줄임으로써 시간과 리소스를 절약합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;또한 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 엔지니어링을 통해 사용자 지정이 가능하여 사용자가 특정 요구 사항이나 선호도에 따라 AI 모델의 응답을 조정할 수 있습니다. 결과적으로 보다 개인화되고 상황에 맞는 관련 출력이 생성됩니다. &lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 엔지니어링의 또 다른 중요한 측면은 윤리적 고려 사항을 다루는 역할입니다. &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;적절한 제약 조건과 지침으로 프롬프트를 작성함으로써 AI 모델은 잠재적으로 유해하거나 편향되거나 공격적인 콘텐츠를 생성하는 것을 방지하고 결과를 윤리적 고려 사항 및 사용자 기대치에 맞춥니다. &lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;본질적으로 프롬프트 엔지니어링은 사용자와 AI 모델 간의 상호 작용을 최적화하여 생성된 출력이 사용자의 기대를 충족하고 특정 요구 사항을 충족하여 궁극적으로 보다 효율적이고 생산적인 상호 작용을 유도하는 데 필수적입니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Auto-Regression LLM의 한계&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;LLM은 단어의 순서를 비롯한 프롬프트의 작은 변화에 따라 응답의 품질이 상당히 다를 수 있습니다.&lt;br /&gt;LLM은 명령(Instruction)과 예제(Example)의 미묘한 패턴을 감지하여 답변을 조정합니다. 따라서 LLM 의 답변 결과는 프롬프트(ex. 프롬프트에 포함된 특정 명령뿐만 아니라 단어의 선택, 단어의 순서)에 따라 민감하게 달라질 수 있습니다.&lt;br /&gt;&amp;nbsp;&lt;br /&gt;대표적인 LLM인 GPT 모델이 Auto-Regression 모델임을 기억하십시오.&lt;br /&gt;Auto-Regression LLM은 이전 단어를 보고 가장 높은 확률의 단어를 다음 단어로 예측하므로 단어의 순서에 따라 얼마든지 다른 답변을 출력할 수 있습니다.&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Human-Computer 간의 인터페이스로 자연어 사용&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;컴퓨터가 발명된 이후, 컴퓨터의 프로세서에서 실행되는 기계어를 인간이 직접 프로그래밍하는 것을 시작으로 인간과 컴퓨터간 인터페이스는 컴퓨터의 구조를 잘 알지 못하여도 쉽게 프로그래밍할 수 있도록 고급 프로그래밍 언어의 형태로 점점 더 발전되어 왔습니다. 결국 우리가 현재 사용하는 GUI 등은 쉽고 직관적인 인터페이스를 제공하기 위한 결과입니다.&lt;br /&gt;&amp;nbsp;&lt;br /&gt;하지만 인간에게는 자연어를 능가하는 사용자 인터페이스는 없습니다.&lt;br /&gt;반대로 컴퓨터에게 자연어만큼 불친절한 인터페이스는 없습니다.&lt;br /&gt;자연어는 매우 모호하고, 부정확하고, Context에 매우 의존적이며, 사람마다 해석이 다를 수 있습니다.&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;LLM은 주위 환경의 Context를 이해하는데 한계를 갖음&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;현재의 LLM은 사람과 달리 장기 기억을 갖지 못하고 다양한 감각 기관의 도움을 받을 수 없기 때문에 자기 주위의 컨텍스트를 이해할 수 없습니다.&amp;nbsp;&lt;br /&gt;프롬프트 엔지니어링은 자연어의 복잡성과 다양성을 유지하면서 AI 시스템을 명확하게 프로그래밍할 수 있는 방법을 제공합니다.&lt;br /&gt;&amp;nbsp;&lt;br /&gt;하지만 프롬프트 엔지니어링에도 단점이 있습니다. 예를 들어 LLM으로부터 원하는 답변을 유도하는 것은 내부가 어떻게 동작하는지 알지 못하는 블랙 박스를 제어하는 것과 유사하기 때문에 원하는 답변을 얻기 위한 프롬프트를 만드는데 많은 시간이 필요합니다.&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt Engineer&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/410&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[Generative AI] Prompt Engineer (프롬프트 엔지니어)&lt;/a&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt Tuning&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/l7EAS/btskLMCkC4H/ll5UZFufhxkOn8e1VKLzyk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/l7EAS/btskLMCkC4H/ll5UZFufhxkOn8e1VKLzyk/img.png&quot; data-alt=&quot;https://renaissancerachel.com/prompting/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/l7EAS/btskLMCkC4H/ll5UZFufhxkOn8e1VKLzyk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fl7EAS%2FbtskLMCkC4H%2Fll5UZFufhxkOn8e1VKLzyk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;599&quot; height=&quot;399&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://renaissancerachel.com/prompting/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝은 프롬프트 형태로 모델에 제공된 입력을 정제하는 프롬프트 엔지니어링에 비해 더 무거운 접근 방식입니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 모델의 매개변수를 fine-tuning함으로써 프롬프트 튜닝을 통해 모델의 동작을 보다 정확하게 조정하여 보다 정확하고 적절하며 신뢰할 수 있는 출력을 얻을 수 있습니다. &lt;br /&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝을 통해 모델은 내부 표현에 대한 미묘한 조정을 학습하여 Foundation 모델을 광범위하게 재교육하거나 수정하지 않고도 특정 작업이나 프롬프트에서 더 잘 수행할 수 있습니다. 보다 상업적인 의미에서 프롬프트 튜닝을 통해 제한된 데이터를 가진 회사는 대규모 모델을 좁은 작업에 맞게 조정할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;말 그대로 대규모 언어 모델(LLM, Large Language Model) 자체를 fine-tuning하는 기술로, 주어진 입력 프롬프트에 대해 원하는 답변을 생성하는 LLM을 만드는 것을 목표로 합니다.&lt;br /&gt;&amp;nbsp;&lt;br /&gt;프롬프트 튜닝을 통해 LLM은 내부 표현에 대한 미묘한 조정을 배우며 LLM을 광범위하게 재학습하거나 수정하지 않고도 특정 작업이나 프롬프트를 더 잘 수행할 수 있습니다.&lt;br /&gt;제한된 데이터를 가진 회사는 LLM을 협소한 태스크에 맞게 튜닝할 수 있습니다.&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #292929;&quot;&gt;프롬프트 튜닝은 입력 프롬프트와 해당 프롬프트에 대해 사용자가 원하는 출력을 포함하는 특수 데이터셋으로 LLM을 fine-tuning 함으로써 모델의 동작을 최적화하고 향후 유사한 프롬프트를 처리하는 능력을 향상시킬 수 있습니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;362&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/blfcuW/btskKCrVURM/SjF98JvMt1xMzVqTzJR2lK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/blfcuW/btskKCrVURM/SjF98JvMt1xMzVqTzJR2lK/img.png&quot; data-alt=&quot;Model Tuning vs Prompt Tuning (https://arxiv.org/pdf/2104.08691.pdf)&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/blfcuW/btskKCrVURM/SjF98JvMt1xMzVqTzJR2lK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FblfcuW%2FbtskKCrVURM%2FSjF98JvMt1xMzVqTzJR2lK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;656&quot; height=&quot;339&quot; data-origin-width=&quot;700&quot; data-origin-height=&quot;362&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Model Tuning vs Prompt Tuning (https://arxiv.org/pdf/2104.08691.pdf)&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #292929;&quot;&gt;Fine-tuning은 Pre-training된 모델을 각 task A, B, C에 해당하는 데이터셋을 이용하여 학습하는 것으로 모델의 weight가 변경됩니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #292929;&quot;&gt;반면 프롬프트 튜닝은 Pre-training된 모델의 weight를 변경하지 않고 모델에 입력되는 프롬프트에 해당하는 weight만을 학습합니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #292929;&quot;&gt;모델 weight 보다 프롬프트 weight가 훨씬 더 작기 때문에 fine-tuning보다 프롬프트 튜닝의 학습 시간이 빠른 장점이 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Prompt Tuning는 어떻게 동작되는가&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝은 사용자와 AI 모델 간의 안내된 커뮤니케이션 프로세스로 시각화할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI를 고도로 지식이 풍부하지만 때로는 대화에서 지나치게 문자적이거나 장황한 파트너라고 생각하십시오. 귀하의 목표는 신중하게 디자인된 텍스트 프롬프트를 사용하여 AI에서 가장 정확하고 관련성이 있으며 간결한 정보를 추출하는 것입니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;초기 프롬프트 튜닝으로 시작하십시오. 예를 들어 사용자의 쿼리가 '프롬프트 튜닝이란 무엇입니까?'인 경우 'AI에서 프롬프트 튜닝의 개념과 목적을 설명하십시오.'와 같이 보다 구체적으로 쿼리를 수정합니다. 그런 다음 AI의 응답을 분석하고 필요한 경우 프롬프트를 다시 수정하여 더 정확하고 간결한 답변을 얻습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Prompt Tuning 중요점&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝은 보다 집중적이고 간결한 출력을 장려함으로써 지나치게 장황하거나 문자 그대로의 경향과 같은 AI 모델의 고유한 한계를 극복하는 데 도움이 됩니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 기술이 계속 진화하고 우리 삶의 다양한 측면에 점점 더 통합됨에 따라 AI 모델의 성능을 최적화하는 데 즉각적인 튜닝에 대한 철저한 이해가 필수적이며 궁극적으로 더 유익한 인간-AI 협업으로 이어질 것입니다. 이러한 시너지를 촉진함으로써 우리는 AI 기술이 가능한 가장 효과적인 방식으로 우리에게 서비스를 제공하여 생산성을 높이고 광범위한 영역에서 더 나은 의사 결정을 용이하게 할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt Engineering vs Prompt Tuning&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;360&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/qQFB1/btskIX41rf9/C13A3ZktmMm14RvHmAld90/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/qQFB1/btskIX41rf9/C13A3ZktmMm14RvHmAld90/img.png&quot; data-alt=&quot;Model Tuning vs Prompt Tuning vs Prompt Engineering (https://ai.googleblog.com/2022/02/guiding-frozen-language-models-with.html)&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/qQFB1/btskIX41rf9/C13A3ZktmMm14RvHmAld90/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FqQFB1%2FbtskIX41rf9%2FC13A3ZktmMm14RvHmAld90%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;640&quot; height=&quot;360&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;360&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Model Tuning vs Prompt Tuning vs Prompt Engineering (https://ai.googleblog.com/2022/02/guiding-frozen-language-models-with.html)&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;br /&gt;프롬프트 튜닝과 프롬프트 엔지니어링의 주요 차이점은 프로프트 튜닝이 더 자동화된다는 것입니다.&lt;br /&gt;프롬프트 튜닝을 사용하면 사용자가 프롬프트를 제공하기만 하면 LLM이 나머지 작업을 수행합니다.&lt;br /&gt;프롬프트 엔지니어링을 사용하면 사용자가 직접 프롬프트를 설계해야 하므로 더 많은 시간이 소요될 수 있습니다.&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;prompt engineering과 prompt tuning은 AI 성능과 출력을 최적화하기 위한 두 가지 보완적인 접근 방식입니다. 두 전략 모두 사용자와 AI 간의 상호 작용을 개선하는 데 중점을 두지만 구체적인 목표와 기술이 다릅니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Prompt Engineering&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 엔지니어링은 AI 모델에서 원하는 응답을 도출하기 위해 효과적인 입력 프롬프트를 설계하는 기술입니다. 이 프로세스는 종종 프롬프트를 공식화하는 데 창의성과 실험이 필요하며 AI의 강점과 약점에 대한 깊은 이해가 필요합니다. 컨텍스트를 추가하고 기대치를 명확히 하고 AI의 응답을 기반으로 프롬프트를 반복적으로 개선함으로써 사용자는 AI가 보다 정확하고 관련성 있으며 컨텍스트 인식 결과를 생성하도록 안내할 수 있습니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 엔지니어링은 사용자가 Foundation 모델을 수정하지 않고도 더 나은 출력을 얻을 수 있으므로 사전 훈련된 모델로 작업할 때 특히 유용합니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Prompt Tuning&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝은 AI 모델 자체를 fine-tuning하는 고급 기술로, 특히 주어진 입력 프롬프트에 대해 원하는 응답을 생성하는 모델의 기능을 목표로 합니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝은 특정 프롬프트 또는 프롬프트 구조에서 AI 모델의 성능을 개선하는 데 중점을 둔 보다 광범위한 fine-tuning 프로세스의 하위 집합으로 볼 수 있습니다. &lt;br /&gt;입력 프롬프트의 예와 해당하는 원하는 출력을 포함하는 특수 데이터 세트에서 AI 모델을 교육함으로써 사용자는 모델의 동작을 최적화하고 향후 유사한 프롬프트를 처리하는 능력을 향상시킬 수 있습니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 엔지니어링과 프롬프트 튜닝은 모두 AI의 성능을 향상시키고 사용자의 잠재력을 극대화한다는 궁극적인 목표를 제공합니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 엔지니어링은 종종 더 빠르고 더 적은 계산 리소스를 필요로 하지만, 프롬프트 튜닝은 AI의 동작을 보다 중요하고 지속적으로 개선할 수 있으므로 AI 모델을 특정 요구 사항과 과제에 맞게 조정하려는 사용자에게 강력한 도구가 됩니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;실제로 사용자는 AI 모델에서 가능한 최상의 결과를 얻기 위해 고유한 강점을 활용하여 이러한 기술을 조합하여 사용할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bOaPEu/btskSqEbeU0/XXO1irHenrtlx06PLZNIyk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bOaPEu/btskSqEbeU0/XXO1irHenrtlx06PLZNIyk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bOaPEu/btskSqEbeU0/XXO1irHenrtlx06PLZNIyk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbOaPEu%2FbtskSqEbeU0%2FXXO1irHenrtlx06PLZNIyk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;563&quot; height=&quot;375&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-ke-style=&quot;style12&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 33.3333%; text-align: center;&quot;&gt;&amp;nbsp;&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; text-align: center;&quot;&gt;&lt;b&gt;장점&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; text-align: center;&quot;&gt;&lt;b&gt;단점&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 33.3333%; text-align: justify;&quot;&gt;&lt;b&gt;Prompt Engineering&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; text-align: justify;&quot;&gt;출력을 더 많이 제어할 수 있기 때문에 프롬프트 튜닝보다 좀더 효과적&lt;br /&gt;LLM을 원하는 출력으로 안내하도록 프롬프트를 신중하게 만들 수 있음&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; text-align: justify;&quot;&gt;사람의 입력이 더 많이 필요하기 때문에 프롬프트 튜닝보다 더 많은 시간이 소요됨&lt;br /&gt;프롬프트는 신중하게 작성해야 하며 효과적인 프롬프트를 찾기 위해 시행 착오가 필요&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 33.3333%; text-align: justify;&quot;&gt;&lt;b&gt;Prompt Tuning&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; text-align: justify;&quot;&gt;프롬프트 튜닝은 더 자동화되어 있기 때문에 프롬프트 엔지니어링보다 빠르고 쉬움&lt;br /&gt;프롬프트는 모델에 의해 자동으로 생성되며 사람의 입력이 필요하지 않음&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; text-align: justify;&quot;&gt;출력에 대한 많은 제어를 허용하지 않기 때문에 프롬프트 엔지니어링 보다 덜 효과적&lt;br /&gt;프롬프트는 모델에 의해 생성되며 사람이 세심하게 만든 프롬프트만큼 효과적이지 않음&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Fine-tuning&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bgCJMD/btskQjl8Owe/tkPkBjfsWzh05AfCgbj1PK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bgCJMD/btskQjl8Owe/tkPkBjfsWzh05AfCgbj1PK/img.png&quot; data-alt=&quot;https://renaissancerachel.com/prompting/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bgCJMD/btskQjl8Owe/tkPkBjfsWzh05AfCgbj1PK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbgCJMD%2FbtskQjl8Owe%2FtkPkBjfsWzh05AfCgbj1PK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;501&quot; height=&quot;334&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://renaissancerachel.com/prompting/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델 튜닝에서는 서로 다른 작업에서 동일한 모델을 미세 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;조정&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(fine tune)합니다. 이렇게 하면 입력을 쉽게 일괄 처리할 수 없는 몇 가지 다른 모델이 제공됩니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;GPT-3와 같은 사전 훈련된 모델은 초기에 방대한 양의 데이터, 학습 언어 패턴, 문법 및 일반 지식 습득에 대해 훈련됩니다. 그러나 이러한 모델은 특수 작업에서 최적으로 수행하거나 도메인별 응답을 생성하는 데 여전히 어려움을 겪을 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;fine-tuning은 사용자가 특정 요구 사항에 맞게 AI 모델을 조정하려고 할 때 시작됩니다. 해당 작업 또는 산업의 뉘앙스를 반영하는 더 작고 선별된 데이터 세트를 제공함으로써 사용자는 AI 모델의 이해를 구체화하고 대상 도메인에서 성능을 향상시킬 수 있습니다. 이러한 사용자 지정을 통해 AI 모델은 방대한 일반 지식을 유지할 뿐만 아니라 고유한 산업별 요구 사항을 능숙하게 처리할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;예를 들어, 제약 산업에 종사하는 회사는 의학 문헌 및 제약 지침에 대한 언어 모델을 fine-tuning하여 AI가 해당 컨텍스트에서 더 정확하고 신뢰할 수 있는 응답을 생성할 수 있도록 합니다. &lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;fine-tuning&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;을 활용하여 사용자는 AI 언어 모델의 잠재력을 최대한 활용하여 특정 요구 사항과 과제를 충족하는 강력한 도구로 변환하여 궁극적으로 효율성 향상, 더 나은 의사 결정 및 성공적인 AI 배포로 이어질 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Fine-tuning 은 어떻게 동작되는가&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;fine-tuning 프로세스 자체에는 특정 수의 에포크 동안 이 특수 데이터 세트에서 AI 모델을 교육하는 것이 포함되어 모델이 매개 변수를 조정하고 사용자 애플리케이션에 고유한 패턴, 용어 및 뉘앙스를 학습할 수 있습니다. 이 교육은 과적합 또는 과소적합을 방지하고 모델의 일반 지식을 유지하는 것과 특정 사용 사례에 맞게 조정하는 것 사이에서 올바른 균형을 유지하도록 신중하게 수행해야 합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;fine-tuning &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프로세스가 완료되면 AI 모델은 사용자의 대상 도메인에 능숙한 고도로 사용자 정의된 도구가 됩니다. 그런 다음 이 맞춤형 모델을 배포하여 사용자의 특정 문제를 해결하고 사전 훈련된 범용 모델이 달성할 수 있는 것보다 더 정확하고 관련성 있고 신뢰할 수 있는 결과를 얻을 수 있습니다. &lt;br /&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;fine-tuning&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;을 수용함으로써 사용자는 AI 기술의 진정한 잠재력을 잠금 해제하고 고유한 요구 사항을 충족하는 강력한 동맹으로 변환하여 궁극적으로 해당 영역에서 성공과 혁신을 주도할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Fine-tuning은 왜 중요한가&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 모델을 fine-tuning함으로써 사용자는 모델이 특정 상황에서 더 정확하고 관련성 있고 신뢰할 수 있는 결과를 생성하도록 할 수 있으며, 이는 결과적으로 더 나은 의사 결정, 효율성 향상 및 생산성 증가로 이어집니다. 이 사용자 정의 프로세스를 통해 AI 모델은 사용자의 목표와 목표에 보다 잘 부합하여 고유한 문제를 해결하는 데 있어 보다 효과적이고 가치 있는 자산이 됩니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;또한 &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;fine-tuning&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;은 초기에 훈련된 데이터의 다양하고 통제되지 않은 특성의 영향을 받았을 수 있는 사전 훈련된 모델에 내재된 일부 제한 또는 편향을 완화하는 데 도움이 될 수 있습니다. &lt;br /&gt;세심하게 선별된 전문 데이터 세트에서 AI를 교육함으로써 사용자는 모델을 보다 객관적이고 안정적이며 상황에 맞는 응답으로 안내할 수 있으므로 궁극적으로 특정 도메인에서 AI 기술의 모든 기능을 활용하고 혁신과 확장을 주도할 수 있습니다.&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;Prompt tuning vs Fine-tuning&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cEukXN/btskRNl78VH/S1EGOjg6uccQln9Ri15ukK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cEukXN/btskRNl78VH/S1EGOjg6uccQln9Ri15ukK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cEukXN/btskRNl78VH/S1EGOjg6uccQln9Ri15ukK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcEukXN%2FbtskRNl78VH%2FS1EGOjg6uccQln9Ri15ukK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;569&quot; height=&quot;379&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝은 AI 모델에 제공된 입력 텍스트 프롬프트를 개선하여 보다 정확하고 관련성 있으며 상황 인식 응답을 유도하는 데 중점을 둡니다. 여기에는 컨텍스트를 추가하고, 기대치를 명확히 하고, AI의 응답을 기반으로 입력 텍스트를 반복적으로 다듬어 프롬프트를 신중하게 만드는 작업이 포함됩니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝의 주요 이점은 기본 AI 모델을 수정할 필요가 없으므로 더 빠르고 리소스 효율적인 접근 방식이 된다는 것입니다. 프롬프트 튜닝은 사용자가 모델 자체를 재훈련하거나 적응시키지 않고도 더 나은 출력을 추출할 수 있기 때문에 사전 훈련된 모델로 작업할 때 특히 유용합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;fine-tuning은 사전 훈련된 AI 모델을 더 작고 전문화된 데이터 세트에서 훈련시켜 특정 작업, 도메인 또는 애플리케이션에서 더 잘 수행하도록 조정하는 프로세스입니다. 이 데이터 세트는 사용자의 대상 도메인 또는 작업의 뉘앙스를 반영하여 AI 모델이 특정 사용 사례에 고유한 패턴, 용어 및 컨텍스트를 학습할 수 있도록 합니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;fine-tuning&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;은 AI 모델을 재훈련하고 매개 변수를 조정하는 작업을 포함하므로 프롬프트 조정보다 더 많은 계산 리소스와 시간이 필요합니다. 그러나 AI 모델의 예측 성능을 보다 중요하고 지속적으로 개선할 수 있으므로 AI 모델을 특정 요구 사항과 과제에 맞게 조정하려는 사용자에게 강력한 도구가 됩니다.&lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;어떤 방법이 가장 쉬운가?&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/vtKqd/btskTGGBG1D/bk8Zk3vUKuRZlVyjbSchL1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/vtKqd/btskTGGBG1D/bk8Zk3vUKuRZlVyjbSchL1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/vtKqd/btskTGGBG1D/bk8Zk3vUKuRZlVyjbSchL1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FvtKqd%2FbtskTGGBG1D%2Fbk8Zk3vUKuRZlVyjbSchL1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;457&quot; height=&quot;305&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;600&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 모델을 최적화하기 위한 다양한 방법을 탐색함에 따라 필요한 머신 러닝 전문 지식 수준에 분명한 진전이 있습니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;효과적인 입력 프롬프트를 만드는 데 중점을 둔 프롬프트 엔지니어링은 머신 러닝 모델에 대한 심층 지식이 필요하지 않으므로 기술 배경이 제한된 사용자가 액세스할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝 및 fine-tuning과 같은 고급 기술로 이동함에 따라 머신 러닝에 대한 더 깊은 이해가 필수적입니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 튜닝에는 AI 모델로 작업하고 원하는 프롬프트를 제공하는 것이 포함되며 fine-tuning에는 사용자의 요구에 맞는 특정 데이터 세트에 대한 원본 모델의 추가 교육이 필요합니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;인간 피드백으로부터의 강화 학습(RLHF,&amp;nbsp;&amp;nbsp;Reinforcement Learning from Human Feedback)은 가장 복잡한 방법이며 인간 피드백 수집을 위한 메커니즘 설계에 대한 전문 지식이 필요합니다. 사용자는 이러한 기술을 통해 진행하면서 고유한 문제와 기술 숙련도를 기반으로 가장 적합한 방법을 선택하여 AI 모델의 잠재력을 최대한 활용할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;결론적으로 AI 모델이 원하는 작업을 수행하도록 하려면 특정 사용 사례에 맞는 기술 조합이 필요합니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;일반적인 작업의 경우 제로샷, 원샷 및 퓨샷 프롬프팅은 추가 교육 없이도 귀중한 결과를 제공할 수 있습니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;성능을 더욱 최적화하기 위해 프롬프트 엔지니어링은 효과적인 입력 프롬프트를 만드는 데 도움이 될 수 있으며 프롬프트 튜닝 및 fine-tuning을 통해 전문 작업 또는 도메인에 맞게 AI 모델을 사용자 지정할 수 있습니다. &lt;/span&gt;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;가장 좋은 방법은 고유한 요구 사항에 따라 다릅니다. &lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;color: #000000;&quot;&gt;프롬프트 엔지니어링 및 프롬프트 전략은 신속하고 리소스 효율적인 최적화에 이상적이며  fine-tuning은 보다 전문적인 요구 사항에 대한 보다 심층적인 사용자 정의를 제공합니다. 이러한 기술을 이해하고 활용함으로써 AI 모델의 잠재력을 최대한 활용하여 특정 문제를 해결하고 도메인에서 성공을 이끄는 강력한 도구로 변환할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://www.promptingguide.ai/&quot; target=&quot;_self&quot;&gt;&lt;span&gt;Prompting Guide&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://ai.googleblog.com/2022/02/guiding-frozen-language-models-with.html&quot; target=&quot;_self&quot;&gt;&lt;span&gt;Guiding Frozen Language Models with Learned Soft Prompts&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://arxiv.org/pdf/2104.08691.pdf&quot; target=&quot;_self&quot;&gt;&lt;span&gt;The Power of Scale for Parameter-Efficient Prompt Tuning&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://heidloff.net/article/introduction-to-prompt-tuning/&quot; target=&quot;_self&quot;&gt;&lt;span&gt;Introduction to Prompt Tuning&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://renaissancerachel.com/prompting/&quot; target=&quot;_self&quot;&gt;&lt;span&gt;Prompting: Getting AI to do what you want&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.yes24.com/Product/Goods/118304109&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;&lt;span&gt;(서적) 누구든 시작하라 프롬프트 엔지니어&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://moon-walker.medium.com/the-art-of-prompt-engneering-1-prompt-engineering%EC%9D%B4%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80-4a7a88ce67c&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;&lt;span&gt;https://moon-walker.medium.com/the-art-of-prompt-engneering-1-prompt-engineering이란 무엇인가&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>Generative AI/Prompt Engineering &amp;amp; Tuning</category>
      <category>fine tuning</category>
      <category>Generative AI</category>
      <category>prompt</category>
      <category>Prompt engineering</category>
      <category>prompt tuning</category>
      <category>파인튜닝</category>
      <category>프롬프트</category>
      <category>프롬프트 엔지니어</category>
      <category>프롬프트 엔지니어링</category>
      <category>프롬프트 튜닝</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/406</guid>
      <comments>https://yumdata.tistory.com/406#entry406comment</comments>
      <pubDate>Wed, 21 Jun 2023 13:33:59 +0900</pubDate>
    </item>
    <item>
      <title>Text Mining (텍스트 마이닝)</title>
      <link>https://yumdata.tistory.com/405</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Text Mining (텍스트 마이닝)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Text Data Mining 이라고도 합니다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝은 비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝은 정형 및 비정형 데이터를 &lt;b&gt;자연어 처리방식(Natural Language Processing)&lt;/b&gt;과 &lt;b&gt;문서처리 방법&lt;/b&gt;을 적용하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술을 의미하기도 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝은 데이터로부터 유용한 인사이트를 발굴하는 &lt;b&gt;데이터 마이닝(Data Mining)&lt;/b&gt;, 언어를 정보로 변화하기 위한 &lt;b&gt;자연어 처리&lt;/b&gt;,&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;정보 검색&lt;/b&gt; 등 다양한 분야가 접목되어 발전하 학문이자 기술입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;텍스트 데이터 종류&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;텍스트 데이터는 데이터베이스에 따라 구분할 수 있습니다.&lt;b&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;정형 데이터 (Structured Data)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;여러 행과 열로 이루어진 표준 테이블 형식&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;분석 및 머신러닝 알고리즘에 적합하게 저장하고 처리하기 용이&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;ex) 이름, 주소, 전화번호 등&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;비정형 데이터 (Unstructured Data)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;사전 정의된 데이터 형식이 없는 데이터&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;소셜 미디어나 제품 리뷰 같은 소스의 텍스트, 비디오나 오디오 파일 같은 리치 미디어 형식 등&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;반정형 데이터 (Semi-structured Data)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;정형 데이터와 비정형 데이터 형식이 혼합된 데이터&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;어느 정도 체계화되어 있지만, 관계형 데이터베이스의 요구사항을 충족하기에는 정형성이 부족&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;XML, JSON, HTML 파일 등&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;텍스트 마이닝 기법&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝 프로세스는 비정형 텍스트 데이터에서 정보를 추론하기 위한 몇 가지 활동으로 구성됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다양한 텍스트 마이닝 기법을 적용하기 위해서는 텍스트 전처리, 즉 텍스트 데이터를 정리하여 사용 가능한 형식으로 변환해야 합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;언어 식별, 토큰화(Tokenization), 품사 태깅, 구문 분석(chunking)과 같은 기법을 활용하여 데이터를 분석에 적합한 형식으로 만듭니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;정보 검색 (IR, Information Retrieval)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;사전 정의된 query/구문 세트를 기반으로 연관 정보나 문서를 확보하는 기법입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;정보 검색 시스템에서는 각종 알고리즘을 활용하여 사용자 행동을 추적하고 관련 데이터를 식별합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Tokenization(토큰화)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;긴 형태의 텍스트를 &quot;토큰&quot;이라는 문장 및 단어로 나누는 프로세스&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Bag-of-Word(Bow)와 같은 모델을 적용하여 텍스트 클러스터링 및 문서 매칭 태스크를 수행합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Stemming(어간 추출)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;단어에서 접두사와 접미사를 분리하여 어간(&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;단어의 의미를 담고 있는 단어의 핵심 부분)&lt;/span&gt;와 의미를 도출하는 프로세스&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;인덱싱 파일의 크기를 줄여 정보 검색의 성능을 높일 수 있습니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;자연어 처리(NLP, Natural Language Processing)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Summarization(요약)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;긴 텍스트의 시놉시스를 제공하여 문서의 주요 요점을 간결하고 일관되게 요약하는 기법&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;PoS(Part-of-Speech, 품사 태깅)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;명사, 동사, 형용사 등 품사를 기준으로 문서의 토큰에 태그를 할당하는 기법&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;비정형 텍스트에 대한 의미 분석이 가능해집니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Text Categorization(텍스트 범주화)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;텍스트 분류라고도 하는데 사전 정의된 주제 또는 범주에 따라 텍스트 문서를 분석하고 분류&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;동의어와 약어를 분류하는 데 특히 유용합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Sentiment Analysis(감성 분석)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;내/외부 데이터 소스에서 긍정적인 또는 부정적인 정서를 감지하여 시간의 흐름에 따른 고객의 태도 변화를 추적&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;일반적으로 브랜드, 제품, 서비스에 대한 인식 관련 정보를 제공하는 데 사용됩니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;정보 추출(IE, Information Extraction)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다양한 문서를 검색하면서 유의미한 데이터 조각을 찾아냅니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;자유 텍스트에서 정형화된 정보를 추출하고 이러한 엔티티, 속성, 관계 정보를 데이터베이스에 저장합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Feature Selection(특징 선택)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;속성 선택(Attribute Selection)이라고 불리며, 예측 분석 모델의 결과에 가장 크게 기여할 중요한 특징(차원)을 선택하는 프로세스&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Feature Extraction(특징 추출)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;분류 태스크의 정확도를 높이기 위해 일부 특징을 선택하는 프로세스&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이는 특히 차원 축소에 중요합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;NER(Named-Entity Recognition, 개체명 인식)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;엔티티 식별 또는 엔티티 추출이라고도 하며, 텍스트의 특정 엔티티(ex. 이름, 위치)를 찾아 분류하는 것이 목적&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;데이터 마이닝(Data Mining)&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;참고&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;a style=&quot;color: #0070d1; text-align: start;&quot; href=&quot;https://yumdata.tistory.com/363&quot;&gt;Data Mining (데이터 마이닝)&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1687237037270&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;article&quot; data-og-title=&quot;Data Mining (데이터 마이닝)&quot; data-og-description=&quot;Data Mining (데이터 마이닝) 다양한 관점에서 데이터를 분석해 의미를 도출 (데이터의 특징을 알아내는 것이 중점) 데이터를 탐색하고 분석하여 의미 있는 패턴이나 규칙을 발견하는 것 일반적으&quot; data-og-host=&quot;yumdata.tistory.com&quot; data-og-source-url=&quot;https://yumdata.tistory.com/363&quot; data-og-url=&quot;https://yumdata.tistory.com/363&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/bVQ55n/hyS2G2bYdZ/KIOmQhqHK1TgrxIkRsImqk/img.jpg?width=800&amp;amp;height=522&amp;amp;face=0_0_800_522,https://scrap.kakaocdn.net/dn/dzioth/hyS2KKhVaT/u2ROma23iJCSTakThfWmvk/img.jpg?width=800&amp;amp;height=522&amp;amp;face=0_0_800_522,https://scrap.kakaocdn.net/dn/bLsO6D/hyS4AF2dQL/XXJ6u2XH9E2f0DShfQiQH1/img.jpg?width=640&amp;amp;height=384&amp;amp;face=0_0_640_384&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/363&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://yumdata.tistory.com/363&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/bVQ55n/hyS2G2bYdZ/KIOmQhqHK1TgrxIkRsImqk/img.jpg?width=800&amp;amp;height=522&amp;amp;face=0_0_800_522,https://scrap.kakaocdn.net/dn/dzioth/hyS2KKhVaT/u2ROma23iJCSTakThfWmvk/img.jpg?width=800&amp;amp;height=522&amp;amp;face=0_0_800_522,https://scrap.kakaocdn.net/dn/bLsO6D/hyS4AF2dQL/XXJ6u2XH9E2f0DShfQiQH1/img.jpg?width=640&amp;amp;height=384&amp;amp;face=0_0_640_384');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Data Mining (데이터 마이닝)&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Data Mining (데이터 마이닝) 다양한 관점에서 데이터를 분석해 의미를 도출 (데이터의 특징을 알아내는 것이 중점) 데이터를 탐색하고 분석하여 의미 있는 패턴이나 규칙을 발견하는 것 일반적으&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;yumdata.tistory.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터 마이닝은 빅데이터 세트에서 패턴을 식별하고 유용한 인사이트를 추출하는 프로세스입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;정형 데이터와 비정형 데이터를 모두 평가하여 새로운 정보를 식별합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;일반적으로 마케팅 및 판매 분야에서 사용자 행동을 분석하는데 활용됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝은 비정형 데이터를 정형화하고 분석하여 새로운 인사이트를 생성하는 데 중점을 두므로, 사실상 데이터 마이닝의 하위 영역이라 할 수 있습니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;텍스트 마이닝 사용 사례&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;지식 경영(Knowledge Management)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;많은 양의 데이터 중 의미 있는 데이터반 뽑아내고 효율적으로 관리&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;사이버 범죄 예방(Cybercrime prevention)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝을 이용한 범죄 예방 어플리케이션&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;고객 관리 서비스(Customer Care Service)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;고객에게 빠르고 자동화된 응답을 제공하기 위해 활용&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;고객 클레임 분석을 통한 부정행위 탐지(Fraud detection through claims investigation)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;보험회사는 텍스트 마이닝을 통해 사기를 방지하고 빠르게 클레임을 처리&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;콘텐츠 강화(Content Enrichment)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다양한 목적에 따라 그에 적합한 내용으로 정리하고 요약&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;소셜 미디어 데이터 분석(Social media data analysis)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;해당 브랜드나 제품에 대한 다양한 의견과 감성반응을 살펴봄&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;고객 서비스&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다양한 방법으로 사용자에게 고객 피드백을 요청할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;텍스트 애널리틱스 툴, 피드백 시스템(예: 챗봇), 고객 설문조사, NPS(Net-Promoter Score, 순추천지수), 온라인 리뷰, 지원 티켓, 소셜 미디어 프로파일과 연계함으로써 고객 경험을 빠르게 향상할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;기업에서 텍스트 마이닝과 감성 분석을 이용하여 고객의 주요 애로 사항에 우선순위를 부여하는 메커니즘을 마련합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이러한 방식으로 시급한 문제에 실시간으로 대응하고 고객 만족도를 높일 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;위험 관리&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝은 위험 관리에도 활용됩니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;업계 동향 및 금융 시장에 관한 인사이트를 제공할 수 있는데, 이를 위해 정서 변화를 모니터링하고, 애널리스트 리포트 및 백서에서 정보를 추출하는 등의 기법을 구사합니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;금융 기관에 특히 유용한데, 다양한 분야에 대한 비즈니스 투자를 고려할 때 이 데이터를 토대로 더 자신 있게 판단할 수 있기 때문입니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;유지보수&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝은 제품과 기계의 작동 및 기능에 관하여 상세하고 거시적인 관점을 제시합니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝은 차츰 문제점, 그리고 사전 예방/사후 대처 유지보수 절차와 관련 있는 패턴을 밝혀냅니다. 그에 따라 의사결정이 자동화됩니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;유지 보수 전문가는 텍스트 애널리틱스를 통해 당면 과제 및 실패의 근본 원인을 더 빨리 찾아낼 수 있습니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;헬스케어&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;바이오메디컬 분야에서, 특히 정보 클러스터링과 관련하여 텍스트 마이닝 기법이 더욱 진가를 발휘하고 있습니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;의학 연구 자료를 수작업으로 조사하려면 비용과 시간이 많이 들 수 있습니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝은 의료 문헌에서 가치 있는 정보를 추출하는 작업을 자동화할 수 있습니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;스팸 필터링&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;스팸은 해커가 컴퓨터 시스템을 악성 코드(malware)에 감염시킬 때 진입 지점이 되곤 합니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #161616; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;텍스트 마이닝으로 이러한 이메일을 수신함에서 필터링하고 제외함으로써 사용자 경험을 전반적으로 향상하고 최종 사용자에 대한 사이버 공격의 위험을 최소화할 수 있습니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;텍스트 마이닝 분석 프로세스&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1798&quot; data-origin-height=&quot;196&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/08pjv/btskJWCPBDx/vwj9Zk9ml4yJoyuDKybkyK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/08pjv/btskJWCPBDx/vwj9Zk9ml4yJoyuDKybkyK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/08pjv/btskJWCPBDx/vwj9Zk9ml4yJoyuDKybkyK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F08pjv%2FbtskJWCPBDx%2Fvwj9Zk9ml4yJoyuDKybkyK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1798&quot; height=&quot;196&quot; data-origin-width=&quot;1798&quot; data-origin-height=&quot;196&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;텍스트 데이터 수집&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;SNS/뉴스/블로그 등 텍스트 데이터 수집&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;텍스트 전처리&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;전처리는 용도에 맞게 텍스트를 사전에 처리하는 작업&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;궁극적으로 '중요한 특징 값'을 선택하는 것이 중요&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;오탈자 제거, 띄어쓰기 교정&lt;/li&gt;
&lt;li&gt;불용어 제거: 데이터에서 큰 의미가 없는 단어 제거&lt;/li&gt;
&lt;li&gt;정제(cleaning): 가지고 있는 코퍼스로부터 노이즈 데이터 제거&lt;/li&gt;
&lt;li&gt;정규화(normalization): 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;토큰화(tokenization)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;주어진 코퍼스(corpus, 말뭉치)에서 토큰(token)이라 불리는 단위로 나누는 작업(공백 기준, 형태소 기준, 명사 기준)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;구분 기준은 분석 방법에 따라 다르다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;감성 분석한다면, 감성을 나타내는 품사가 동사, 형용사 쪽에 가깝기 때문에 형태소 분석기를 사용해서 동사, 형용사 위주로 추출한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;특징 값 추출&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;'중요한 단어'를 선별하는 과정&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;'중요한 단어'로서의 특징은 적은 수의 문서에 분포되어 있어야 하고, 문서 내에서는 빈번하게 출현해야 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;특정 텍스트를 통해 문서를 구분 짓는 것이기 때문에 어떤 단어가 모든 문서에 분포되어 있다면 이는 차별성 없는 단어를 의미한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;데이터 분석&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;머신러닝, 딥러닝 분석 모델 등 사용&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://www.ibm.com/kr-ko/topics/text-mining&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.ibm.com/kr-ko/topics/text-mining&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://start-learn.tistory.com/23&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://start-learn.tistory.com/23&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>NLP/NLP 시스템</category>
      <category>NLP</category>
      <category>text mining</category>
      <category>텍스트 마이닝</category>
      <category>텍스트 마이닝 기법</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/405</guid>
      <comments>https://yumdata.tistory.com/405#entry405comment</comments>
      <pubDate>Tue, 20 Jun 2023 14:31:46 +0900</pubDate>
    </item>
    <item>
      <title>[Generative AI] Generative AI(생성형 AI)</title>
      <link>https://yumdata.tistory.com/404</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Generative AI(생성형 AI)&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;2268&quot; data-origin-height=&quot;1132&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cqwQ7G/btsyufCZRDp/tP0k5MKaDWyhZ4q8WcJBIk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cqwQ7G/btsyufCZRDp/tP0k5MKaDWyhZ4q8WcJBIk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cqwQ7G/btsyufCZRDp/tP0k5MKaDWyhZ4q8WcJBIk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcqwQ7G%2FbtsyufCZRDp%2FtP0k5MKaDWyhZ4q8WcJBIk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;2268&quot; height=&quot;1132&quot; data-origin-width=&quot;2268&quot; data-origin-height=&quot;1132&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Generative AI를 위한 핵심 기술&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;- Foundation Model: &lt;a style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot; href=&quot;https://yumdata.tistory.com/400&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Foundation Model 이란&lt;/a&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;- Prompt engineering: &lt;a href=&quot;https://yumdata.tistory.com/406&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Prompt Engineering (프롬프트 엔지니어링)&lt;/a&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #37352f; text-align: start;&quot; data-token-index=&quot;0&quot;&gt;Generative AI의 핵심은 &lt;/span&gt;&lt;span style=&quot;color: #37352f; text-align: start;&quot;&gt;&quot;충분히 &lt;/span&gt;&lt;span style=&quot;color: #37352f; text-align: start;&quot; data-token-index=&quot;2&quot;&gt;있을 법한&lt;/span&gt;&lt;span style=&quot;color: #37352f; text-align: start;&quot;&gt;&quot; 무언가를 생성하는 것입니다.&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative AI는 기본 기능이 콘텐츠 생성인 모든 AI 시스템에 사용할 수 있는 광범위한 용어입니다. 이는 데이터 분류(예: 이미지에 레이블 지정), 데이터 그룹화(예: 유사한 구매 행동을 가진 고객 세그먼트 식별) 또는 작업 선택(예: 자율 차량 조종)과 같은 다른 기능을 수행하는 AI 시스템과 대조됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #2b2b2b; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative&lt;/span&gt;&amp;nbsp;AI란 사람이 AI에게 특정 입력(프롬프트)을 통해 어떤 것을 만들어 달라고 요구하면 그 요구에 맞춰서 결과를 만들어주는 인공지능을 말합니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative AI는 구조화되지 않은 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 일종의 인공 지능입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 프로세스의 일부로 생성형 AI는 머신 러닝 및 딥 러닝 알고리즘의 기반을 사용합니다. 그것이 생성하는 콘텐츠에는 서면 자료, 이미지, 비디오, 오디오 및 음악 및 컴퓨터 코드가 포함됩니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어, 인간이 질문이나 진술을 ChatGPT(Generative AI의 선구적인 사례)에 입력하면 짧지만 합리적으로 상세한 서면 답변을 제공합니다. 또한 사용자는 후속 질문을 입력하고 챗봇과 진행 중인 대화에 참여할 수 있습니다. 챗봇은 이전 대화의 세부 정보를 기억할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative AI는 최근 이 분야의 주요 혁신이 가속화되고 있기 때문에 주목을 받고 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 OpenAI의 ChatGPT는 사람이 쓴 것처럼 문법적으로 올바른 텍스트를 생성할 수 있으며 DALL-E 도구는 단어 입력을 기반으로 사실적인 이미지를 생성할 수 있습니다. &lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;구글, 페이스북, 바이두를 포함한 다른 회사들도 실제처럼 보이는 텍스트, 이미지 또는 컴퓨터 코드를 생성할 수 있는 정교한 생성 AI 도구를 개발했습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Generative AI 동작 원리&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative AI는 training 세트를 기반으로 새로운 콘텐츠를 생성합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;연구자들은 GAN(Generative Adversarial Network) 프레임워크라고 하는 딥 러닝 시스템에 단어, 그림, 음악 또는 기타 콘텐츠와 같은 엄청난 양의 데이터를 제공합니다. 감독된 신경망(&lt;span style=&quot;background-color: #ffffff; color: #222222; text-align: start;&quot;&gt;supervised neural network)&lt;/span&gt;은 데이터를 살펴보고 성공에 대해 보상하고 오류, 실수 및 실패에 대해 벌점을 부과하는 시스템을 사용합니다. 시간이 지남에 따라 인간의 감독을 통해 복잡한 관계를 식별하고 이해하는 방법을 배웁니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 ChatGPT에 사용되는 원본 OpenAI Codex는 웹 및 기타 소스에서 수집된 700GB 이상의 데이터에서 파생됩니다. 여기에는 책, 잡지 기사, 웹사이트, 기술 매뉴얼, 이메일, 노래 가사, 무대 연극, 대본 및 기타 공개 소스의 콘텐츠가 포함됩니다. ChatGPT와 같은 자연어 모델은 일반적으로 단어 벡터라는 수학적 모델에 의존하여 구문에 가중치를 부여하고 순위를 매깁니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그들은 또한 RTE(Recognizing Textual Entitlement)라는 기술을 사용하여 단어 관계를 더 잘 이해합니다. &lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 그들이, 그들의, 저기 또는 강한 바람이 부는지 도로 바람이 부는지 여부입니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Generative AI 활용&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative&lt;/span&gt;&amp;nbsp;AI 및 기타 Foundation AI 모델은 AI 개발에 큰 영향을 미치고 보조 기술을 강화하며 비기술 사용자를 위한 강력한 기능을 지원합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;여기에는 텍스트에서 코드, 이미지, 음악에 이르는 콘텐츠 제작이 포함됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #2b2b2b; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative&lt;/span&gt; AI 시스템의 일반적인 예로는 이미지 생성기(텍스트를 통해 이미지 생성, 예: DALL-E, Midjourney 또는 Stable Diffusion), 대규모 언어 모델(예: GPT-4, PaLM, Claude 또는 BERT), 대화형 인공지능 서비스(ChatGPT, Bard),&amp;nbsp; 코드 생성 도구&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;(예: Copilot 또는 Wysdom)&lt;/span&gt; 또는 오디오 생성 도구(예: VALL-E 또는 similar.ai), &lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;또는 딥브레인 AI, Synthesia 등과 같이 텍스트를 통해 동영상 생성&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;등이 있습니다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #2b2b2b; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #2b2b2b; text-align: left;&quot;&gt;이 외에도 웹 사이트, 게임, 음악, 앱, 음성 등도 생성할 수 있습니다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #2b2b2b; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #2b2b2b; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;그리고 프롬프트(입력값)가 꼭 텍스트일 필요는 없습니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #2b2b2b; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;텍스트에서 이미지, 이미지에서 텍스트, 이미지 + 텍스트에서 이미지, 음성에서 이미지, 음성에서 영상, 영상에서 이미지 등 입력과 출력이 다양한 형태로 적용될 수 있습니다.&lt;/p&gt;
&lt;p style=&quot;background-color: #ffffff; color: #2b2b2b; text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Text&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;OpenAI는 자연어 채팅 기능을 개발하는 유일한 회사가 아닙니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Google의 LaMDA 및 Bard, Apple의 Siri, Microsoft의 Cortana 및 Amazon의 Alexa는 모두 Generative AI 모델을 사용하여 서면 또는 음성 단어를 생성합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Images&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;DALL-E 및 Google의 MiP-NeRF와 같은 다른 생성 AI 도구는 단어 입력을 기반으로 사실적인 이미지를 생성할 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어, 웹 디자이너는 DALL-E 엔진에 '고전적인 스페인 광장'이라는 단어를 입력하고 실제 장소를 나타내지는 않지만 믿을 수 없을 정도로 실제처럼 보이는 이미지를 볼 수 있습니다. 마찬가지로 어떤 사람은 DALL-E에게 모네 스타일로 카페에 앉아 있는 여성의 이미지를 생성하도록 요청하고 거의 즉시 아티스트가 생성한 것처럼 보이는 이미지를 볼 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Music&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative AI는 본격적인 작곡과 특수 음향 효과를 포함한 오디오 및 음악을 제작하는 데에도 사용됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Amper Music, Aiva, Amadeus Code, Google Magenta 및 MuseNet을 비롯한 여러 회사는 사실적인 여러 악기로 독창적인 음악을 생성할 수 있습니다. 사용자는 장르, 아티스트 또는 스타일(예: 재즈, 모차르트, 롤링 스톤즈 또는 업비트)을 요청하고 결과 AI 생성 작곡을 들을 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Software Development&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative AI의 급증하는 또 다른 사용 사례는 소프트웨어 개발입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Amazon의 CodeWhisperer 및 GitHub의 CoPilot과 같은 플랫폼은 개발자를 위한 자연어 기반 로우코드 및 노코드 플랫폼을 도입합니다. Generative AI를 사용하면 소프트웨어 개발자가 플랫폼에 요청을 말하거나 작성할 수 있고 Python, R, Java 또는 기타 주요 언어로 된 소프트웨어 코드의 실제 라인을 볼 수 있습니다. 이를 통해 개발자는 더 빠르게 작업하고 재사용 가능한 모듈을 더 쉽게 만들 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Story and Game Development&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;보다 고급 사용 사례는 스토리 및 게임 개발, 로봇 디자인, 심지어 질문을 하고 주제를 조사하여 제품 또는 운영 방법을 디버깅하는 것과 같은 것을 중심으로 이루어집니다. 또한 Generative AI 도구에 아이디어와 개념을 제공하도록 요청하면 테마를 탐색하고 새롭고 다양한 디지털 및 물리적 개체를 개발할 수도 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;기업에서 Generative AI 사용 방법&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;비즈니스 세계에서 생성 AI의 주요 사용 사례는 다음과 같습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;마케팅과 판매&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative AI 시스템은 이메일, 웹사이트 텍스트 및 이미지, 브로셔, 전자책 및 제품 가이드, 제품 레이블 및 내부 문서를 위한 다양한 서면 콘텐츠를 생성할 수 있습니다. 또한 조직은 이 기술을 사용하여 고객 피드백을 분석하고, 위험과 기회를 식별하고, 유용하고 기능이 뛰어난 챗봇을 배포할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;인적 자원(Human Resources)&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;HR 부서는 Generative AI를 활용하여 엔터프라이즈 핸드북, 직무 설명 및 면접 질문을 작성할 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;챗봇은 직원에게 정보와 자조를 제공할 수 있습니다. 여기에는 온보딩 자동화 또는 의료 보험 또는 퇴직 저축 전략 선택을 위한 옵션 및 조언 제공이 포함될 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;운영(Operations)&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;고객 서비스 챗봇은 회사가 문의를 관리하고 사람들을 올바른 정보로 안내하고 도움이 될 때 상담원에게 전달할 수 있도록 도와줍니다. Generative AI는 또한 비교 이미지를 통해 오류, 결함 및 기타 문제를 식별할 수 있습니다. 예를 들어 회사는 Generative AI를 사용하여 고도로 기술적인 구성 요소의 이상적인 이미지를 생성한 다음 제조 중에 이미지를 캡처하여 품질 관리 표준을 준수할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;IT 및 소프트웨어 개발&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative IT는 Python, Perl, Go, PHP 및 JavaScript와 같은 최신 언어로 코드를 작성할 수 있습니다. &lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;개발 팀은 이러한 스니펫과 블록을 소프트웨어에 연결하고 라이브러리에 저장할 수 있습니다. 마찬가지로 Generative AI는 데이터 테이블을 자동 완성하고 기계 학습 모델의 정확도를 향상시킬 수 있는 합성 데이터를 생성할 수 있습니다. 이 기술은 또한 사이버 공격 방법을 시뮬레이션할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;기타 비즈니스 사용&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;수많은 다른 비즈니스 사용 사례가 존재합니다.&amp;nbsp; &lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;여기에는 연구 개발(R&amp;amp;D)에 사용되는 모델링 시스템이 포함됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;문서의 텍스트를 검토하여 법적 및 규제 표준을 충족하는지 확인합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이메일 및 비즈니스 프레젠테이션을 포함하여 일반적인 직원 커뮤니케이션을 최적화하고 개선합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Generative AI History&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;인공 지능 연구는 1950년대에 구체화되기 시작했습니다. Alan Turing과 다른 과학자들은 인간의 생각을 복제할 수 있는 컴퓨팅 프레임워크를 만드는 방법을 찾기 시작했습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;1960년대에는 소위 Markov 모델이 등장하기 시작했습니다. 이러한 확률 기반 알고리즘은 기본적인 수학적 모델을 기반으로 음성이나 텍스트를 생성할 수 있지만 성공률은 제한적입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;1990년대에는 보다 정교한 생성 모델이 등장하기 시작했습니다. 지난 10년 동안 GPU와 딥 러닝의 발전으로 훨씬 더 발전된 AI가 등장했습니다. 오늘날 이러한 반복적인 신경망은 인간 예술가, 음악가 및 작가에 근접하거나 경우에 따라 초과하는 방식으로 콘텐츠를 생성할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 시점에서 인공 지능, 특히 생성 AI는 사람과 기업이 행동하고 상호 작용하고 정보를 처리하는 방식을 근본적으로 재구성하고 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;시장 조사 기관인 Grandview Research는 Generative AI 시장이 2030년까지 매년 34.4% 성장할 것으로 예상합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 기술은 금융, 의료, 자동차 및 운송, 정보 기술, 통신 및 미디어를 포함한 광범위한 산업 분야에서 가치가 있다고 말합니다. 그리고 오락. Generative AI는 마케팅, 이미지 분류 및 품질 관리와 같은 광범위한 작업을 변환할 수 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;실제로 Gartner는 Generative AI 기술이 디지털 제품 개발에 혁신을 가져올 것이라고 선언했습니다. 컨설팅 회사는 2025년까지 모든 디지털 콘텐츠의 약 10%가 이러한 알고리즘에서 파생될 것이라고 보고합니다. McKinsey &amp;amp; Company는 Generative AI가 사람들이 일하는 방식과 함께 직무 역할을 근본적으로 바꿀 것이라고 보고했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;'Generative AI의 부상은 기업의 주요 게임 체인저가 될 가능성이 있습니다.'&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Generative AI&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;우려점&lt;/span&gt;&lt;/h3&gt;
&lt;h4 style=&quot;background-color: #ffffff; color: #111111; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;Lack of Accuracy (&lt;span style=&quot;color: #000000;&quot;&gt;정확성 부족)&lt;/span&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;생성된 텍스트는 완전하고 정확한 것이 아니기 때문에 사람의 검토가 필요합니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 style=&quot;background-color: #ffffff; color: #111111; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;Legal Issues and Plagiarism (&lt;span style=&quot;color: #000000;&quot;&gt;법적 문제와 표절)&lt;/span&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;생성된 음악, 이미지 또는 기타 자료의 유형에 대해 주의를 기울여야 합니다.&lt;/li&gt;
&lt;li&gt;모델은 작가, 음악가, 화가가 제작한 실제 콘텐츠를 기반으로 구축되기 때문에 소유권, 통제권 및 저작권에 대한 문제가 제기될 수 있습니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Privacy and Security (개인정보 보호 및 보안)&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델을 구축하는 데 사용되는 일부 데이터에는 실수로 개인 데이터와 나중에 노출될 수 있는 정보가 포함될 수 있습니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Societal Impact (사회적 영향)&lt;/span&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;전반적인 사회적 영향을 고려해야 합니다. 기술을 해롭고 파괴적인 방식으로 인간을 조정하는 데 사용하지 않도록 주의해야 합니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;GAN(Generative Adversarial Networks, 생성적 적대 신경망, 2014)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/1406.2661&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://arxiv.org/abs/1406.2661&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1687154514064&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Generative Adversarial Networks&quot; data-og-description=&quot;We propose a new framework for estimating generative models via an adversarial process, in which we simultaneously train two models: a generative model G that captures the data distribution, and a discriminative model D that estimates the probability that &quot; data-og-host=&quot;arxiv.org&quot; data-og-source-url=&quot;https://arxiv.org/abs/1406.2661&quot; data-og-url=&quot;https://arxiv.org/abs/1406.2661v1&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/1DAr8/hyS2z8ZRR8/OZL8AnFcKcIs9Ka8LPf0Ik/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/1406.2661&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://arxiv.org/abs/1406.2661&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/1DAr8/hyS2z8ZRR8/OZL8AnFcKcIs9Ka8LPf0Ik/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Generative Adversarial Networks&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;We propose a new framework for estimating generative models via an adversarial process, in which we simultaneously train two models: a generative model G that captures the data distribution, and a discriminative model D that estimates the probability that&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;arxiv.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;생성적 적대 신경망&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;적대는 서로 적대적 관계라는 뜻으로 두 가지 요소인 생성자(Generator) 그리고 판별자(Discriminator)를 경쟁하게 하며 학습시키는 것을 의미합니다.&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;2000&quot; data-origin-height=&quot;1078&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bgs7s5/btsklnC0811/WEnK5KqqTzyE81qibfpkAk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bgs7s5/btsklnC0811/WEnK5KqqTzyE81qibfpkAk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bgs7s5/btsklnC0811/WEnK5KqqTzyE81qibfpkAk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbgs7s5%2FbtsklnC0811%2FWEnK5KqqTzyE81qibfpkAk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;554&quot; height=&quot;299&quot; data-origin-width=&quot;2000&quot; data-origin-height=&quot;1078&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;GAN을 최초로 발표한 모덜 딥러닝의 아버지 Ian Goodfellow는 이 두 가지 요소를 지폐 위조범과 지폐와 위폐를 구별해야 하는 경찰에 비유합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 둘은 각각 생성자(Generator)와 판별자(Discriminator)로 칭합니다. 이 생성자와 판별자는 학습 과정에서 서로 경쟁하며, 최종적으로 양측의 손익을 합하면 0이 되는 제로섬 게임을 이어갑니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;생성자와 판별자는 학습과정에서 서로 경쟁하며 생성자가 만든 위폐가 진짜 지폐와 비교해서 차이가 없을 때까지, 즉 진짜같은 가짜를 만들도록 계속 학습하는 원리입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;즉 '진짜같은 가짜'를 만들어내는 생성자가 학습되게 됩니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;GAN의 학습 과정&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;GAN은 '진짜같은 이미지'를 만들기 위해 'Noise'를 입력받아 그럴 듯한 이미지를 만듭니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;2000&quot; data-origin-height=&quot;592&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/c4UwKG/btskyPFzK6o/IGV3Wv9J0fi9kUcfNk89U1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/c4UwKG/btskyPFzK6o/IGV3Wv9J0fi9kUcfNk89U1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/c4UwKG/btskyPFzK6o/IGV3Wv9J0fi9kUcfNk89U1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fc4UwKG%2FbtskyPFzK6o%2FIGV3Wv9J0fi9kUcfNk89U1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;449&quot; height=&quot;133&quot; data-origin-width=&quot;2000&quot; data-origin-height=&quot;592&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;div style=&quot;background-color: #ffffff; color: #37352f; text-align: start;&quot; data-block-id=&quot;f1af8394-b88d-4bcf-b7bc-756d9b21e571&quot;&gt;
&lt;div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;학습의 전반적인 흐름은&lt;b&gt; 먼저 판별자를 학습시킨 후, 생성자를 학습시키는 과정을 반복하는 식&lt;/b&gt;으로 흘러갑니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;여기서 판별자의 학습은 크게 두 가지 단계로 이루어집니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;첫 번째는 Real data를 입력해 &amp;lsquo;진짜&amp;rsquo;를 &amp;lsquo;진짜&amp;rsquo;로 분류하도록 학습시키는 과정이고,&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;두 번째는 생성자가 생성한 Fake data를 입력해 &amp;lsquo;가짜&amp;rsquo;를 &amp;lsquo;가짜&amp;rsquo;로 분류하도록 학습시키는 과정입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;판별자를 학습시킨 다음에는 이 판별자를 속이라는 임무를 쥐어주고 생성자를 학습시킵니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;생성자에 랜덤한 노이즈를 생성해내는 벡터 z를 입력으로 넣어 만들어진 가짜 이미지를 판별자에 입력합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그리고 이 가짜 이미지가 진짜라고 분류될 정도로 진짜와 유사한 이미지를 만들어내는 방향으로 생성자를 학습시킵니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 과정에서 판별자는 진짜 이미지의 출력값을 1로 설정하고, 이미지가 얼마나 진짜같은지에 대한 수치를 0과 1 사이의 확률값으로 나타냅니다. 생성자는 자신이 생성한 이미지에 대한 판별자의 출력값이 1에 가까워지는 방향으로 학습합니다.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이&lt;span&gt; &lt;/span&gt;과정을&lt;span&gt; &lt;/span&gt;반복하면 판별자와 생성자가&lt;span&gt; &lt;/span&gt;서로를&lt;span&gt; &lt;/span&gt;적대적인&lt;span&gt; &lt;/span&gt;경쟁자로&lt;span&gt; &lt;/span&gt;인식하여&lt;span&gt; &lt;/span&gt;서로&lt;span&gt; &lt;/span&gt;발전하게&lt;span&gt; &lt;/span&gt;되고&lt;span&gt;, &lt;/span&gt;어느&lt;span&gt; &lt;/span&gt;순간&lt;span&gt; &lt;/span&gt;두&lt;span&gt; &lt;/span&gt;모델&lt;span&gt; &lt;/span&gt;모두&lt;span&gt; &lt;/span&gt;더&lt;span&gt; &lt;/span&gt;이상&lt;span&gt; &lt;/span&gt;개선되지&lt;span&gt; &lt;/span&gt;않는&lt;span&gt; &lt;/span&gt;어떤&lt;span&gt; &lt;/span&gt;&lt;b&gt;균형점&lt;/b&gt;&lt;span&gt;&lt;b&gt;(Nash Equilibrium)&lt;/b&gt;&lt;/span&gt;에&lt;span&gt; &lt;/span&gt;이르게&lt;span&gt; &lt;/span&gt;됩니다&lt;span&gt;. &lt;/span&gt;이&lt;span&gt; &lt;/span&gt;단계에&lt;span&gt; &lt;/span&gt;이르면&lt;span&gt; &lt;/span&gt;학습이&lt;span&gt; &lt;/span&gt;마무리되고&lt;span&gt;, &lt;/span&gt;결과적으로&lt;span&gt; &lt;/span&gt;생성자&lt;span&gt; G&lt;/span&gt;가&lt;span&gt; &lt;/span&gt;만들어내는&lt;span&gt; &lt;/span&gt;데이터의&lt;span&gt; &lt;/span&gt;분포가&lt;span&gt; &lt;/span&gt;처음에는&lt;span&gt; &lt;/span&gt;원본&lt;span&gt; &lt;/span&gt;데이터의&lt;span&gt; &lt;/span&gt;분포를&lt;span&gt; &lt;/span&gt;크게&lt;span&gt; &lt;/span&gt;벗어나&lt;span&gt; &lt;/span&gt;있었으나&lt;span&gt;, &lt;/span&gt;점차&lt;span&gt; &lt;/span&gt;&lt;b&gt;원본&lt;/b&gt;&lt;span&gt;&lt;b&gt; &lt;/b&gt;&lt;/span&gt;&lt;b&gt;데이터의&lt;/b&gt;&lt;span&gt;&lt;b&gt; &lt;/b&gt;&lt;/span&gt;&lt;b&gt;분포를&lt;/b&gt;&lt;span&gt;&lt;b&gt; &lt;/b&gt;&lt;/span&gt;&lt;b&gt;근사&lt;/b&gt;할&lt;span&gt; &lt;/span&gt;수&lt;span&gt; &lt;/span&gt;있도록&lt;span&gt; &lt;/span&gt;학습된&lt;span&gt; &lt;/span&gt;것을&lt;span&gt; &lt;/span&gt;확인할&lt;span&gt; &lt;/span&gt;수&lt;span&gt; &lt;/span&gt;있습니다&lt;span&gt;.&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Traditional AI vs Generative AI&lt;/h2&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;&lt;b&gt;Traditional AI&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;&lt;b&gt;Generative AI&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;&quot;레이블이 지정된&quot; 데이터로 학습된 머신러닝(ML) 모델&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;라벨이 지정되지 않은 데이터로 학습된 파운데이션 모델(FM)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;훈련은 감독됨(supervised)&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;자체 감독 (Self-supervised)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;적절한 대규모 데이터 세트로 훈련&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;훨씬 더 큰 데이터 세트로 훈련&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;특정 태스크를 위한 훈련&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;특정 태스크 없음&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;다른 작업으로 잘 전환되지 않음&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;전이 가능(&lt;span style=&quot;color: #000000;&quot;&gt;Transferable)&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;조정된 모델은 설계된 특정 작업에 매우 효율적일 수 있음&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;일반적인 작업에 적합하며 적은 교육으로 특정 작업에 대해 향상될 수 있음&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;편향(bias)과 드리프트를 모니터링해야 함&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;편향(bias)과 드리프트를 모니터링해야 함&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://deepdaiv.oopy.io/d21d2180-a7f2-4397-95a7-fa183d9c6b86&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://deepdaiv.oopy.io/d21d2180-a7f2-4397-95a7-fa183d9c6b86&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.eweek.com/big-data-and-analytics/what-is-generative-ai/&quot;&gt;https://www.eweek.com/big-data-and-analytics/what-is-generative-ai/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;style&gt;
.blogview_content { -webkit-user-drag: none; -webkit-touch-callout: none; user-select: none; }
.blogview_content img { pointer-events: none; } 
&lt;/style&gt;</description>
      <category>Generative AI/Generative AI</category>
      <category>GaN</category>
      <category>Generative Adversarial Network</category>
      <category>Generative AI</category>
      <category>생성모델</category>
      <category>생성적 적대 신경망</category>
      <category>생성형 모델</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/404</guid>
      <comments>https://yumdata.tistory.com/404#entry404comment</comments>
      <pubDate>Mon, 19 Jun 2023 20:45:57 +0900</pubDate>
    </item>
    <item>
      <title>[Suvey Paper] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond</title>
      <link>https://yumdata.tistory.com/403</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Harnessing&amp;nbsp;the&amp;nbsp;Power&amp;nbsp;of&amp;nbsp;LLMs&amp;nbsp;in&amp;nbsp;Practice:&amp;nbsp;A&amp;nbsp;Survey&amp;nbsp;on&amp;nbsp;ChatGPT&amp;nbsp;and&amp;nbsp;Beyond&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;i&gt;ChatGPT 및 그 이상에 대한 설문조사에 관한 내용을 정리하였습니다.&lt;/i&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2304.13712&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://arxiv.org/abs/2304.13712&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1687138600214&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond&quot; data-og-description=&quot;This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing (NLP) tasks. We provide discussions and insights into the usage of LLMs from t&quot; data-og-host=&quot;arxiv.org&quot; data-og-source-url=&quot;https://arxiv.org/abs/2304.13712&quot; data-og-url=&quot;https://arxiv.org/abs/2304.13712v2&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/cQsetx/hyS2BrWWF7/y56hCukzJcKPmMf6zktkt1/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/mLi7Z/hyS2FA5Xqh/JmrLAxnElCXKXsfs8yGe31/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2304.13712&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://arxiv.org/abs/2304.13712&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/cQsetx/hyS2BrWWF7/y56hCukzJcKPmMf6zktkt1/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/mLi7Z/hyS2FA5Xqh/JmrLAxnElCXKXsfs8yGe31/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing (NLP) tasks. We provide discussions and insights into the usage of LLMs from t&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;arxiv.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 문서는 자연어 처리(NLP) downstream 작업에서 대규모 언어 모델(Large Language Model, LLM)로 작업하는 실무자와 최종 사용자를 위한 포괄적이고 실용적인 가이드를 제공합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://github.com/Mooler0410/LLMsPracticalGuide&quot;&gt;https://github.com/Mooler0410/LLMsPracticalGuide&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1687139738582&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;object&quot; data-og-title=&quot;GitHub - Mooler0410/LLMsPracticalGuide: A curated list of practical guide resources of LLMs (LLMs Tree, Examples, Papers)&quot; data-og-description=&quot;A curated list of practical guide resources of LLMs (LLMs Tree, Examples, Papers) - GitHub - Mooler0410/LLMsPracticalGuide: A curated list of practical guide resources of LLMs (LLMs Tree, Examples,...&quot; data-og-host=&quot;github.com&quot; data-og-source-url=&quot;https://github.com/Mooler0410/LLMsPracticalGuide&quot; data-og-url=&quot;https://github.com/Mooler0410/LLMsPracticalGuide&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/J2bz4/hyS2yvd6Pw/ugwf9T1E04lriRbG1Ft621/img.png?width=1200&amp;amp;height=600&amp;amp;face=0_0_1200_600&quot;&gt;&lt;a href=&quot;https://github.com/Mooler0410/LLMsPracticalGuide&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://github.com/Mooler0410/LLMsPracticalGuide&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/J2bz4/hyS2yvd6Pw/ugwf9T1E04lriRbG1Ft621/img.png?width=1200&amp;amp;height=600&amp;amp;face=0_0_1200_600');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;GitHub - Mooler0410/LLMsPracticalGuide: A curated list of practical guide resources of LLMs (LLMs Tree, Examples, Papers)&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;A curated list of practical guide resources of LLMs (LLMs Tree, Examples, Papers) - GitHub - Mooler0410/LLMsPracticalGuide: A curated list of practical guide resources of LLMs (LLMs Tree, Examples,...&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;github.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다음의 &lt;b&gt;주요 가이드&lt;/b&gt;를 포함합니다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Natural language understanding: 분산&amp;nbsp;데이터가&amp;nbsp;없거나&amp;nbsp;교육&amp;nbsp;데이터가&amp;nbsp;거의&amp;nbsp;없는&amp;nbsp;경우&amp;nbsp;LLM의&amp;nbsp;탁월한&amp;nbsp;일반화&amp;nbsp;기능을&amp;nbsp;사용합니다.&lt;/li&gt;
&lt;li&gt;Natural language generation.:LLM의&amp;nbsp;기능을&amp;nbsp;활용하여&amp;nbsp;다양한&amp;nbsp;애플리케이션을&amp;nbsp;위한&amp;nbsp;일관되고&amp;nbsp;상황에&amp;nbsp;맞는&amp;nbsp;고품질&amp;nbsp;텍스트를&amp;nbsp;생성합니다.&lt;/li&gt;
&lt;li&gt;Knowledge-intensive tasks(기술 집약적 작업): 도메인별&amp;nbsp;전문&amp;nbsp;지식&amp;nbsp;또는&amp;nbsp;일반적인&amp;nbsp;세계&amp;nbsp;지식이&amp;nbsp;필요한&amp;nbsp;작업을&amp;nbsp;위해&amp;nbsp;LLM에&amp;nbsp;저장된&amp;nbsp;광범위한&amp;nbsp;지식을&amp;nbsp;활용합니다.&lt;/li&gt;
&lt;li&gt;Reasoning ability(추론 능력): LLM의&amp;nbsp;추론&amp;nbsp;기능을&amp;nbsp;이해하고&amp;nbsp;활용하여&amp;nbsp;다양한&amp;nbsp;상황에서&amp;nbsp;의사&amp;nbsp;결정&amp;nbsp;및&amp;nbsp;문제&amp;nbsp;해결을&amp;nbsp;개선합니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;The evolutionary tree of modern LLMs&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다음은 대규모 언어 모델(Large Language Model, LLM) 진화 트리(Evoluation Tree)입니다.&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1520&quot; data-origin-height=&quot;1200&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/tMOKj/btskgHO8okn/3UyCkH8khPi2AQID8GzjM1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/tMOKj/btskgHO8okn/3UyCkH8khPi2AQID8GzjM1/img.png&quot; data-alt=&quot;Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (survey paper)&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/tMOKj/btskgHO8okn/3UyCkH8khPi2AQID8GzjM1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FtMOKj%2FbtskgHO8okn%2F3UyCkH8khPi2AQID8GzjM1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1520&quot; height=&quot;1200&quot; data-origin-width=&quot;1520&quot; data-origin-height=&quot;1200&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (survey paper)&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;같은 분기에 있는 모델은 더 밀접한 관계를 가집니다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Transformer-based models: non-grey color&lt;/li&gt;
&lt;li&gt;Decoder-only model:s blue branch&lt;/li&gt;
&lt;li&gt;Encoder-only models: pink branch&lt;/li&gt;
&lt;li&gt;Encoder-Decoder models: green branch&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;타임라인에서 모델의 세로 위치는 출시 날짜를 나타냅니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;오픈 소스 모델은 속이 꽉 찬 사각형으로, 비 오픈소스(유료) 모델은 속이 빈 사각형으로 표시됩니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;오른쪽 하단의 누적 막대 그래프는 다양한 회사 및 기관의 모델 수를 보여줍니다.&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;메타가 개발한 초거대언어모델은 모두 오픈소스이며, OpenAI의 ChatGPT 이후 모델들은 아직 다 비 오픈소스(유료)입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;인코더-디코더 모델은 아키텍처가 여전히 활발하게 탐색되고 있고 대부분이 오픈 소스이기 때문에 여전히 유망합니다. Google은 오픈 소스 인코더-디코더 아키텍처에 상당한 기여를 했습니다. 그러나 디코더 전용 모델의 유연성과 다양성으로 인해 이 방향에 대한 Google의 주장이 덜 유망해 보입니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 33.3333%; text-align: center;&quot;&gt;&amp;nbsp;&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; text-align: center;&quot;&gt;&lt;b&gt;Characteristic&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; text-align: center;&quot;&gt;&lt;b&gt;LLMs&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 33.3333%; text-align: center;&quot;&gt;Encoder-Decoder or Encoder-only&lt;br /&gt;(BERT-style)&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%;&quot;&gt;Training: Masked Language Models&lt;br /&gt;Model Type: Discriminative&lt;br /&gt;Pretrain task: Predict masked words&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%;&quot;&gt;ELMo, BERT, RoBERTa, DistilBERT, &lt;br /&gt;BioBERT, XLM, Xlnet, ALBERT, &lt;br /&gt;ELCTRA, T5, GLM. XLM-E, ST-MoE, &lt;br /&gt;AlexaTM&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 33.3333%; text-align: center;&quot;&gt;Decoder-only&lt;br /&gt;(GPT-style)&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%;&quot;&gt;Training: Autoregressive Language Models&lt;br /&gt;Model Type: Generative&lt;br /&gt;Pretrain task: Predict next word&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%;&quot;&gt;GPT-3, OPT, PaLM, BLOOM, MT-NLG, GLaM, Gopher, chinchilla, LaMDA, &lt;br /&gt;GPT-J, LLaMA, GPT-4, BloombergGPT&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&amp;nbsp;&lt;/h4&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;BERT-style Language Models: Encoder-Decoder or Encoder-only&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Masked Language Models&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;motivates the unsupervised learning of natural language&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;주변 컨텍스트를 고려하면서 문장에서 마스킹된 단어를 예측하는 방식입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;모델은 단어와 단어가 사용되는 컨텍스트 간의 관계를 더 깊이 이해할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Transformer 아키텍처와 같은 기술을 사용하여 대규모 텍스트 코퍼스에서 훈련을 해서, 감정분석 및 엔터티 인식과 같은 많은 NLP 작업에서 최점단 결과를 달성했습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;주요 모델은 BERT, RoBERTa, T5 등이 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;T5: &lt;a href=&quot;https://yumdata.tistory.com/149&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[NLP][Language Model] T5(Text-to-Text Transfer Transformer)&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;GPT-style Language Models: Decoder-only&amp;nbsp;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Autoregressive Language Models&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;언어&amp;nbsp;모델은&amp;nbsp;일반적으로&amp;nbsp;아키텍처에서&amp;nbsp;작업에&amp;nbsp;구애받지&amp;nbsp;않지만&amp;nbsp;이러한&amp;nbsp;방법은&amp;nbsp;특정&amp;nbsp;다운스트림&amp;nbsp;작업의&amp;nbsp;데이터&amp;nbsp;세트에&amp;nbsp;대한&amp;nbsp;미세&amp;nbsp;조정이&amp;nbsp;필요합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;연구자들은 언어 모델을 확장하면 few-shot, 심지어 zero-shot 성능도 크게 향상된다는 사실을 발견했습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;더 나은 few-shot 및 zero-shot 성능을 위한 가장 성공적인 모델은 이전 단어가 주어진 시퀀스에서 다음 단어를 생성하여 학습되는 자동 회귀 언어 모델(Autoregressive Language Models)입니다. 이러한 모델은 텍스트 생성 및 질문 답변과 같은 다운스트림 작업에 널리 사용되었습니다.&lt;br /&gt;자동 회귀 언어 모델의 예로는 GPT-3, OPT, PaLM 및 BLOOM이 있습니다. 게임 체인저인 GPT-3는 처음으로 프롬프팅 및 컨텍스트 내 학습(in-context learning)을 통해 합리적인 few/zero shot 성능을 보여 자기 회귀 언어 모델의 우수성을 보여주었습니다.&lt;br /&gt;금융 도메인을 위한 BloombergGPT, 코드 생성과 같은 특정 작업에 최적화된 CodeX와 같은 모델도 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;최근의 돌파구는 ChatGPT로, 특히 대화 작업을 위해 GPT-3를 개선하여 다양한 실제 응용 프로그램을 위한 대화형, 일관성 및 상황 인식 대화를 제공합니다.&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Bert</category>
      <category>ChartGPT</category>
      <category>GPT</category>
      <category>Large Language Model</category>
      <category>LLM</category>
      <category>대규모언어모델</category>
      <category>챗GPT</category>
      <category>초거대언어모델</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/403</guid>
      <comments>https://yumdata.tistory.com/403#entry403comment</comments>
      <pubDate>Mon, 19 Jun 2023 11:48:30 +0900</pubDate>
    </item>
    <item>
      <title>Data Warehouse vs Data Lake vs Data Lakehouse</title>
      <link>https://yumdata.tistory.com/402</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Data Warehouse (데이터 웨어하우스)&lt;/h2&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;데이터 웨어하우스는 여러 소스에서 가져온 구조화된 데이터와 반구조화된 데이터를 분석하고 보고하는 데 사용되는 엔터프라이즈 시스템입니다.&lt;br /&gt;데이터 웨어하우스는 임시 분석과 커스텀 보고서 생성에 적합합니다.&lt;br /&gt;데이터 웨어하우스는 현재 데이터와 과거 데이터를 모두 한 곳에 저장할 수 있으며, 시간 흐름에 따른 장기간의 데이터 동향을 확인할 수 있도록 설계되었으므로 비즈니스 인텔리전스의 주요 구성 요소입니다.&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;631&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/czM6Sc/btsjXTIfyTP/g59jXx3TRKK9UOPiEPqNK0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/czM6Sc/btsjXTIfyTP/g59jXx3TRKK9UOPiEPqNK0/img.png&quot; data-alt=&quot;출처:https://corporatefinanceinstitute.com/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/czM6Sc/btsjXTIfyTP/g59jXx3TRKK9UOPiEPqNK0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FczM6Sc%2FbtsjXTIfyTP%2Fg59jXx3TRKK9UOPiEPqNK0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1280&quot; height=&quot;631&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;631&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;출처:https://corporatefinanceinstitute.com/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터 웨어하우스는 여러 소스의 raw data를 중아 repository로 수집하고 이를 관계형 데이터베이스 인프라로 구성합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 데이터 관리 시스템은 주로 엔터프라이즈 보고와 같은 데이터 분석 및 비즈니스 인텔리전스 애플리케이션을 지원합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;시스템은 ETL(Extract, Transform, Load) 프로세스를 사용하여 데이터를 추출, 변환 및 대상으로 로드합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;장점&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Better data quality. Most trust&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터 웨어하우스의 데이터가 정리, 중복 제거 및 표준화되었습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;일관되고 &quot;단일 소스&quot;를 보유하면 모든 분석에서 파생된 통찰력과 결정에 대한 신뢰를 구축할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Complete picture, Better, Faster analysis&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터 웨어하우스는 운영 데이터베이스, 트랜잭션 시스템 및 플랫 파일과 같은 다양한 소스의 데이터를 통합하고 조화시킵니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;비즈니스를 보다 완벽하게 파악하고 데이터 마이닝, augmented analysis, 머신 러닝과 같은 BI 활동을 활용하여 데이터 사일로에서 쉽게 놓칠 수 있는 패턴을 찾을 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;정화하고 완전한 데이터를 더 빨리 사용할 수 있으므로 정보를 더 빠르게 통찰력으로 전환할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;단점&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;특히 데이터 소스의 수와 데이터 양이 시간이 지남에 따라 증가하면 비효율성과 비용으로 인해 제한될 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Lack of data flexibility&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 웨어하우스는 정형 데이터에서 잘 작동하지만 로그 분석, 스트리밍 및 소셜 미디어 데이터와 같은 반정형 및 비정형 데이터 형식에서는 어려움을 겪을 수 있습니다. 이로 인해 머신 러닝 및 인공 지능 사용 사례에 대한 데이터 웨어하우스를 권장하기가 어렵습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;High implementation and maintenance costs&amp;nbsp;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 웨어하우스는 구현 및 유지 관리 비용이 많이 들 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 웨어하우스는 일반적으로 정적이지 않습니다. 그것은 구식이 되고 비용이 많이 들 수 있는 정기적인 유지 관리가 필요합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Data Lake (데이터 레이크)&lt;/h2&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소입니다.&lt;br /&gt;데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리할 수 있습니다.&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;715&quot; data-origin-height=&quot;422&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/pREzt/btsjR8THcDt/UH0AFDG6ziN72mZXwdG560/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/pREzt/btsjR8THcDt/UH0AFDG6ziN72mZXwdG560/img.png&quot; data-alt=&quot;출처:datakitchen.io&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/pREzt/btsjR8THcDt/UH0AFDG6ziN72mZXwdG560/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FpREzt%2FbtsjR8THcDt%2FUH0AFDG6ziN72mZXwdG560%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;715&quot; height=&quot;422&quot; data-origin-width=&quot;715&quot; data-origin-height=&quot;422&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;출처:datakitchen.io&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크는 일반적으로 Apache Hadoop과 같은 빅 데이터 플랫폼에 구축됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;기존 데이터 웨어하우스의 사전 정의된 스키마가 없기 때문에 저렴한 비용과 스토리지 유연성으로 유명합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;또한 오디오, 비디오 및 텍스트와 같은 다양한 유형의 데이터를 보관합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 생산자는 대부분 구조화되지 않은 데이터를 생성하기 때문에 더 많은 데이터 과학 및 인공 지능(AI) 프로젝트를 가능하게 하여 조직 전체에서 더 많은 참신한 통찰력과 더 나은 의사 결정을 이끌어 내므로 이는 중요한 차이점입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;장점&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Agility&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;사전 계획없이 쿼리, 데이터 모델 또는 애플리케이션을 쉽게 구성할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;SQL 쿼리 외에도 real-time analytics, big data analytics 및 machine learning을 지원하는데 적합합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Real-time&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;실시간으로 여러 소스에서 원본 형식의 데이터를 가져올 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이를 통해 real-time analytics 및 machine learning을 수행하고 다른 애플리케이션에서 작업을 trigger할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Scale&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;ERP 트랜잭션 및 call log와 같은 대량의 정형 및 비정형 데이터를 처리할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;※ ERP(Enterprise Resource Planning, 전사적 자원 관리)&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;재무, 제조, 소매유통, 공급망, 인사 관리, 운영 전반의 비즈니스 프로세스를 자동화하고 관리하는 시스템&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Speed&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터를 원시 상태로 유지하면 해결해야 하는 비즈니스 질문을 정의할 때까지 ETL 및 Schema 정의와 같은 시간 집약적인 작업을 수행할 필요가 없으므로 훨씬 빠르게 사용할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Better insights&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;보다 광범위한 데이터를 새로운 방식으로 분석하여 예상치 못한 이전에 사용할 수 없었던 통찰력을 얻을 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Cost savings&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Data lake는 관리하는 데 시간이 덜 걸리므로 운영 비용이 더 낮습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;또한 스토리지 관리에 사용하는 대부분의 도구가 오픈 소스이고 저렴한 하드웨어에서 실행되기 떄문에 스토리지 비용은 기존 데이터 웨어하우스보다 저렴합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;단점&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크의 크기와 복잡성으로 인해 저장하는 데이터의 양을 탐색하려면 데이터 과학자 및 데이터 엔지니어와 같은 더 많은 기술 리소스가 필요할 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;또한 데이터 거버넌스가 이러한 시스템에서 더 다운스트림으로 구현되기 때문에 데이터 레이크는 더 많은 데이터 사일로에 더 취약한 경향이 있으며, 이는 나중에 데이터 늪으로 발전할 수 있습니다. 이 경우 데이터 레이크를 사용하지 못할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Poor performance for business intelligence and data analytics use cases&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;적절하게 관리되지 않으면 데이터 레이크가 무질서해져 비즈니스 인텔리전스 및 분석 도구와 연결하기 어려울 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;일관된 데이터 구조 및 ACID(원자성, 일관성, 격리 및 내구성) 트랜잭션 지원이 부족하여 보고 및 분석 사용 사례에 필요한 경우 쿼리 성능이 최적화되지 않을 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Lack of data reliability and security&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크의 데이터 일관성 부족으로 인해 데이터 안정성과 보안을 적용하기가 어렵습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크는 모든 데이터 형식을 수용할 수 있기 때문에 민감한 데이터 유형을 수용하기 위해 적절한 데이터 보안 및 거버넌스 정책을 구현하는 것이 어려울 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Data Lake &amp;amp; Data Warehouse&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크와 데이터 웨어하우스는 일반적으로 함께 사용됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크는 새 데이터에 대한 포괄 시스템 역할을 하며 데이터 웨어하우스는 이 시스템의 특정 데이터에 다운스트림 구조를 적용합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그러나 신뢰할 수 있는 데이터를 제공하기 위해 이러한 시스템을 조정하는 것은 시간과 자원 모두에서 비용이 많이 들 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;긴 처리 시간은 데이터 부실화에 기여하고 ETL의 추가 계층은 데이터 품질에 더 많은 위험을 초래합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Data Lakehouse(데이터 레이크하우스)&lt;/h2&gt;
&lt;blockquote data-ke-style=&quot;style2&quot;&gt;데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 최상의 기능을 결합한 새로운 빅 데이터 스토리지 아키텍처입니다. &lt;br /&gt;데이터 레이크하우스는 모든 데이터(정형, 반정형 및 비정형)에 대한 단일 리포지토리를 지원하는 동시에 동급 최고의 머신 러닝, 비즈니스 인텔리전스 및 스트리밍 기능을 지원합니다.&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 데이터 웨어하우스 및 데이터 레이크 내의 결함을 최적화하여 더 나은 데이터 관리 시스템을 형성합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;조직에 엔터프라이즈 데이터를 위한 빠르고 저렴한 스토리지를 제공하는 동시에 데이터 분석과 머신 러닝 워크로드를 모두 지원할 수 있는 충분한 유연성을 제공합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt; 장점&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스 아키텍처는 데이터 웨어하우스의 데이터 구조 및 관리 기능을 데이터 레이크의 저비용 스토리지 및 유연성과 결합&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Reduced data redundancy&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 모든 비즈니스 데이터 요구 사항을 충족하는 단일 다목적 데이터 스토리지 플랫폼을 제공하여 데이터 중복을 줄입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;단일 데이터 스토리지 시스템은 간소화된 플랫폼을 통해 모든 비즈니스 데이터 요구 사항을 수행할 수 있습니다. 또한 데이터 레이크하우스는 데이터 파이프라인을 통해 여러 시스템으로 이동하는 데이터의 양을 줄임으로써 데이터 관찰 가능성을 단순화합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Cost-effectiveness&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 저비용 객체 스토리지 옵션을 활용하여 데이터 레이크의 비용 효율적인 스토리지 기능을 구현합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 단일 솔루션을 제공하여 여러 데이터 스토리지 시스템을 유지 관리하는 비용과 시간을 제거합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Support for a wider variety of workloads&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 데이터 관리 수명 주기 전반에 걸쳐 다양한 사용 사례를 처리할 수 있습니다. 또한 비즈니스 인텔리전스와 데이터 시각화 워크스트림 또는 더 복잡한 데이터 과학 워크스트림을 모두 지원할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 가장 널리 사용되는 일부 비즈니스 인텔리전스 도구(Tableau, PowerBI)에 대한 직접 액세스를 제공하여 고급 분석을 가능하게 합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 Python/R을 비롯한 API 및 기계 학습 라이브러리와 함께 개방형 데이터 형식(예: Parquet)을 사용하므로 데이터 과학자와 기계 학습 엔지니어가 데이터를 쉽게 활용할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Better governance&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스 아키텍처는 데이터 레이크와 함께 제공되는 표준 거버넌스 문제를 완화합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;예를 들어 데이터가 수집되고 업로드되면 데이터가 정의된 스키마 요구 사항을 충족하는지 확인하여 다운스트림 데이터 품질 문제를 줄일 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;More scale&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;기존 데이터 웨어하우스에서는 컴퓨팅과 스토리지가 함께 결합되어 운영 비용이 증가했습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 스토리지와 컴퓨팅을 분리하여 데이터 팀이 동일한 데이터 스토리지에 액세스하는 동시에 다른 애플리케이션에 대해 다른 컴퓨팅 노드를 사용할 수 있도록 합니다. 그 결과 확장성과 유연성이 향상됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Streaming support&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 오늘날의 비즈니스 및 기술을 위해 구축되었으며 많은 데이터 소스가 장치에서 직접 실시간 스트리밍을 사용합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스 시스템은 이 실시간 수집을 지원하며 앞으로 더욱 인기를 끌 것입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Ease of data versioning, governance, and security&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스 아키텍처는 스키마 및 데이터 무결성을 강화하여 강력한 데이터 보안 및 거버넌스 메커니즘을 보다 쉽게 ​​구현할 수 있도록 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;단점&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스의 주요 단점은 아직 비교적 새롭고 미성숙한 기술이라는 것입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스가 성숙한 빅 데이터 스토리지 솔루션과 경쟁하려면 몇 년이 걸릴 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그러나 현재의 현대적 혁신 속도를 고려할 때 새로운 데이터 스토리지 솔루션이 결국 이를 대체할 수 있을지 예측하기 어렵습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Data Warehouse vs Data Lake vs Data Lakehouse&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 웨어하우스는 비즈니스 인텔리전스, 보고 및 분석 애플리케이션에서 오랜 역사를 가진 가장 오래된 빅데이터 스토리지 기술입니다. 그러나 데이터 웨어하우스는 비용이 많이 들고 스트리밍 및 다양한 데이터와 같은 비정형 데이터로 어려움을 겪고 있습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크는 머신 러닝 및 데이터 과학 워크로드를 위한 저렴한 스토리지에서 다양한 형식의 원시 데이터를 처리하기 위해 등장했습니다. 데이터 레이크는 구조화되지 않은 데이터와 잘 작동하지만 데이터 웨어하우스의 ACID 트랜잭션 기능이 부족하여 데이터 일관성과 안정성을 보장하기 어렵습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 데이터 레이크의 비용 효율성 및 유연성과 데이터 웨어하우스의 안정성 및 일관성을 결합한 최신 데이터 스토리지 아키텍처입니다.&lt;/span&gt;&lt;/p&gt;
&lt;table style=&quot;color: #333333; text-align: start; border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;background-color: #9b9b9b; color: #ffffff;&quot;&gt;&amp;nbsp;&lt;/td&gt;
&lt;td style=&quot;background-color: #9b9b9b; color: #ffffff;&quot;&gt;&lt;b&gt;Data Warehouse&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;background-color: #9b9b9b; color: #ffffff;&quot;&gt;&lt;b&gt;Data Lake&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;background-color: #9b9b9b; color: #ffffff;&quot;&gt;&lt;b&gt;Data Lakehouse&lt;/b&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;background-color: #efefef;&quot;&gt;&lt;b&gt;Storage Data Type&lt;/b&gt;&lt;/td&gt;
&lt;td&gt;구조화된 데이터와 잘 작동&lt;/td&gt;
&lt;td&gt;semi-structure와 unstructured 데이터와 잘 작동&lt;/td&gt;
&lt;td&gt;정형, 반정형 및 비정형 데이터를 처리 가능&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;background-color: #efefef;&quot;&gt;&lt;b&gt;Purpose&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;background-color: #f9f9f9;&quot;&gt;데이터 분석 및 비즈니스 인텔리전스(BI) 사용 사례에 최적&lt;/td&gt;
&lt;td style=&quot;background-color: #f9f9f9;&quot;&gt;머신 러닝(ML) 및 인공지능(AI) 워크로드에 적합&lt;/td&gt;
&lt;td style=&quot;background-color: #f9f9f9;&quot;&gt;데이터 분석 및 머신 러닝 워크로드 모두에 적합&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;background-color: #efefef;&quot;&gt;&lt;b&gt;Cost&lt;/b&gt;&lt;/td&gt;
&lt;td&gt;스토리지는 비용과 시간이 많이 소요됨&lt;/td&gt;
&lt;td&gt;스토리지는 비용 효율적이고 빠르며 유연&lt;/td&gt;
&lt;td&gt;스토리지는 비용 효율적이고 빠르며 유연&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;background-color: #efefef;&quot;&gt;&lt;b&gt;ACID Compliance&lt;/b&gt;&lt;/td&gt;
&lt;td style=&quot;background-color: #f9f9f9;&quot;&gt;최고 수준의 무결성을 보장하기 위해 ACID 준수 방식으로 데이터를 기록&lt;/td&gt;
&lt;td style=&quot;background-color: #f9f9f9;&quot;&gt;Non-ACID 준수: 업데이트 및 삭제는 복잡한 작업&lt;/td&gt;
&lt;td style=&quot;background-color: #f9f9f9;&quot;&gt;여러 당사자가 동시에 데이터를 읽거나 쓸 떄 일관성을 보장하는 ACID 준수&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 레이크하우스는 처음부터 구축하기가 복잡할 수 있습니다. 또한 개방형 데이터 레이크하우스 아키텍처를 지원하도록 구축된 플랫폼을 사용할 가능성이 높습니다. 따라서 구매하기 전에 각 플랫폼의 다양한 기능과 구현을 조사하십시오.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 웨어하우스는 비즈니스 인텔리전스 및 데이터 분석 사용 사례에 중점을 둔 성숙하고 구조화된 데이터 솔루션을 찾는 회사에 적합한 선택입니다. 그러나 데이터 레이크는 구조화되지 않은 데이터에서 기계 학습 및 데이터 과학 워크로드를 구동하기 위해 유연하고 저렴한 빅 데이터 솔루션을 찾는 조직에 적합합니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;데이터 웨어하우스 및 데이터 레이크 접근 방식이 회사의 데이터 요구 사항을 충족하지 못하거나 데이터에 대한 고급 분석 및 머신 러닝 워크로드를 모두 구현하는 방법을 찾고 있다고 가정합니다. 이 경우 데이터 레이크하우스가 합리적인 선택입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://www.ibm.com/topics/data-lakehouse&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.ibm.com/topics/data-lakehouse&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1686729872399&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;What is a data lakehouse? | IBM&quot; data-og-description=&quot;Data lakehouses seek to resolve the core challenges across both data warehouses and data lakes to yield a more ideal data management solution for organizations.&quot; data-og-host=&quot;www.ibm.com&quot; data-og-source-url=&quot;https://www.ibm.com/topics/data-lakehouse&quot; data-og-url=&quot;https://www.ibm.com/topics/data-lakehouse&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/lxxxK/hyS0osgWhA/5g0VdVllQ2Qlj1skgAj130/img.jpg?width=1584&amp;amp;height=697&amp;amp;face=0_0_1584_697&quot;&gt;&lt;a href=&quot;https://www.ibm.com/topics/data-lakehouse&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://www.ibm.com/topics/data-lakehouse&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/lxxxK/hyS0osgWhA/5g0VdVllQ2Qlj1skgAj130/img.jpg?width=1584&amp;amp;height=697&amp;amp;face=0_0_1584_697');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;What is a data lakehouse? | IBM&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;Data lakehouses seek to resolve the core challenges across both data warehouses and data lakes to yield a more ideal data management solution for organizations.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;www.ibm.com&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://velog.io/@busybean3/Data-Lake-VS-Data-Warehouse&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://velog.io/@busybean3/Data-Lake-VS-Data-Warehouse&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://www.striim.com/blog/data-warehouse-vs-data-lake-vs-data-lakehouse-an-overview/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.striim.com/blog/data-warehouse-vs-data-lake-vs-data-lakehouse-an-overview/&lt;/a&gt;&lt;/p&gt;</description>
      <category>Data &amp;amp; DataOps/Data &amp;amp; DataOps</category>
      <category>Data Lake</category>
      <category>data lakehouse</category>
      <category>DATA Warehouse</category>
      <category>데이터 레이크</category>
      <category>데이터 레이크하우스</category>
      <category>데이터 웨어하우스</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/402</guid>
      <comments>https://yumdata.tistory.com/402#entry402comment</comments>
      <pubDate>Wed, 14 Jun 2023 18:39:35 +0900</pubDate>
    </item>
    <item>
      <title>[NLP][논문리뷰] Distilling the Knowledge in a Neural Network</title>
      <link>https://yumdata.tistory.com/401</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Distilling&amp;nbsp;the&amp;nbsp;Knowledge&amp;nbsp;in&amp;nbsp;a&amp;nbsp;Neural&amp;nbsp;Network&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;논문링크: &lt;a href=&quot;https://arxiv.org/abs/1503.02531&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://arxiv.org/abs/1503.02531&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1686647671007&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;Distilling the Knowledge in a Neural Network&quot; data-og-description=&quot;A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersome&quot; data-og-host=&quot;arxiv.org&quot; data-og-source-url=&quot;https://arxiv.org/abs/1503.02531&quot; data-og-url=&quot;https://arxiv.org/abs/1503.02531v1&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/A5hZO/hySYBlLlWG/c7WmbOSNo1aU2BolQYP3K1/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/Df7Tc/hySYId7598/cEFeJPZobHbBkbohfvssKk/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/1503.02531&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://arxiv.org/abs/1503.02531&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/A5hZO/hySYBlLlWG/c7WmbOSNo1aU2BolQYP3K1/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/Df7Tc/hySYId7598/cEFeJPZobHbBkbohfvssKk/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;Distilling the Knowledge in a Neural Network&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersome&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;arxiv.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Knowledge Distillation 방법은 앙상블된 지식을 압축해 단일 모델로 증류함으로써&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;앙상블 방식으로 모델을 훈련할 때 많은 계산비용이 발생하는 상황에 대한 대안을 제시합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Background&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Neural Network의 오버피팅을 피하기 위해 앙상블 기법이 사용됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;앙상블은 여러 모델을 사용하여 계산 시간이 많이 걸리는 단점이 있어, 앙상블만큼의 성능을 갖되 '적은 파라미터 수'를 가진 Neural Network 모델이 필요하여 대안으로 제시되었습니다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Knowledge Distillation&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;491&quot; data-origin-height=&quot;222&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bjsdXg/btsklnJrfUd/iZy5Pu03FDoHT947rRnWl1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bjsdXg/btsklnJrfUd/iZy5Pu03FDoHT947rRnWl1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bjsdXg/btsklnJrfUd/iZy5Pu03FDoHT947rRnWl1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbjsdXg%2FbtsklnJrfUd%2FiZy5Pu03FDoHT947rRnWl1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;601&quot; height=&quot;272&quot; data-origin-width=&quot;491&quot; data-origin-height=&quot;222&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;화학에서 액체를 가열하여 생긴 기체를 냉각하여 다시 액체로 만드는 것을 증류(distillation)라고 부르는데, 이러한 개념을 Neural Network에 사용한 것을 의미합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Neural Network에서 지식 증류(Knowledge Distillation)는 큰 모델(techer network)로부터 증류한 지식을 작은 모델(student network)로 transfer하는 과정입니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;즉, 한번 훈련된 대규모 머신러닝(혹은 모델)의 &quot;지식&quot;을 소비자들에게 배포하기 적합한 작은 모델에 증류하는 방법을 제안합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;How to Knowledge Distillation&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;네트워크의 지식을 일반적으로 각 훈련된 네트워크의 파라미터들이 아닌 단순히 네트워크를 거쳐서 나온 출력 벡터를 지식으로 생각한다면 지식을 증류한다는 개념이 쉽게 와 닿을 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;930&quot; data-origin-height=&quot;700&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/JhgSU/btskizi6P7i/uUColSWgljkJFpM4LIGUI1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/JhgSU/btskizi6P7i/uUColSWgljkJFpM4LIGUI1/img.png&quot; data-alt=&quot;출처:https://www.ttic.edu/dl/dark14.pdf&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/JhgSU/btskizi6P7i/uUColSWgljkJFpM4LIGUI1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FJhgSU%2Fbtskizi6P7i%2FuUColSWgljkJFpM4LIGUI1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;498&quot; height=&quot;375&quot; data-origin-width=&quot;930&quot; data-origin-height=&quot;700&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;출처:https://www.ttic.edu/dl/dark14.pdf&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;지식을 증류할 때, 큰 모델과 작은 모델은 같은 데이터셋을 사용합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;큰 모델의 일반화 능력을 작은 모델에 전수하는 방법은, 복잡한 모델의 클래스 확률을 사용하여 작은 모델을 훈련하는 'soft targets'을 사용합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;높은 엔트로피의 'soft targets'을 사용하면 'hart targets'를 사용할 때보다 더 많은 정보를 제공받을 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;578&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/Ae29S/btskiSbZ79Z/kkMcBUXSeFKvZ0pnLW6Ktk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/Ae29S/btskiSbZ79Z/kkMcBUXSeFKvZ0pnLW6Ktk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/Ae29S/btskiSbZ79Z/kkMcBUXSeFKvZ0pnLW6Ktk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FAe29S%2FbtskiSbZ79Z%2FkkMcBUXSeFKvZ0pnLW6Ktk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;658&quot; height=&quot;297&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;578&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;soft label: large model의 softmax output([0.1, 0.1, 0.7, 0.1])&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;hard label: 기존 one hot encoding 방식 output([0,0,1,0])&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Teacher Network 학습&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Student Network 학습&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Student Network soft prediction + Teacher Network soft label을 통해 distillation loss 구성&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Student Network hard prediction + Original hard label을 통해 student loss 구성&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Teacher 모델의 손실값과 Student 모델의 Cross entropy 값을 더해 갱신해나는 것.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;단계)&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1. Teacher Network: training set(x, hard label)을 사용해 large model 학습&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2. large model 학습 뒤, large model의 output(soft label)을 target으로 하는 transfer set(x, soft label)을 생성.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp; &amp;nbsp; 이때, soft labe의 T는 1이 아닌 높은 값 사용&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;3. Student Network&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp; &amp;nbsp; transfer set을 사용해 small model 학습: T는 soft label을 생성할 때와 같은 값 사용. soft predictions&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp; &amp;nbsp; transfer set을 사용해 small model 학습: T는 1로 고정. hart predictions&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;4. loss 생성&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp; &amp;nbsp; distillation loss: soft label과 soft predictions의 차이를 Kullback-Leiber Divergence를 통해 구함&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp; &amp;nbsp; student loss: hart predictions와 hard label을 Cross-entropy를 통해 구함&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;5. 두 loss를 더해서 최종 loss를 구함&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://dsbook.tistory.com/324&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://dsbook.tistory.com/324&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a title=&quot;https://velog.io/@ahp2025/Distilling-the-Knowledge-in-a-Neural-Network-논문-리뷰&quot; href=&quot;https://velog.io/@ahp2025/Distilling-the-Knowledge-in-a-Neural-Network-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://velog.io/@ahp2025/Distilling-the-Knowledge-in-a-Neural-Network-논문-리뷰&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>NLP/NLP 기초</category>
      <category>distilling the knowledge</category>
      <category>지식증류</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/401</guid>
      <comments>https://yumdata.tistory.com/401#entry401comment</comments>
      <pubDate>Tue, 13 Jun 2023 18:21:50 +0900</pubDate>
    </item>
    <item>
      <title>[Generative AI] Foundation Model 이란</title>
      <link>https://yumdata.tistory.com/400</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Foundation Model&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;(2017) &lt;a href=&quot;https://hai.stanford.edu/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;Stanford University HAI(Human-Centered Artificial Intelligence)&lt;/a&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;논문(&lt;span style=&quot;background-color: #ffffff; color: #202122; text-align: start;&quot;&gt;2021&lt;/span&gt;): &lt;a href=&quot;https://arxiv.org/abs/2108.07258&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;On the Opprotunities and Risks of Foundataion Models&lt;/a&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1691408584604&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;website&quot; data-og-title=&quot;On the Opportunities and Risks of Foundation Models&quot; data-og-description=&quot;AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically centr&quot; data-og-host=&quot;arxiv.org&quot; data-og-source-url=&quot;https://arxiv.org/abs/2108.07258&quot; data-og-url=&quot;https://arxiv.org/abs/2108.07258v3&quot; data-og-image=&quot;https://scrap.kakaocdn.net/dn/coTmUx/hyTzk5daKE/d1ukMkWVrTMraDlNWCTyfk/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/bRivxG/hyTzg2NW14/MCkcK4wZYYpBbEkzkZCnPK/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2108.07258&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://arxiv.org/abs/2108.07258&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url('https://scrap.kakaocdn.net/dn/coTmUx/hyTzk5daKE/d1ukMkWVrTMraDlNWCTyfk/img.png?width=1200&amp;amp;height=700&amp;amp;face=0_0_1200_700,https://scrap.kakaocdn.net/dn/bRivxG/hyTzg2NW14/MCkcK4wZYYpBbEkzkZCnPK/img.png?width=1000&amp;amp;height=1000&amp;amp;face=0_0_1000_1000');&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;On the Opportunities and Risks of Foundation Models&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically centr&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;arxiv.org&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;AI는 대규모의 광범위한 데이터에 대해 훈련되고 광범위한 다운스트림 작업에 적응할 수 있는 모델(예: BERT, DALL-E, GPT-3)의 등장으로 패러다임 전환을 겪고 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;우리는 이러한 모델을 Foundation Model이라고 부르며 비판적으로 중심적이지만 불완전한 특성을 강조합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이 보고서는 기능(예: 언어, 비전, 로봇 공학, 추론, 인간 상호 작용) 및 기술 원칙(예: 모델 아키텍처, 교육 절차, 데이터, 시스템, 보안)에 이르기까지 Foundataion Model의 기회와 위험에 대한 철저한 설명을 제공합니다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;==&amp;gt; &lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;연구자들은 &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;트랜스포머(transformer) 모델&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;과 &lt;/span&gt;대규모 언어 모델(LLM)&lt;span style=&quot;background-color: #ffffff; text-align: start;&quot;&gt;, 구축이 계속되고 있는 기타 신경망들이 일명 파운데이션 모델(foundation model)이라는 새롭고 중요한 범주를 구성한다고 분석했습니다.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;Foundation Model 정의&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;i&gt;Foundation models are models built on&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;unlabeled data&lt;/span&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;using&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;self-supervision&lt;/span&gt;&lt;/i&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;u&gt;레이블이 지정되지 않은 광범위한 데이터 집합&lt;/u&gt;에 대해 훈련된 대규모 인공 지능 모델로, 광범위한 다운스트림 작업에 적용할 수 있는 AI 모델 유형을 말합니다.&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;대규모 머신 러닝(ML) 모델은 방대한 양의 데이터를 대규모로 훈련(self-supervised learning, semi-supervised learning) 다양한 다운스트림 작업에 적용할 수 있는 모델을 의미합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Foundation 모델은 일반적으로 self-supervised 방식으로 레이블이 지정되지 않은 광범위한 데이터 세트에 대해 사전 훈련되고 그 과정에서 일반화 가능하고 적응 가능한 데이터 표현을 학습하는 모든 모델입니다.&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Foundation&lt;/span&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;모델이라는 용어는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;a style=&quot;color: #0070d1;&quot; href=&quot;https://fsi.stanford.edu/publication/opportunities-and-risks-foundation-models&quot;&gt;200페이지가 넘는 스탠포드 보고서&lt;/a&gt;에서 만들어졌습니다. 이 보고서는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Foundation&lt;/span&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;모델이라는 새로운 종류의 모델이 등장하면서 AI가 패러다임 전환을 겪고 있는 방식을 설명합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Foundation model의 초기 예는 Google의 BERT를 포함하여 사전 훈련된 대규모 언어 모델(LLM)과 특히 OpenAI의 'GPT-n' 시리즈를 포함하는 다양한 초기 GPT 기반 모델이었습니다. 이러한 광범위한 모델은 의료 코드와 같은 다양한 종류의 대상 데이터 세트를 사용하는 작업 및/또는 도메인별 모델에 차례로 사용될 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;텍스트 외에도 DALL-E, Flamingo, Florence 및 NOOR를 포함하여 여러 시각적 및 다중 모달 기반 모델이 제작되었습니다. 시각적 기반 모델(VFM)이 텍스트 기반 LLM과 결합되어 정교한 작업별 모델을 개발했습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;672&quot; data-origin-height=&quot;459&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cL3IaX/btsjbI0o2Tl/vUWZ3WgICoNBbAvBFp6Yik/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cL3IaX/btsjbI0o2Tl/vUWZ3WgICoNBbAvBFp6Yik/img.jpg&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cL3IaX/btsjbI0o2Tl/vUWZ3WgICoNBbAvBFp6Yik/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcL3IaX%2FbtsjbI0o2Tl%2FvUWZ3WgICoNBbAvBFp6Yik%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;672&quot; height=&quot;459&quot; data-origin-width=&quot;672&quot; data-origin-height=&quot;459&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1946&quot; data-origin-height=&quot;1114&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/ci9JT6/btsyuGAl4HC/k26R6muH5MAtrXWggw47m0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/ci9JT6/btsyuGAl4HC/k26R6muH5MAtrXWggw47m0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/ci9JT6/btsyuGAl4HC/k26R6muH5MAtrXWggw47m0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fci9JT6%2FbtsyuGAl4HC%2Fk26R6muH5MAtrXWggw47m0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;637&quot; height=&quot;365&quot; data-origin-width=&quot;1946&quot; data-origin-height=&quot;1114&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다양한 양식의 레이블이 지정되지 않은 데이터 세트(ex. language, time-series, tabular)에 대해 Pre-trained됨&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;self-supervised learning 활용&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;여러 다운스트림 작업&lt;span style=&quot;text-align: left;&quot;&gt;(ex.&amp;nbsp;&lt;/span&gt;텍스트&amp;nbsp;생성,&amp;nbsp;기계&amp;nbsp;번역,&amp;nbsp;언어&amp;nbsp;분류)에서 효과적으로 사용할 수 있는 일반화(generalizable) 가능하고 적응 가능한(adaptable) 데이터 표현 학습&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Enables&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Generative AI: creates new content&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Traditional AI: more rapid development and operationalization&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;Specific instance of&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Large Langauge Models(LLM) are Foundation Models on text or text-like things such as code&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Foundation Model 2가지 특징&lt;/h3&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Emergence Behaviros (창발성, 불시에 솟아나는 특성)&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이전 세대의 머신 러닝(ML) 모델은 질문(Q&amp;amp;A)에 답하거나 텍스트 본문을 요약하는 것과 같은 특정 동작을 수행하도록 훈련되었습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그러나&amp;nbsp;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;Foundation&lt;/span&gt;&amp;nbsp;모델은 명시적으로 훈련되지 않은 작업을 수행합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;창발성: 하위계층(구성 요소)에는 없는 특성이나 행동이 상위계층(전체 구조)에서 자발적으로 돌연히 출현하는 현상&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;시스템의 행동은 직접 프로그래밍되는 것이 아니라 데이터를 통해 유추됩니다. (모든 머신러닝 모델을 포괄하고 있는 특징이기도 합니다)&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;신경회로망은 데이터만 있으면 알아서 확률/통계학적 모델을 구축해 다음 행동을 결정하거나 미래 예측을 할 수 있다는 점이 창발성의 기본이 됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;단점&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델의 출력의 이유를 설명하기 매우 힘들다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Homogenization (단일성)&lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;ML 커뮤니티가 다양한 종류의 문제에 잘 작동하는 기술을 발견함에 따라 이러한 기술은 ML 시스템 구축에 대한 표준화된 접근 방식의 일부가 됩니다. Foundation Models를 사용하면 모델 자체가 균질화의 대상이 됩니다. 예를 들어 모델 자체는 도메인을 전문화하기 위해 새 모델을 개발할 수 있는 기반을 제공합니다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;하나의 거대한 Foundation 모델이 여러가지 다양한 문제를 풀게 된다는 겁니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;BERT처럼 엄청나게 많은 양의 텍스트를 어떠한 다른 정보 없이 언어모델로 미리 학습(pre-taining)시키고, downtream을 위해 추가 학습(fine-tuninig)시키면 기존 모델의 성을 넘을 수 있는 모델을 만들 수 있게 됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;많은 데이터에서의 사전 학습(pre-trained)이 언어학적 지식을 압축시킨 '단일화된' 모델을 만든다는 것을 알아낸 것입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;단일화 방식으로 매우 효율적인 AI 서비스 개발이 가능하다는 큰 장점을 가지고 있지만,&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;학습된 데이터의 한계 및 Foundation 모델은 bias(편향), hallucination(환각) 등과 같은 문제점을 가지고 있는 경우가 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style3&quot; /&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;Foundation&lt;/span&gt;&amp;nbsp;모델의 창발적 행동을 클라이언트 사용 사례에 적용하는 것은 어려운 일입니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이러한 모델은 입력이 동일하더라도 다양한 콘텐츠를 생성합니다. 결과는 편향되고 부정확하며 불안정할 수 있으며 고유한 저작권 문제가 있을 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;적절한 안전 장치를 적용하면 모델과 해당 결과가 사용 사례에 대해 설명 가능하고 적절하며 훈련 데이터가 감사되도록 하여 생성된 콘텐츠 사용으로 인한 유해한 비즈니스 영향을 정량화하고 완화하는 기능을 용이하게 합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;궁극적으로 모든 모델은 AI 거버넌스 프로세스 및 정책을 사용하여 최적으로 구성되어야 합니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Foundation Model의 중요성&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Foundation 모델은 방대한 양의 데이터에 대해 사전 교육을 받았으며 특정 작업에 맞게 fine-tuning할 수 있습니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;Foundation&lt;/span&gt;&amp;nbsp;모델은 인간과 유사한 언어를 생성하고 질문에 답하는 작업을 수행하며 코드를 생성할 수도 있습니다. 그들은 인공 지능 분야에서 중대한 돌파구를 제시하며 의료, 금융 및 교육을 포함한 광범위한 산업에 혁명을 일으킬 잠재력을 가지고 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;Foundation Model Advantages&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;적은 양의 작업별 레이블이 지정된 훈련 데이터를 사용하여 다양한 다운스트림 작업에 대해 Foundation Model을 fine-tuning할 수 있으므로 다음과 같은 이점이 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;데이터 수집 및 라벨링을 위한 노력 감소 및 초기 비용 절감&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;기존의 &lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;foundation&lt;/span&gt; 모델을 시작점으로 사용하면 이전 접근 방식보다 레이블이 지정된 작업별 훈련 데이터가 덜 필요하므로 데이터 수집 및 레이블 지정에 대한 초기 비용이 절감됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;더 빠른 배포 시간&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;한 번 구축하면 적은 양의 훈련 데이터를 사용하여 다운스트림 애플리케이션에 대해 동일한 foundation 모델을 fine-tuning할 수 있으므로 가치 창출 시간이 단축되고 생산성이 향상됩니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;b&gt;정확도 향상&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;foundation&lt;/span&gt;&amp;nbsp;모델은 딥 러닝의 차세대 혁명입니다. 다양한 벤치마크에서 이전 세대의 AI 모델보다 훨씬 나은 것으로 나타났습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;기업은 어떻게 단점을 극복하고 foundation 모델을 유리하게 활용할 수 있는가?&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;Foundation&lt;/span&gt;&amp;nbsp;모델을 처음부터 새로 만들려면 레이블이 지정되지 않은 대량의 데이터와 대규모 컴퓨팅 리소스가 필요합니다.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;그러나 기업은 레이블이 훨씬 적은 데이터와 최소한의 컴퓨팅 리소스로 fine-tuning된 사전 훈련된 &lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;foundation&lt;/span&gt; 모델로 시작할 수 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;사전 훈련된 &lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;Foundation&lt;/span&gt; 모델이 존재하지 않는 경우 기업은 자체 모델을 만들고자 할 것입니다.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;이것이 벅찬 것처럼 보이지만 &lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;foundation&lt;/span&gt;&amp;nbsp;모델을 훈련하고 검증하는 데 필요한 소프트웨어는 빠르게 발전하고 있습니다&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;&lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;Foundation&lt;/span&gt;&amp;nbsp;모델의 추론은 기존 모델보다 더 비쌉니다.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;추론 비용은 모델 크기의 함수입니다. &lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;foundation&lt;/span&gt; 모델이 이전 모델보다 훨씬 큰 경우 더 많은 컴퓨팅 리소스가 필요합니다. 그러나 다양한 환경에 대한 &lt;span style=&quot;background-color: #ffffff; text-align: left;&quot;&gt;foundation&lt;/span&gt; 모델의 크기를 관리하기 위한 도구도 있습니다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;LLM(Large Language Model)&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Large Language Model is a part of Foundation Model&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;대규모 언어 모델은 Foundation 모델의 한 분야로, 자연어 처리에서 Foundation model은 다음과 같은 용어로도 표현됩니다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Large Language Model (LLM)&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Massive Language Model (MLM)&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Transformer Language Model, Transformer&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;초거대 AI 한계와 과제&lt;/span&gt;&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;학습 비용/시간 대비 효율성&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;현실 세계의 쉬운 상식 부족 &lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;학습하지 않으면 모른다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모든 태스크에 뛰어나지 않을 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;복합연산 능력이 떨어진다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;학습에 주어진 데이터가 적을수록 성능이 떨어진다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;기억력이 없다&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;새로운 정보를 수용하기 어렵다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;새로운 값에 대해 동기화도 이뤄지지 않는다.&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;AI 양극화&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;초거대 AI는 자본력이 있는 빅테크 기업이 주도한다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://hai.stanford.edu/news/what-foundation-model-explainer-non-experts&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://hai.stanford.edu/news/what-foundation-model-explainer-non-experts&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://hai.stanford.edu/news/reflections-foundation-models&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://hai.stanford.edu/news/reflections-foundation-models&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://blogs.nvidia.co.kr/2023/04/04/what-are-foundation-models/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://blogs.nvidia.co.kr/2023/04/04/what-are-foundation-models/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://research.ibm.com/blog/what-are-foundation-models&quot;&gt;https://research.ibm.com/blog/what-are-foundation-models&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://en.wikipedia.org/wiki/Foundation_models&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://en.wikipedia.org/wiki/Foundation_models&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;style&gt;
.blogview_content { -webkit-user-drag: none; -webkit-touch-callout: none; user-select: none; }
.blogview_content img { pointer-events: none; } 
&lt;/style&gt;</description>
      <category>Generative AI/Foundation Model</category>
      <category>Foundation Model</category>
      <category>Generative AI</category>
      <category>Large Language Model</category>
      <category>언어모델</category>
      <category>파운데이션모델</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/400</guid>
      <comments>https://yumdata.tistory.com/400#entry400comment</comments>
      <pubDate>Thu, 8 Jun 2023 15:55:08 +0900</pubDate>
    </item>
    <item>
      <title>[Foundation Model] GPT-4 / GPT-3</title>
      <link>https://yumdata.tistory.com/399</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;GPT-4 (2023.03.14)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;OpenAI, Unknown Size, Not Open Source, API Access Only&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://yumdata.tistory.com/81&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;[NLP] GPT&lt;/a&gt; : Generative Pre-trained Transformer, OpenAI가 개발한 인공지능 모델&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;GPT는 자연어 처리를 위한 인공지능 모델로, 방대한 데이터를 머신러닝으로 미리학습(Pre-trained)해 이를 문장으로 생성(Generative)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;GPT-4는 ChatGPT 유료 상품인 'ChatGPT 플러스'를 통해 사용 가능합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;또는 &quot;Bing Chat&quot;을 이용해서도 사용 가능합니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;텍스트뿐 아니라 이미지도 입력할 수 있으므로 엄격하게 언어 전용 모델은 아니지만 여러 전문 의료 및 법률 시험을 포함한 다양한 작업에서 인상적인 성능을 보여줍니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;또한 GPT-4는 이전 반복에 비해 최대 입력 길이를 확장하여 최대 32,768개의 토큰(약 50페이지의 텍스트)으로 늘립니다. 불행히도 이 모델을 교육하는 데 사용되는 모델 아키텍처 또는 데이터 세트에 대해 거의 밝혀지지 않았습니다.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;기능 및 품질의 혁신과 OpenAI의 강력한 실적 덕분에 GPT-4는 자체 모델을 호스팅하지 않고 API에 의존하려는 경우 사용할 LLM으로 선택되었습니다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;GPT-3 (2020.06)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Open AI, 175 billion parameters, Not Open Source, API Access Only&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;대량의 텍스트 데이터 코퍼스에 대해 사전 훈련된 다음 특정 작업에 대해 fine-tuning 됩니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;텍스트 또는 문장이 주어지면 GPT-3는 자연어로 텍스트 완성을 반환합니다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;GPT-3는 번역, 질의 응답, 텍스트 완성과 같은 NLP 작업에서 인상적인 few-shot 성능과 zero-shot 성능을 보여줍니다.&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left;&quot;&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Train Data: 45TB, 4,100억 단어, 700GB 데이터&lt;/li&gt;
&lt;li&gt;CPU 28만5천 코어&lt;/li&gt;
&lt;li&gt;GPU 1만개&lt;/li&gt;
&lt;li&gt;전력 1,287MWh&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Multimodal Model&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다양한 종류의 데이터를 처리하고 이해할 수 있는 기능을 의미한다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://modulabs.co.kr/blog/gpt4-technical-report/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://modulabs.co.kr/blog/gpt4-technical-report/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.codestates.com/blog/content/gpt4-%EC%B6%9C%EC%8B%9C&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.codestates.com/blog/content/gpt4-%EC%B6%9C%EC%8B%9C&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Foundation Model</category>
      <category>Generative AI</category>
      <category>GPT</category>
      <category>GPT-3</category>
      <category>GpT-4</category>
      <category>Large Langauge Model</category>
      <category>LLM</category>
      <category>언어모델</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/399</guid>
      <comments>https://yumdata.tistory.com/399#entry399comment</comments>
      <pubDate>Wed, 12 Apr 2023 10:34:53 +0900</pubDate>
    </item>
    <item>
      <title>[Machine Learning] Federated Learning (연합 학습)</title>
      <link>https://yumdata.tistory.com/398</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Federated&amp;nbsp;Learning&amp;nbsp;(연합&amp;nbsp;학습)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;구글에서 제안된 기법으로 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델 학습을 수행하는 방법이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;데이터를 메인 서버가 아닌, 개개인의 로컬 클라이언트에 두고 그 로컬 클라이언트에서 학습을 수행,&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;로컬 클라이언트에서 업데이트된 모델의 가중치들을 중앙 서버로 보내 취합해서 하나의 모델을 업데이트 하는 것을 의미한다.&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다수의 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델을 학습하고 학습된 파라미터를 클라우드 상의 서버로 전송하여 통합한 파라미터를 인공 지능 모델 학습에 사용하고 이를 반복하는 방법이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Federated Learning은 &lt;b&gt;데이터 프라이버시 향상&lt;/b&gt;과 &lt;b&gt;커뮤니케이션 효율성&lt;/b&gt;을 가진다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;수 만개의 로컬 디바이스의 데이터를 모두 중앙 서버로 전송하게 되면 네트워크 트래픽과 스토리지 비용이 증가하는데 연합학습을 사용하면 로컬 모델의 업데이트 정보만을 주고 받으므로 커뮤니케이션 비용이 상당이 줄어들게 된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;b&gt;학습 정보만을 이용&lt;/b&gt;하여 연산 속도가 우수함&lt;/li&gt;
&lt;li&gt;데이터가 개인 모바일 기기에서만 이용되기 때문에 &lt;b&gt;정보보호&lt;/b&gt; 측면에서도 안전&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;361&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/eglDtV/btr9kiSiaTu/7gKJwwE0jEbk2kp6Q6r791/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/eglDtV/btr9kiSiaTu/7gKJwwE0jEbk2kp6Q6r791/img.png&quot; data-alt=&quot;https://ai.googleblog.com/2017/04/federated-learning-collaborative.html&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/eglDtV/btr9kiSiaTu/7gKJwwE0jEbk2kp6Q6r791/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FeglDtV%2Fbtr9kiSiaTu%2F7gKJwwE0jEbk2kp6Q6r791%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;640&quot; height=&quot;361&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;361&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://ai.googleblog.com/2017/04/federated-learning-collaborative.html&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;개인 모바일 기기에서 인공지능 모델이 저장된 사용자의 모바일 기기 데이터에 맞게 학습하고(&lt;b&gt;로컬 모델&lt;/b&gt;), 다양한 사용자의 학습 파라미터를 중앙 서버로 전송한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;중앙 서버에서는 개인 모바일 기기에서 학습한 인공지능 모델 정보를 바탕으로 더 우수한 성능의 인공지능 모델(&lt;b&gt;글로벌 모델&lt;/b&gt;)을 학습하고 향상된 인공지능 모델을 개인 모바일로 전송하는 과정을 반복한다.&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Federated Learning 방법&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1229&quot; data-origin-height=&quot;262&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/ssZKX/btr9m9AolWX/ERuQVRmj3xwN0zwbP7X7h1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/ssZKX/btr9m9AolWX/ERuQVRmj3xwN0zwbP7X7h1/img.png&quot; data-alt=&quot;Federated Learning: Challenges, Methods, and Future Directions,&amp;amp;amp;nbsp;1908.07873.pdf (arxiv.org)&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/ssZKX/btr9m9AolWX/ERuQVRmj3xwN0zwbP7X7h1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FssZKX%2Fbtr9m9AolWX%2FERuQVRmj3xwN0zwbP7X7h1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1229&quot; height=&quot;262&quot; data-origin-width=&quot;1229&quot; data-origin-height=&quot;262&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Federated Learning: Challenges, Methods, and Future Directions,&amp;amp;nbsp;1908.07873.pdf (arxiv.org)&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;FedSGD(Federated Stochastic Gradient Descent)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;기기에서 매번 업데이트된 파라미터를 전송&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;FedAVG(Federated Averaging)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;일정 수준까지 모바일 기기에서 업데이트를 수행한 파라미터를 전송&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;모바일 기기에서 네트워크 비용을 가장 적게, 효율적으로 사용할 수 있는 상황을 가정&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;Federated Learning 활용&amp;nbsp;&lt;/h3&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;병원 데이터&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;병원의 임상 데이터와 같은 환자 개인정보가 보호되어야 하는 상황에서 데이터 유출 없이 학습이 가능하다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;인텔에서 제안하고 있는 연합 학습의 아키텍처&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;513&quot; data-origin-height=&quot;355&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/y9B4Y/btr9pci2zP2/gOriWtU0jpIybQXm0nkFRK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/y9B4Y/btr9pci2zP2/gOriWtU0jpIybQXm0nkFRK/img.png&quot; data-alt=&quot;https://newsroom.intel.com/wp-content/uploads/sites/11/2020/05/federated-learning-explainer.pdf&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/y9B4Y/btr9pci2zP2/gOriWtU0jpIybQXm0nkFRK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fy9B4Y%2Fbtr9pci2zP2%2FgOriWtU0jpIybQXm0nkFRK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;513&quot; height=&quot;355&quot; data-origin-width=&quot;513&quot; data-origin-height=&quot;355&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://newsroom.intel.com/wp-content/uploads/sites/11/2020/05/federated-learning-explainer.pdf&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;Gboard&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;구글 키보드 서비스에 활용하여 사용자가 단어 입력 시, 유사 단어 추천 기능에 연합학습을 사용하고 있다.&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;360&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dShOJ3/btr9mhMsnu3/j3QSn4gFJ7xST1YKNHX0n1/img.gif&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dShOJ3/btr9mhMsnu3/j3QSn4gFJ7xST1YKNHX0n1/img.gif&quot; data-alt=&quot;https://ai.googleblog.com/2017/04/federated-learning-collaborative.html&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dShOJ3/btr9mhMsnu3/j3QSn4gFJ7xST1YKNHX0n1/img.gif&quot; srcset=&quot;https://blog.kakaocdn.net/dn/dShOJ3/btr9mhMsnu3/j3QSn4gFJ7xST1YKNHX0n1/img.gif&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;448&quot; height=&quot;252&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;360&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://ai.googleblog.com/2017/04/federated-learning-collaborative.html&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style6&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Federated Learning 공격&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;머신러닝 시스템은 외부 공격이 이루어질 때, 공격자는 기본적으로 모델 파라미터를 직접 관찰할 수 없는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;블랙박스(Black-box)&lt;/b&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;시스템이다. &lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;공격자는 입력값과 출력값만을 관측해서 모델을 추론하는 반면, 연합학습에서는 중앙 서버가 모든 클라이언트에게 모델 값을 브로드 캐스팅 하므로 공격자는 모델 파라미터를 직접 관측할 수 있는&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;화이트박스(White-box)시스템&lt;/b&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;이다&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;Model update poisoning&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;모델 파라미터 자체를 수정하는 공격&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;전체적인 성능은 높지만 특정 입력값에 대해서만 성능을 저하시키는 targeted attack과 모델 자체의 성능을 저하시키는 untargetted attack을 수행할 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;예시)&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;자율주행 자동차가 정지 표시판만을 잘못 인식하도록 만들 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;&amp;rarr; 특정 클래스의 성능만 저하시키므로 연합 학습 관점에서는 적은 공격자만으로도 성공적으로 공격에 성공할 수 있고, 모델의 파라미터 값만을 공유하는 연합학습의 특성상 누가 공격자인지 발견하기도 쉽지 않다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;Data poisoning&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;학습 단계 이전에 발생하는 공격으로, 학습 데이터 자체를 오염시켜서 모델이 의도되지 않은 방향으로 학습하도록 만드는 공격&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;targeted와 untargeted attack을 모두 수행할 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;가장 흔한 패턴은 특정 뉴런을 학습 단계에서 제외시키는 네트워크 프루닝(network pruning) 방법을 사용한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;연합학습 관점에서는 전체 학습 프로세스를 다루는 중앙 서버는 클라이언트의 데이터에 접근할 수 없으므로 클라이언트가 가진 데이터의 중독 공격 여부를 선별할 수 없다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;Evasion poisoning&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;배포된 모델에 통과시킬 데이터 샘플을 조정해서 의도되지 않은 결과를 만들어내는 공격&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;예시)&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;사람의 눈으로는 구별할 수 없지만 약간의 노이즈를 이미지 혹은 음성에 추가해서 모델의 손실함수값을 최대할 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;rarr; &lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;연합학습에서는 공격자가 전체 네트워크에 공유된 모델-파라미터를 관측할 수 있으므로(white-box) 이 공격을 수행하는데 있어 훨씬 수월하게 할 수 있다.&lt;/span&gt;&lt;span style=&quot;background-color: #ffffff; color: #292929; text-align: start;&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://medium.com/curg/%EC%97%B0%ED%95%A9-%ED%95%99%EC%8A%B5-federated-learning-%EA%B7%B8%EB%A6%AC%EA%B3%A0-%EC%B1%8C%EB%A6%B0%EC%A7%80-b5c481bd94b7&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;연합 학습, 그리고 챌린지&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://1004jonghee.tistory.com/entry/%EC%97%B0%ED%95%A9%ED%95%99%EC%8A%B5Federated-Learning&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://1004jonghee.tistory.com/연합학습&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Machine Learning/Machine Learning</category>
      <category>federated learning</category>
      <category>연합학습</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/398</guid>
      <comments>https://yumdata.tistory.com/398#entry398comment</comments>
      <pubDate>Mon, 10 Apr 2023 17:04:47 +0900</pubDate>
    </item>
    <item>
      <title>[NLP] Language Model이란</title>
      <link>https://yumdata.tistory.com/397</link>
      <description>&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Transfer Learning&lt;/span&gt;&lt;/h2&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법을 말한다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;학습 데이터의 수가 적을 때 효과적이며&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;전이학습 없이 학습할 때보다 훨씬 높은 정확도와 더 빠른 학습 속도를 제공한다.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;716&quot; data-origin-height=&quot;388&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/XMvEM/btr3eXfxBeD/YktLz3Xd44YUmwhOlL1IS0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/XMvEM/btr3eXfxBeD/YktLz3Xd44YUmwhOlL1IS0/img.png&quot; data-alt=&quot;Transfer Learning&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/XMvEM/btr3eXfxBeD/YktLz3Xd44YUmwhOlL1IS0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FXMvEM%2Fbtr3eXfxBeD%2FYktLz3Xd44YUmwhOlL1IS0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;472&quot; height=&quot;256&quot; data-origin-width=&quot;716&quot; data-origin-height=&quot;388&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Transfer Learning&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Upstream Task&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(Self-Supervised Learning) &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;다음 단어 맞히기&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;빈칸 채우기 등 대규모 말뭉치&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(corpus)&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;의 문맥을 이해하는 과제&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;div style=&quot;text-align: left;&quot;&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;&lt;u&gt;Language Model: upstream task를 수행한 모델을 의미한다.&lt;/u&gt;&lt;/span&gt;&lt;/div&gt;
&lt;div style=&quot;text-align: left;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Pretrain: upstream task&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;를 학습하는 과정&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, downstream task&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;를 본격적으로 수행하기에 앞서&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(pre)&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt; 학습&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(train)&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;한다는 의미한다.&lt;/span&gt;&lt;/div&gt;
&lt;div style=&quot;text-align: left;&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Downstream Task&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;문서 분류&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;개체명 인식 등 풀고자 하는 자연어 처리의 구체적인 문제들을 의미한다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;text-align: left;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Downstream Task 수행하는 방법&lt;/span&gt;&lt;/h2&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Fine Tuning&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;하나의 태스크를 수행할 수 있는 모델을 만들기 위해 학습 데이터셋을 수집하고 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;fine-tuning&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;을 진행한다&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;다운스트림 태스크 데이터 전체를 사용한다.&lt;/li&gt;
&lt;li&gt;다운스트림 데이터에 맞게 모델 전체를 업데이트한다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 style=&quot;text-align: left;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Prompt Engineering&lt;/span&gt;&lt;/h3&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;대규모 언어 모델&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;LLM)&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;이 일관성 있고 고품질의 텍스트 출력을 생성할 수 있도록 하는 효과적인 프롬프트를 설계하고 제작하는 작업&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;원하는 출력 결과물을 이해하고 요구 사항을 충족하는 텍스트를 생성하는 모델의 기능을 최대화하는 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;명확하고 간결한 입력을 제공하는 것을 목표로 한다&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;프롬프트를 구성하는 방식이 결과물의 퀄리티를 좌우한다&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;!!&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;300&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/t2Yn6/btr3cCcsw0S/AZ7IZDnryIpjM38MHEy6SK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/t2Yn6/btr3cCcsw0S/AZ7IZDnryIpjM38MHEy6SK/img.png&quot; data-alt=&quot;출처:&amp;amp;amp;nbsp;https://docs.cohere.ai/docs/prompt-engineering&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/t2Yn6/btr3cCcsw0S/AZ7IZDnryIpjM38MHEy6SK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Ft2Yn6%2Fbtr3cCcsw0S%2FAZ7IZDnryIpjM38MHEy6SK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;600&quot; height=&quot;300&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;300&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;출처:&amp;amp;nbsp;https://docs.cohere.ai/docs/prompt-engineering&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Prompt&lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;모델에 제공하는 광범위한 지침&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;으로&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;,&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 모델이 원하는 출력을 이해하는 데 도움이 되는 일련의 입력 문구&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;텍스트는 사용자와 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;generative &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;AI &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;모델 간의 주요 통신 수단&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Prompt Tuning&lt;/span&gt;&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;모델을 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;재훈련하거나&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 가중치를 업데이트하지 않고 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;AI &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;기반 모델을 새로운 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;다운스트림&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 작업에 적응시키는 &lt;/span&gt;&lt;u&gt;&lt;span style=&quot;color: #121717;&quot;&gt;효율적이고 저렴한 방법&lt;/span&gt;&lt;/u&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&amp;bull;최고의 단서 또는 프런트엔드 프롬프트가 AI 모델에 제공되어 작업별 컨텍스트를 제공한다.&lt;/li&gt;
&lt;li&gt;&amp;bull;신속한 조정을 통해 제한된 데이터를 가진 회사는 대규모 모델을 좁은 작업에 맞게 조정할 수 있다.&lt;/li&gt;
&lt;li&gt;&amp;bull;모델의 수십억(또는 수조)개의 가중치 또는 매개변수를 업데이트할 필요가 없다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;모델은 프롬프트를 사용하여 원하는 출력을 생성하는 방법을 학습한다&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;References&lt;/span&gt;&lt;/h2&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;a href=&quot;https://docs.cohere.ai/docs/prompt-engineering&quot;&gt;https://docs.cohere.ai/docs/prompt-engineering&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>Generative AI/Language Model</category>
      <category>Downstream task</category>
      <category>language model</category>
      <category>prompt</category>
      <category>prompt engeering</category>
      <category>transfer learning</category>
      <category>upstream task</category>
      <category>언어모델</category>
      <category>프롬프트</category>
      <category>프롬프트 엔지니어링</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/397</guid>
      <comments>https://yumdata.tistory.com/397#entry397comment</comments>
      <pubDate>Sun, 12 Mar 2023 21:41:10 +0900</pubDate>
    </item>
    <item>
      <title>[Machine Learning] Active Learning</title>
      <link>https://yumdata.tistory.com/396</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Active Learning&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: left; font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;아직 레이블링이 되어 있지 않은 데이터(unlabeled data) 중에 모델 학습에 가장 효과적일 것 같은 데이터를 고르는 작업을 의미한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif; color: #000000; text-align: start;&quot;&gt;기계가 라벨링이 필요한 데이터 중 자동적으로, 그리고 점진적으로 가장 정보량이 많은 데이터를 선택하는 것을 목표로 한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;u&gt;효과적인 학습이란&lt;/u&gt;, &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;결과적으로 가지고 있는 데이터셋 전체를 잘 학습했을 때의 '기대 성능에 어떻게 하면 빠르게 도달할 수 있는지' 또는 &amp;lsquo;혹시 그 이상의 성능을 확보할 수 있는지&amp;rsquo;가를 의미할 수 있다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;관련 논문&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #006dd7;&quot;&gt;&lt;a style=&quot;color: #006dd7; text-align: start;&quot; href=&quot;https://dsgissin.github.io/DiscriminativeActiveLearning/about/&quot;&gt;dsgissin.github.io/DiscriminativeActiveLearning/about/&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;figure id=&quot;og_1678619121393&quot; contenteditable=&quot;false&quot; data-ke-type=&quot;opengraph&quot; data-ke-align=&quot;alignCenter&quot; data-og-type=&quot;article&quot; data-og-title=&quot;About&quot; data-og-description=&quot;An introduction to the active learning framework, from classical algorithms to state of the art methods for neural networks. A new method called &amp;ldquo;Discriminative Active Learning&amp;rdquo; is introduced and discussed.&quot; data-og-host=&quot;dsgissin.github.io&quot; data-og-source-url=&quot;https://dsgissin.github.io/DiscriminativeActiveLearning/about/&quot; data-og-url=&quot;https://dsgissin.github.io/about/&quot; data-og-image=&quot;&quot;&gt;&lt;a href=&quot;https://dsgissin.github.io/DiscriminativeActiveLearning/about/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot; data-source-url=&quot;https://dsgissin.github.io/DiscriminativeActiveLearning/about/&quot;&gt;
&lt;div class=&quot;og-image&quot; style=&quot;background-image: url();&quot;&gt;&amp;nbsp;&lt;/div&gt;
&lt;div class=&quot;og-text&quot;&gt;
&lt;p class=&quot;og-title&quot; data-ke-size=&quot;size16&quot;&gt;About&lt;/p&gt;
&lt;p class=&quot;og-desc&quot; data-ke-size=&quot;size16&quot;&gt;An introduction to the active learning framework, from classical algorithms to state of the art methods for neural networks. A new method called &amp;ldquo;Discriminative Active Learning&amp;rdquo; is introduced and discussed.&lt;/p&gt;
&lt;p class=&quot;og-host&quot; data-ke-size=&quot;size16&quot;&gt;dsgissin.github.io&lt;/p&gt;
&lt;/div&gt;
&lt;/a&gt;&lt;/figure&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif; color: #000000;&quot;&gt;Passive Learning&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif; color: #000000; text-align: start;&quot;&gt;라벨링되지 않은 데이터에 대해 사람이 직접 라벨을 부여하면 이를 기계가 학습하는 방식으로 이루어졌다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif;&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;많은 라벨링된 데이터는 거의 항상 모델링의 성능을 좋게 하지만, 사람이 직접 라벨링을 진행하기에 비용 증가라는 문제를 안고 있다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif; color: #000000; text-align: start;&quot;&gt;어떤 데이터가 필요한지를 기계가 판단하여 사람에게 라벨링을 부탁하면 사람은 더 적은 라벨링 공수를 들이고도 좋은 모델을 학습할 수 있지 않을까라는 관점에서 Active Learing이 발전하였다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif; color: #000000; text-align: start;&quot;&gt;Active Learning 개요&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;전체 데이터셋중에서 중요한 데이터를 선별함으로써, 충분한 모델 경쟁력을 가지자&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;788&quot; data-origin-height=&quot;594&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/p6JEq/btr3dTdx0zp/nCCcbPl0BsXhb4rr0qvOXk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/p6JEq/btr3dTdx0zp/nCCcbPl0BsXhb4rr0qvOXk/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/p6JEq/btr3dTdx0zp/nCCcbPl0BsXhb4rr0qvOXk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fp6JEq%2Fbtr3dTdx0zp%2FnCCcbPl0BsXhb4rr0qvOXk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;450&quot; height=&quot;339&quot; data-origin-width=&quot;788&quot; data-origin-height=&quot;594&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;빨간점 : 레이블링된 데이터&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;초록점 : 레이블링을 위해, 선택된 데이터&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;일반적인 Random Sampling 방식보다,&amp;nbsp;Active learning을 통해서 중요 데이터를 찾고, 모델을 학습했을 경우,&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;보라색 그룹과 노란색 그룹을 잘 나누는 경계선(Decision Boundary)을 더 빠르게 더 잘 찾는다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;※ 주의사항 :&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;- Activer Learning을 통해, 찾은 데이터는 사람이 레이블링을 해야 되는 것은 변하지 않는다.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;- 더 효율적으로 적인 데이터를 찾기 위함이지,&amp;nbsp;&lt;u&gt;AI 모델이 레이블링을 수행하지 않는다&lt;/u&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;- AI 모델이 스스로 레이블링을 하는 것은&amp;nbsp;&lt;u&gt;Auto Labeling&lt;/u&gt;이다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Active Learning의 과정&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000; text-align: start;&quot;&gt;모델(Learner)이 라벨링 되어있지 않은 데이터 중 학습에 보다 효율적인 데이터를 골라 전문가(Oracle)에게 요청(Query)을 날리고 전문가는 그 요청에 따라 데이터를 라벨링하면 모델은 라벨링 된 데이터를 받아 학습을 진행하는 형식입니다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: center;&quot;&gt;출처: &lt;a style=&quot;color: #000000;&quot; href=&quot;http://visionexperiments.blogspot.com/2016/01/active-learning-literature-survey.html&quot;&gt;http://visionexperiments.blogspot.com/2016/01/active-learning-literature-survey.html&lt;/a&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;607&quot; data-origin-height=&quot;356&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/JEcNE/btr3kxtMITh/0b68Yl0fR24RlL3HfKiwe0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/JEcNE/btr3kxtMITh/0b68Yl0fR24RlL3HfKiwe0/img.png&quot; data-alt=&quot;Active Learning 과정&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/JEcNE/btr3kxtMITh/0b68Yl0fR24RlL3HfKiwe0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FJEcNE%2Fbtr3kxtMITh%2F0b68Yl0fR24RlL3HfKiwe0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;544&quot; height=&quot;319&quot; data-origin-width=&quot;607&quot; data-origin-height=&quot;356&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Active Learning 과정&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Learn a Model : 레이블링 된 데이터(L)를 활용하여, 모델 학습&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Select Queries : 학습된 모델을 통해서, 레이블링 되지 않은 데이터(U)에서 선별&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Human Annotator : 사람이 레이블링&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Training set : 새로 레이블링 된 데이터를 기존 dataset과 합친다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;color: #000000;&quot;&gt;목표 성능 도달까지 위에 과정(1~4)을&amp;nbsp;반복한다.&lt;/span&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;font-family: AppleSDGothicNeo-Regular, 'Malgun Gothic', '맑은 고딕', dotum, 돋움, sans-serif; color: #000000; text-align: start;&quot;&gt;Active Learning 시나리오&lt;/span&gt;&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; text-align: start;&quot;&gt;학습 모델(&lt;/span&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; text-align: start;&quot;&gt;learner)가 데이터 인스턴스에 대한 라벨을 쿼리도록 하기 위해 다음과 같은 세 가지 셋팅을 자주 사용한다.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;727&quot; data-origin-height=&quot;313&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cfP8r7/btr3iJgTFW2/YkPHKrn525C23VmlLaNFek/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cfP8r7/btr3iJgTFW2/YkPHKrn525C23VmlLaNFek/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cfP8r7/btr3iJgTFW2/YkPHKrn525C23VmlLaNFek/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcfP8r7%2Fbtr3iJgTFW2%2FYkPHKrn525C23VmlLaNFek%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;727&quot; height=&quot;313&quot; data-origin-width=&quot;727&quot; data-origin-height=&quot;313&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Membership Query Synthesis&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;506&quot; data-origin-height=&quot;137&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bdrEhM/btr3iI3nLuU/AOzx7B5IdzWK18dImCB45k/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bdrEhM/btr3iI3nLuU/AOzx7B5IdzWK18dImCB45k/img.png&quot; data-alt=&quot;출처:&amp;amp;amp;nbsp;datacamp active learning tutorial&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bdrEhM/btr3iI3nLuU/AOzx7B5IdzWK18dImCB45k/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbdrEhM%2Fbtr3iI3nLuU%2FAOzx7B5IdzWK18dImCB45k%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;506&quot; height=&quot;137&quot; data-origin-width=&quot;506&quot; data-origin-height=&quot;137&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;출처:&amp;amp;nbsp;datacamp active learning tutorial&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; text-align: start;&quot;&gt;학습 모델(learner)&lt;/span&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; text-align: start;&quot;&gt;가 주어진 분포에 의거하여 데이터 인스턴스를 생성 혹은 구성하여 쿼리하는 것을 의미한다. &lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000; text-align: start;&quot;&gt;예를 들어, 숫자 이미지 분류 문제를 풀고자 할 때 학습 모델은 숫자 이미지와 비슷한 이미지(약간 회전되거나 크롭되는 등..)를 만들어내고, 이를 라벨러에게 전송하여 라벨링을 요구한다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;모델이 레이블링 요청(Query)할 데이터를 직접 생성하는 방식으로 데이터 생성 자체가 매우 어렵기 때문에 현재는 관심 없는 분야이다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Stream-based selective sampling&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;509&quot; data-origin-height=&quot;229&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/NNOns/btr3lDnb4Cd/6sDBdE6RbmwhqoJjS9kgX0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/NNOns/btr3lDnb4Cd/6sDBdE6RbmwhqoJjS9kgX0/img.png&quot; data-alt=&quot;출처:&amp;amp;amp;nbsp;datacamp active learning tutorial&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/NNOns/btr3lDnb4Cd/6sDBdE6RbmwhqoJjS9kgX0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FNNOns%2Fbtr3lDnb4Cd%2F6sDBdE6RbmwhqoJjS9kgX0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;509&quot; height=&quot;229&quot; data-origin-width=&quot;509&quot; data-origin-height=&quot;229&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;출처:&amp;amp;nbsp;datacamp active learning tutorial&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000; text-align: start;&quot;&gt;라벨링되지 않은 데이터를 아주 쉽게 얻을 수 있는 경우 사용하는 전략이다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; text-align: start;&quot;&gt;학습 모델(leaner)는 라벨링되지 않은 인스턴스를 보고, 해당 인스턴스가 가진 정보량에 의거해 이것이 라벨링될 가치가 있는지 아닌지를 결정한다. &lt;/span&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; text-align: start;&quot;&gt;이때 인스턴스가 가진 정보량을 평가하기 위해 query strategy라는 것을 사용한다. &lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000; text-align: start;&quot;&gt;모델이 라벨링이 필요하다고 판단한 데이터는 쿼리하고, 아닌 것은 버리는 과정을 반복하며 학습이 이루어진다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;새로운 샘플이 들어오면 모델이 레이블링 필요한지 아닌지를 판단한다.(예, Binary Model)&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;(*) Pool-based Sampling&lt;/span&gt;&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;509&quot; data-origin-height=&quot;152&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/LA0Tv/btr3uFdGh9Q/NuOQKJ3jrr65X0et4g3jb1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/LA0Tv/btr3uFdGh9Q/NuOQKJ3jrr65X0et4g3jb1/img.png&quot; data-alt=&quot;출처:&amp;amp;amp;nbsp;datacamp active learning tutorial&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/LA0Tv/btr3uFdGh9Q/NuOQKJ3jrr65X0et4g3jb1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FLA0Tv%2Fbtr3uFdGh9Q%2FNuOQKJ3jrr65X0et4g3jb1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;509&quot; height=&quot;152&quot; data-origin-width=&quot;509&quot; data-origin-height=&quot;152&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;출처:&amp;amp;nbsp;datacamp active learning tutorial&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000; text-align: start;&quot;&gt;이 방식은 가장 널리 사용되는 방법으로, 라벨링되지 않은 큰 데이터 풀이 존재할 때 사용하는 전략이다. &lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000; text-align: start;&quot;&gt;여기서는 데이터풀에서 정보량 측도에 의거해 인스턴스들을 가지고 오게 된다. 이때 정보량 측도는 데이터풀에 있는 모든 인스턴스들에 대해 적용을 하고, 그중 가장 정보량이 많은 것들을 선택하는 식이다.&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;큰 데이터 Pool이 존재하면, &lt;/span&gt;모델이 중요한 데이터 포인트(data point - query)를 선택한다.&lt;/span&gt;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Stream-based Selective와 Pool-based의 차이&lt;/span&gt;&lt;/h3&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Stream-based는 순차적으로 스캔하며 쿼리를 판단한다&lt;/span&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc; color: #333333; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;숲길을 따라가며, 나무를 선별&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;전체 데이터의 분포를 고려하지 않기 때문에, 눈 앞에 있는 데이터가&amp;nbsp;모델 학습에 큰 영향을 줌&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;딥러닝에서는 더 좋지 않게 판단될 수 있음(향후, Core-set에서 추가 설명할 예정)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Pool-Based는 전체 Collection에서 평가 및 순위를 매긴다&lt;/span&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc; color: #333333; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;전체 숲을 보며, 중요한 나무를 찾기&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Active Learning이라 하면 대부분 Pool-based 방식을 의미한다.&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;현재, 데이터는 넘친다. 다만, 정제가 되지 않아서 문제다.&amp;nbsp;&amp;rarr;&amp;nbsp;현재&amp;nbsp;&lt;u&gt;대표적인 Active Learning방안&lt;/u&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size26&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;&lt;span&gt;Query&lt;span&gt;&amp;nbsp;&lt;/span&gt;Strategy&lt;/span&gt;&lt;/span&gt;&lt;/h2&gt;
&lt;p style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: 'Nanum Gothic';&quot;&gt;라벨이 필요한 인스턴스를 선택하는 전략&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; text-align: start;&quot;&gt;액티브 러닝의 핵심은 과거에 모델이 쿼리했던 인스턴스와 그에 대한 답변(라벨)에 의거하여&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; text-align: start;&quot;&gt;러너&lt;/span&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; text-align: start;&quot;&gt;가 필요한 인스턴스를 쿼리하는 능력에 있다.&lt;/span&gt;&lt;span style=&quot;font-family: 'Nanum Gothic';&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; text-align: start;&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Uncertainty Sampling&lt;/li&gt;
&lt;li&gt;Query By Committee&lt;/li&gt;
&lt;li&gt;Expected Model Change&lt;/li&gt;
&lt;li&gt;Density Weight Method&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Uncertainty Sampling&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;Decision Boundary에 가까운 샘플을 고르자.&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock floatLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;113&quot; data-origin-height=&quot;222&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bUBv4U/btr3uD1eX8C/0Bo0vPnqK8kT8qrMlxKsGK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bUBv4U/btr3uD1eX8C/0Bo0vPnqK8kT8qrMlxKsGK/img.png&quot; data-alt=&quot;Decision Boundary&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bUBv4U/btr3uD1eX8C/0Bo0vPnqK8kT8qrMlxKsGK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbUBv4U%2Fbtr3uD1eX8C%2F0Bo0vPnqK8kT8qrMlxKsGK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;113&quot; height=&quot;222&quot; data-origin-width=&quot;113&quot; data-origin-height=&quot;222&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Decision Boundary&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;'모델이 헷갈리는 데이터 = 학습에 필요한 데이터' 라는 생각에서 시작된다.&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;모델 입장에서 '헷갈리는 데이터'가 무엇일까? 라는 질문에 답은&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span style=&quot;color: #333333;&quot;&gt;Decision Boundary에 가까운 샘플이다.&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;Decision Boundary에 가까운 데이터는, 즉, 헷갈리는 불확실성(Uncertainty)이 높은 데이터이다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000; text-align: start;&quot;&gt;두 개의 데이터 포인트와, 각 데이터포인트가 세 개의 라벨에 속할 확률&lt;/span&gt;&lt;/p&gt;
&lt;table style=&quot;color: #666666; text-align: center; border-collapse: collapse; width: 57.6744%; height: 107px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style12&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;데이터포인트&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;라벨 A&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;라벨 B&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;라벨 C&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;d1&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;0.9&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;0.09&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;0.01&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;d2&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;0.2&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;0.5&lt;/span&gt;&lt;/td&gt;
&lt;td&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;0.3&lt;/span&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;모델 입장에서의, 데이터의 불확실성(Uncertainty)를 측정하는 방식은 크게 3가지&lt;/span&gt;가 있다.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;Top/Least Confidence(LC)&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;최대 확률값이 가장 낮은 데이터를 선별&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;이 전략에서 학습자는 가장 &quot;확실하게&quot; 예측한 라벨에 대해 가장 확신도가 낮은 예제를 선택한다.&lt;/li&gt;
&lt;li&gt;d1은 라벨 A을 0.9의 확신도로, d2는 라벨 B를 0.5의 확신도로 가지고 있다. 따라서&amp;nbsp;러너는 d2의 실제 라벨을 알고 싶어한다.&lt;/li&gt;
&lt;li&gt;이 방법은 가장 그럴듯한 라벨에 대한 확신도만을 사용하고, 다른 라벨에 대한 확률은 고려하지 않는다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;d1: top confidence는 0.9&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;d2: top confidence는 0.5&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;d2의&lt;span&gt;&amp;nbsp;&lt;/span&gt;top confidence&lt;span&gt;&amp;nbsp;&lt;/span&gt;&amp;lt; d1&lt;span&gt;&amp;nbsp;&lt;/span&gt;t&lt;span style=&quot;color: #333333;&quot;&gt;op confidence 이므로,&lt;span&gt;&amp;nbsp;&lt;/span&gt;top confidence가 낮은 d2 선택&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;Margin Sampling&amp;nbsp;&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;가장 확률이 높은 라벨과 두 번째 라벨의 확신도의 차이를 감안하여 데이터를 선별&lt;/span&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;LC에서 최고 확률의 라벨 이외의 것을 고려하지 않는다는 점을 보완하기 위해 고안된 방법.&lt;/li&gt;
&lt;li&gt;가장 확률이 높은 라벨과 두 번째 라벨의 확신도의 차이가 적은 예제를 선택하는 전략이다.&lt;/li&gt;
&lt;li&gt;d1은 0.9 - 0.09 = 0.81, d2는 0.5 - 0.3 = 0.2의 점수를 받고,&amp;nbsp;러너는 역시 d2에 대한 Ground Truth 라벨을 요구한다.&amp;nbsp;&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;Entropy Sampling&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;Entropy가 높은&lt;span&gt;&amp;nbsp;&lt;/span&gt;데이터를 선택&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;이 방법은 모든 가용한 라벨 확률값을 모두 사용하는 방법으로, entropy 개념을 사용한다.&lt;/li&gt;
&lt;li&gt;엔트로피를 구하는 식을 각각의 예제에 적용하고, 엔트로피(=불확실성)가 가장 큰 예제를 쿼리하는 방식이다.&lt;/li&gt;
&lt;li&gt;d1의 엔트로피는 0.115, d2의 엔트로피는 0.447로, 역시 d2를 쿼리하게 된다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;281&quot; data-origin-height=&quot;57&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bWu66e/btr3kxAyBAS/ZpLNHEgFlNz2bvEM0Qx3WK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bWu66e/btr3kxAyBAS/ZpLNHEgFlNz2bvEM0Qx3WK/img.png&quot; data-alt=&quot;Maximum Entropy&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bWu66e/btr3kxAyBAS/ZpLNHEgFlNz2bvEM0Qx3WK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbWu66e%2Fbtr3kxAyBAS%2FZpLNHEgFlNz2bvEM0Qx3WK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;281&quot; height=&quot;57&quot; data-origin-width=&quot;281&quot; data-origin-height=&quot;57&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Maximum Entropy&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;장점&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&amp;nbsp; 1. 구현하기 매우 쉽다.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&amp;nbsp; 2.&lt;span&gt;&amp;nbsp;&lt;/span&gt;성능이 생각보다 좋다.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&amp;nbsp; 3. 딥러닝과의 연계도 생각보다 좋다.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&amp;nbsp; 4. 실험상, Uncertainty 기법 중,&lt;span&gt;&amp;nbsp;&lt;/span&gt;Maximum Entropy가 더 좋은 경우가 많았다.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&amp;nbsp; 단점&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&amp;nbsp; Outlier에 영향을 많이 받는다.&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Outlier인 데이터의 추론 확률 값은 모델이 예측하기 어렵다.&lt;/li&gt;
&lt;li&gt;예를 들어,&amp;nbsp;3class&amp;nbsp;추론 확률값이 0.3, 0.3,&amp;nbsp;0.3으로 나올 가능성이 높으며, 이상치는 Entropy(Uncertainty)가 높다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&lt;span style=&quot;color: #333333;&quot;&gt;&amp;nbsp;데이터를 선별할 때 Diversity(다양성)가 무시되었다.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&amp;nbsp;Diversity(다양성)가 무시된다. 즉,&amp;nbsp;데이터 분포가 고려되지 않는다.&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Query By Committee&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000; text-align: start;&quot;&gt;여러모델을 통해, 마치 앙상블 처럼. 데이터를 선별해 보자&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc; color: #333333; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;여러 모델(Committee 위원회) 에서 투표하여 중요 데이터를 선별&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;여러모델에서 추론한 결과가 다르다 = 헷갈리는 데이터 = 불확실성(Uncertainty) 높음&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;앙상블의 Vote 개념을 Active Learning에서 사용&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;Vote Entropy를 사용 할 수도 있다 (Vote 확률 &amp;rarr; Entropy 계산)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;321&quot; data-origin-height=&quot;67&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/BHPog/btr3ftZJjNz/eIbTY0T4EaLbQ0YE8LqOBK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/BHPog/btr3ftZJjNz/eIbTY0T4EaLbQ0YE8LqOBK/img.png&quot; data-alt=&quot;Vote Entropy&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/BHPog/btr3ftZJjNz/eIbTY0T4EaLbQ0YE8LqOBK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FBHPog%2Fbtr3ftZJjNz%2FeIbTY0T4EaLbQ0YE8LqOBK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;321&quot; height=&quot;67&quot; data-origin-width=&quot;321&quot; data-origin-height=&quot;67&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Vote Entropy&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #555555; text-align: start;&quot;&gt;M : 사용 모델 수(size of ensemble)&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;장점&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;구현이 어렵지 않다.&lt;/li&gt;
&lt;li&gt;앙상블은 좋은 성능을 나타내기 때문에, 이를  활용한 Active Learning의 효과도 좋다&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&amp;nbsp; 단점&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;하나의 모델을 학습하는데 많은 비용이 드는 딥러닝에선 쓸수가 없다.&lt;/li&gt;
&lt;li&gt;딥러닝 모델 학습 * 앙상블모델 수 * Active Learning 반복수 = Active Learning을 통한 자원 절감의 효과가 떨어진다.&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Expected Model Change&amp;nbsp;&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;모델을 가장 업데이트 &lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;할 수 있는 데이터가 중요하다&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Expected Gradient Length(EGL, 기대 Gradient, &lt;a style=&quot;color: #3d62ce;&quot; href=&quot;https://arxiv.org/pdf/1612.03226.pdf&quot;&gt;arxiv.org/pdf/1612.03226.pdf&lt;/a&gt;)가 가장 큰 데이터를 선별&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;250&quot; data-origin-height=&quot;60&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cwhIRV/btr3ftFtaT5/86v32ZRRdNrKQwKcOpkzi0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cwhIRV/btr3ftFtaT5/86v32ZRRdNrKQwKcOpkzi0/img.png&quot; data-alt=&quot;Expected Gradient Length&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cwhIRV/btr3ftFtaT5/86v32ZRRdNrKQwKcOpkzi0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcwhIRV%2Fbtr3ftFtaT5%2F86v32ZRRdNrKQwKcOpkzi0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;250&quot; height=&quot;60&quot; data-origin-width=&quot;250&quot; data-origin-height=&quot;60&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Expected Gradient Length&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal; color: #333333; text-align: start;&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li style=&quot;list-style-type: decimal; color: #000000;&quot;&gt;&lt;span&gt;RNN에서 class별 Norm Gradient를 계산(Backpropagation)한다.&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: decimal; color: #000000;&quot;&gt;계산된 기대값이 큰 데이터를 선별한다.&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;장점&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;EGL 방식이 모델(Estimator)의 분산을 줄인다고 증명함&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;단점&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;RNN(Speech)에 한정적인 성능을 보일 수 있음&lt;/li&gt;
&lt;li&gt;CNN 실험에서는 낮은 성능을 보여줌 &amp;rarr; Task마다의 성능이 크다는 건 큰 단점이다.&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style7&quot; /&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;Density Weight Method&lt;/span&gt;&lt;/h3&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;span style=&quot;text-align: start;&quot;&gt;불확실성과 밀집도&lt;/span&gt;&lt;span style=&quot;text-align: start;&quot;&gt;가 높은 곳에 있는 데이터를 선택하자.&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc; color: #333333; text-align: start;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;Outlier에 취약한&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;span&gt;Uncertainty의 단점을 커버하기 위해서,&lt;span&gt;&amp;nbsp;&lt;/span&gt;Density개념을 추가했다&lt;/span&gt;&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;밀집도가 높은 곳에 위치한 데이터는 Outlier일 가능성이 낮다.(Outlier는 Feature Space상, 멀리 떨어져 있다)&lt;/li&gt;
&lt;li style=&quot;list-style-type: disc; color: #000000;&quot;&gt;밀집도를 계산하는 방법에 따라서, 여러가지가 파생되었다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span&gt;&amp;nbsp;&lt;/span&gt;장점&amp;nbsp;&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&amp;nbsp;Outlier에 취약한 Uncertainty의 단점을 커버하기 위해서, Density 개념을 추가했다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #555555; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&amp;nbsp; 단점&amp;nbsp;&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Outlier를 확실하게 방지 할 수 있지만, '밀집도(Density)가 높은 데이터가 꼭 좋은 데이터 일까?' 라는 의문이 있다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;Unlabeled 데이터에서는 부적합할 수 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;Active Learning 단계&lt;/h2&gt;
&lt;h3 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; font-size: 16px; letter-spacing: 0px;&quot;&gt;Step 0. 데이터 수집&lt;/span&gt;&lt;/b&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;실제 데이터의 분포를 반영하도록 데이터셋을 수집한다.&lt;/li&gt;
&lt;li&gt;이때 수집되는 데이터는 라벨링되지 않은 데이터셋.&amp;nbsp;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;&lt;span&gt;Step 1. 데이터셋 분할&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;모델 학습에 사용할 시드 데이터(Seed, labelled)와 이외의 라벨링되지 않은 데이터를 나눈다.&lt;/li&gt;
&lt;li&gt;수집한 데이터 중 일부는 라벨링이 이루어지고, 나머지 부분은 라벨링되지 않은 상태로 남아있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;Step 2. 모델 학습&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;일반적인 기계학습과 같은 방법(cross-validation 등)으로 라벨링된 데이터를 학습한다.&amp;nbsp;&lt;/li&gt;
&lt;li&gt;이 과정을 통해&amp;nbsp;러너는 데이터 도메인에 대한 지식을 학습하게 된다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;Step 3. 라벨링되지 않은 데이터 중 선택&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;query strategy를 이용해 추가적으로 라벨링이 필요한 데이터를 선택한다.&amp;nbsp;&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #666666; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: 'Nanum Gothic'; color: #000000;&quot;&gt;Step 4. 학습 중단 기준 마련&lt;/span&gt;&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;이제 어떤 기준에 만족할 때까지 Step 2~3을 반복하며 모델을 고도화하게 된다.&lt;/li&gt;
&lt;li&gt;예를 들어, test 데이터를 미리 나누어 두고, 이 테스트 데이터에 대한 성능이 나아지지 않으면 과정을 중단하게 한다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;References&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://dsgissin.github.io/DiscriminativeActiveLearning/2018/07/05/AL-Intro.html&quot;&gt;dsgissin.github.io/DiscriminativeActiveLearning/2018/07/05/AL-Intro.html&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://blog.thedatahunt.com/9758/&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://blog.thedatahunt.com/9758/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://littlefoxdiary.tistory.com/52&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://littlefoxdiary.tistory.com/52&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://kmhana.tistory.com/4&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://kmhana.tistory.com/4&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://kmhana.tistory.com/5&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://kmhana.tistory.com/5&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Machine Learning/Machine Learning</category>
      <category>Active learning</category>
      <category>액티브 러닝</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/396</guid>
      <comments>https://yumdata.tistory.com/396#entry396comment</comments>
      <pubDate>Sun, 12 Mar 2023 21:29:39 +0900</pubDate>
    </item>
    <item>
      <title>[NLP] Natural Language Processing (자연어 처리)</title>
      <link>https://yumdata.tistory.com/395</link>
      <description>&lt;h2 data-ke-size=&quot;size26&quot;&gt;Natural&amp;nbsp;Language&amp;nbsp;Processing&amp;nbsp;(자연어&amp;nbsp;처리)&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;컴퓨터를 이용하여 인간 언어의 이해&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;생성 및 분석을 다루는 인공지능 기술&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;924&quot; data-origin-height=&quot;658&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/lEefj/btr2D5EjZyZ/Bhp5JS6DjBx1pdATxee22K/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/lEefj/btr2D5EjZyZ/Bhp5JS6DjBx1pdATxee22K/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/lEefj/btr2D5EjZyZ/Bhp5JS6DjBx1pdATxee22K/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FlEefj%2Fbtr2D5EjZyZ%2FBhp5JS6DjBx1pdATxee22K%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;486&quot; height=&quot;346&quot; data-origin-width=&quot;924&quot; data-origin-height=&quot;658&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;자연어 이해, NLU(Natural Language Understanding)&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;문자로 된 언어를 입력으로 직접 받아들여서,&lt;span&gt;&amp;nbsp;&lt;/span&gt;목적에 맞게 내부적으로 처리해내는 과정&lt;/li&gt;
&lt;li&gt;자연어 표현을 기계가 이해할 수 있는 다른 표현으로 변환시키는 것&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;자연어 생성&lt;span style=&quot;color: #000000;&quot;&gt;, NLG(Natural Language Generation)&lt;/span&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;주어진 수치 등의 정보를 바탕으로 문장을 생성하여 사용자에게 자연어로 응답을 돌려주는 기술&lt;/li&gt;
&lt;li&gt;지식 기반이나 논리 형식과 같은 기계 표현에서 의미 표현으로 자연어 문장 생성 기술&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;자연어 처리 단계&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignLeft&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;580&quot; data-origin-height=&quot;362&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/kIRGy/btr2D8A27A6/t7v2YkNRkoVrVNnumiB5PK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/kIRGy/btr2D8A27A6/t7v2YkNRkoVrVNnumiB5PK/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/kIRGy/btr2D8A27A6/t7v2YkNRkoVrVNnumiB5PK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FkIRGy%2Fbtr2D8A27A6%2Ft7v2YkNRkoVrVNnumiB5PK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;354&quot; height=&quot;221&quot; data-origin-width=&quot;580&quot; data-origin-height=&quot;362&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Corpus (&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;말뭉치&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;)&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;특정한 목적을 가지고 수집한 자연어 데이터&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;. &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;수많은 단어와 문장&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;문서로 이뤄진 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;text &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;데이터 그 자체&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;.&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Token&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;문법적으로 더 이상 나눌 수 없는 언어요소&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;보통 의미를 가지는 최소 단위&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;단어&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;/&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;문장&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;/&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;형태소&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #202122;&quot;&gt;morpheme&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;언어학에서 일정한 의미가 있는 가장 작은 말의 단위&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;)&lt;/span&gt;&lt;/p&gt;
&lt;pre id=&quot;code_1678171922021&quot; class=&quot;makefile&quot; data-ke-language=&quot;html&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;철수가 팥죽을 맛있게 먹고 있다.
단어: 철수, 가, 팥죽, 을, 맛있게, 먹고, 있다
형태소: 철수, 가, 팥, 죽, 을, 맛, 있-, -게, 먹-, -고, 있-, -다&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;※ 영어의 경우에는 단어 단위, 한국어의 경우에는 형태소 단위 tokenization이 언어처리 시 성능을 좋게할 수 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Tokenization&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;주어진 코퍼스&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;corpus)&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;에서 토큰&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;token)&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;이라 불리는 단위로 나누는 작업&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 돕는 방법&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;POS(Part-of-Speech) Tagging&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;형태소의 뜻과 문맥을 고려하여 그것에 마크업을 하는 일&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Vocabulary&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Corpus&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;에 있는 모든 문서&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;, &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;문장을 &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;토큰화한&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 것으로 토큰&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;(&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;단어&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;)&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;의 중복을 제거한 뒤의 집합&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;OOV(Out of Vocabulary)&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;자연어처리 모델 학습 데이터의 어휘 사전에 등록되어 있지 않은 단어&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;들&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Vectorization&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;자연어 처리에서는 기계가 문자를 이해 할 수 있도록 수치화해주는 과정&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;Embedding&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;사람이 쓰는&amp;nbsp;자연어를 기계가 이해할 수 있는 숫자의 나열인&amp;nbsp;벡터로 바꾼 결과 혹은 그 과정 전체를 의미&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #121717;&quot;&gt;단어나 문장 각각을 벡터로 변환해 벡터 공간&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;(Vector space)&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;으로&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; 끼워&lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt; &lt;/span&gt;&lt;span style=&quot;color: #121717;&quot;&gt;넣는다는 의미&lt;/span&gt;&lt;/p&gt;</description>
      <category>NLP/NLP 기초</category>
      <category>Corpus</category>
      <category>natural language processing</category>
      <category>NLP</category>
      <category>token</category>
      <category>자연어처리</category>
      <category>코퍼스</category>
      <category>토큰</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/395</guid>
      <comments>https://yumdata.tistory.com/395#entry395comment</comments>
      <pubDate>Tue, 7 Mar 2023 15:53:34 +0900</pubDate>
    </item>
    <item>
      <title>PII (Personally Identifiable Information, 개인 식별 정보)</title>
      <link>https://yumdata.tistory.com/394</link>
      <description>&lt;h3 data-ke-size=&quot;size23&quot;&gt;PII (Personally Identifiable Information, 개인 식별 정보)&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;잠재적으로 특정 개인을 식별할 수 있는 모든 데이터&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;background-color: #ffffff; color: #000000;&quot;&gt;한 사람을 다른 사람과 구별하는 데 사용할 수 있고 이전에 익명이었던 데이터를 익명화하는 데 사용할 수 있는 모든 정보는 PII로 간주&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;사람으로 개인으로 고유하게 식별할 수 있는 모든 정보&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;name&lt;/li&gt;
&lt;li&gt;address&lt;/li&gt;
&lt;li&gt;email&lt;/li&gt;
&lt;li&gt;telephone number&lt;/li&gt;
&lt;li&gt;date of birth&lt;/li&gt;
&lt;li&gt;passport number&lt;/li&gt;
&lt;li&gt;fingerprint&lt;/li&gt;
&lt;li&gt;driver's license number&lt;/li&gt;
&lt;li&gt;credit or debit card number&lt;/li&gt;
&lt;li&gt;Social Security number&lt;/li&gt;
&lt;/ul&gt;
&lt;hr contenteditable=&quot;false&quot; data-ke-type=&quot;horizontalRule&quot; data-ke-style=&quot;style5&quot; /&gt;
&lt;h2 data-ke-size=&quot;size26&quot;&gt;References&lt;/h2&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;a href=&quot;https://www.techtarget.com/searchsecurity/definition/personally-identifiable-information-PII&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;https://www.techtarget.com/searchsecurity/definition/personally-identifiable-information-PII&lt;/a&gt;&lt;/p&gt;</description>
      <category>NLP/NLP 기초</category>
      <category>pii</category>
      <category>개인식별정보</category>
      <author>데이터 세상</author>
      <guid isPermaLink="true">https://yumdata.tistory.com/394</guid>
      <comments>https://yumdata.tistory.com/394#entry394comment</comments>
      <pubDate>Tue, 13 Dec 2022 18:11:32 +0900</pubDate>
    </item>
  </channel>
</rss>