분류 전체보기
-
Final Round. Problem 1 Gene ExpressionBioinformatics/Bioinformatics Contest 2017 2019. 8. 28. 23:37
https://stepik.org/lesson/32224/step/2?unit=19659 Problem 1 Problem 1 stepik.org 하나의 genome에서 유래한 expression level을 구하는 문제이다. N개의 genome과 그것들로부터 유래된 rna 조각들을 M개를 주었을때 하나의 genome으로 부터 유래한 rna의 갯수를 세어야 한다. 즉 2개의 genome과 겹치는 rna들을 제외해야 한다. 간단하게 생각해보면 다음과 같은 코드로 가능하다. import sys from functools import reduce import bisect input = [] # with open('F1') as f: # for line in f.readlines(): # input.append(..
-
Google Kick Start 2019 Round D - X or What?CS/Kick Start 2019. 8. 3. 01:42
https://codingcompetitions.withgoogle.com/kickstart/round/0000000000051061/0000000000161426 Kick Start - Google’s Coding Competitions Hone your coding skills with algorithmic puzzles meant for students and those new to coding competitions. Participate in one round or join them all. codingcompetitions.withgoogle.com 자연수 i를 이진수로 표현했을때 1의 갯수를 n(i)라고 표시해보자. 두개의 숫자를 xor하는 경우를 생각해보면 홀짝의 경우에 따라 4가지의 경우..
-
Burrows-Wheeler Transform (버로우스-휠러 변환)Bioinformatics 2019. 8. 2. 23:58
BWT는 bzip2에서 사용되는 알고리즘 중 하나이다. 비슷한 단어(패턴)이 많다는 점에 착안하여 그것들을 모음으로써 run length encoding을 사용할 수 있게끔 해준다. 예를들어 'very_very_very_very_long'이라는 문장에 BWT를 적용한다면 'gyyyyvvvvn_oleeee___$rrrr'가 되며 run length encoding을 적용하게 되면 'g4y4vn_ol4e3_$4r'이 된다. 변환 과정은 https://ko.wikipedia.org/wiki/%EB%B2%84%EB%A1%9C%EC%9A%B0%EC%A6%88-%ED%9C%A0%EB%9F%AC_%EB%B3%80%ED%99%98 버로우즈-휠러 변환 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전...
-
대한민국 넷페미사 2 - 워마드 못 잃어잡담 2019. 6. 24. 18:36
1장이 권김현영이라는 페미니스트의 역사강의?였다면 2장은 좀 더 재미있는 내용이다. 손희정이라는 트페미 내용이다. 페미니즘이 15년부터 본격적으로 인터넷에서 혐오발언을 쏟아내고 비판받기 시작했다. 15년 여성시대 카페가 여론조작과 내부고발로 문제가 불거졌을때 트위터로 대거 이주하면서 트페미들이 급증했다. 일단 책의 내용으로 돌아가보자. "페미니스트 정체화 이전에도 나는 꼴페미였고, 양인 여혐들의 언어에 감명받은 자들에겐 페미나치였고, 트위터에서 #나는페미니스트다 태그를 했을 땐 트페미였고, 그 이후엔 여시였고, 최근엔 메갈이고. 그래서 어쩌란 건가? 그 과정에서 수없이 많은 사람들이 내게 꼴페미는 아닌지, 트페미는 아닌지, 여시는 아닌지, 메갈은 아닌지 검증하려고 하고 '그 사악한 여자들과 네가 다르단 ..
-
Pigeonhole Principle for Approximate Sequence MatchingBioinformatics 2019. 6. 23. 19:06
비둘기집원리는 예전부터 지겹도록 듣던 원리중 하나이다. 매우 직관적이고 쓰이는곳도 많지만 approximate sequence matching을 위해서 사용될 수도 있다. Approximate matching은 exact matching과 반대된다고도 할 수 있다. Exact matching은 정확하게 sequence가 같아야 하지만 approximate matching은 어느정도의 edit distance를 허용한다. Edit distance는 수정거리를 뜻한다. 두개의 seq가 있을때 한 seq를 다른 seq로 변형할때 최소한의 편집으로 횟수를 뜻한다. 수정이란 삽입, 삭제, 변형을 뜻한다. 예를들어 AAGTTAC AACTTAGC 두개의 seq가 주어졌을때 edit distance는 2이다. AAGT..
-
Error Correction in ReadsBioinformatics/Rosalind 2019. 6. 19. 14:45
http://rosalind.info/problems/corr/ ROSALIND | Error Correction in Reads It appears that your browser has JavaScript disabled. Rosalind requires your browser to be JavaScript enabled. Error Correction in Reads solved by 1467 2012년 7월 2일 12:00:00 오전 by Mikhail Dvorkin Topics: Genome Assembly Genome Sequencing Isn't Perfect In “G rosalind.info DNA seq에서 하나의 base에 err가 발생했을때 이를 교정하는 문제이다. 입력된 seque..
-
Finding a Spliced MotifBioinformatics/Rosalind 2019. 6. 19. 14:40
http://rosalind.info/problems/sseq/ ROSALIND | Finding a Spliced Motif It appears that your browser has JavaScript disabled. Rosalind requires your browser to be JavaScript enabled. Finding a Spliced Motif solved by 3298 2012년 7월 13일 12:00:00 오전 by Rosalind Team Topics: String Algorithms Motifs Are Rarely Contiguous In “Findi rosalind.info Bioinformatics Contest 2017의 Qualification Round 3와 사실상 ..
-
k-Mer CompositionBioinformatics/Rosalind 2019. 6. 18. 23:26
http://rosalind.info/problems/kmer/ ROSALIND | k-Mer Composition It appears that your browser has JavaScript disabled. Rosalind requires your browser to be JavaScript enabled. k-Mer Composition solved by 2226 2012년 7월 13일 12:00:00 오전 by Gabriel Valiente Topics: String Algorithms Generalizing GC-Content Figure 1. The 2-m rosalind.info input으로 들어온 fasta파일에 있는 sequence에 k-mer의 각각의 갯수를 세서 사전순서대로 출력해..